OpenClaw: głosowy asystent z Whisper + ElevenLabs

OpenClaw: głosowy asystent z Whisper + ElevenLabs

OPUBLIKOWANO: 11 lutego 2026

Pisanie do asystenta AI jest wygodne, ale w praktyce głos wygrywa, gdy jesteś w biegu: w samochodzie (bez klikania), w magazynie (zajęte ręce), na spacerze (notatki „na świeżo”). Jeśli Twoje najlepsze pomysły pojawiają się w ruchu, głosowy interfejs jest po prostu najkrótszą drogą od myśli do działania.

W OpenClaw obsługa głosu to nie sztuczka. To konkretny pipeline: audio → transkrypt → odpowiedź → audio. Ty wysyłasz notatkę głosową (np. na Telegramie), OpenClaw robi transkrypcję (lokalnie albo przez providera), agent pracuje na tekście, a potem (opcjonalnie) dostajesz odpowiedź jako audio.

Poniżej pokazuję, jak ułożyć to sensownie: jak działa transkrypcja w tools.media.audio, jak skonfigurować TTS w messages.tts, jak dobrać tryb (always vs inbound vs tagged) oraz jak nie spalić budżetu i nie zrobić chaosu w komunikacji.

  1. Architektura: od notatki głosowej do notatki głosowej
  2. Whisper i STT: transkrypcja w OpenClaw (auto-detection + konfiguracja)
  3. TTS: ElevenLabs / OpenAI / Edge i tryby auto
  4. Kanały: Telegram vs WhatsApp vs Signal (różnice UX)
  5. Praktyczne workflow: brief głosowy → zadania i następny krok
  6. Koszty i kontrola: jak używać głosu bez „audio spamu”

Architektura: od notatki głosowej do notatki głosowej

Najprostszy scenariusz jest zaskakująco prosty.

Wysyłasz wiadomość głosową do asystenta (np. w Telegramie). OpenClaw pobiera audio i robi transkrypcję. Jeśli transkrypcja się uda, OpenClaw wstawia do treści wiadomości blok [Audio] oraz udostępnia transkrypt jako Transcript – dzięki temu agent nie „zgaduje” z pliku audio, tylko pracuje na czystym tekście.

Potem agent generuje odpowiedź tekstową. A jeśli włączysz TTS, OpenClaw zamieni odpowiedź na audio i odeśle ją z powrotem – na Telegramie jako natywną wiadomość głosową (tzw. „okrągła” chmurka), a w pozostałych kanałach jako załącznik audio.

Pipeline głosowy w OpenClaw (w skrócie)
EtapCo się dziejeCo jest ważne w praktyce
1) Inbound audioNotatka głosowa trafia do GatewayLimit rozmiaru audio ma znaczenie
2) STTTranskrypcja (CLI lub provider)Transkrypt staje się treścią wiadomości
3) AgentRozumowanie i decyzjaNajlepiej działa na krótkich, konkretnych briefach
4) TTS (opcjonalnie)Odpowiedź tekstowa → audioTryb auto decyduje o kosztach i UX

Whisper i STT: transkrypcja w OpenClaw (auto-detection + konfiguracja)

Transkrypcja audio w OpenClaw jest częścią „media understanding”. Konfigurujesz ją przez tools.media.audio. Kluczowa rzecz: jeśli nie ustawisz modeli ręcznie i nie wyłączysz tej funkcji, OpenClaw spróbuje auto-detekcji i zatrzyma się na pierwszej działającej opcji.

Auto-detekcja zaczyna od lokalnych narzędzi (jeśli są na PATH), a potem przechodzi do providerów (jeśli masz klucze). Dla wielu firm to dobry kompromis: najpierw prywatnie i tanio lokalnie, a jeśli nie działa – fallback do API.

Jeśli chcesz mieć pełną kontrolę, ustaw własną listę models w kolejności priorytetu. Poniżej przykład „provider + fallback do Whisper CLI” (to wzorzec, który daje wysoką niezawodność):

json5
{
  tools: {
    media: {
      audio: {
        enabled: true,
        maxBytes: 20971520,
        models: [
          { provider: "openai", model: "gpt-4o-mini-transcribe" },
          {
            type: "cli",
            command: "whisper",
            args: ["--model", "base", "MediaPath"],
            timeoutSeconds: 45
          }
        ]
      }
    }
  }
}

W praktyce warto pamiętać o trzech rzeczach.

Po pierwsze: limit rozmiaru. Domyślny cap to 20 MB (tools.media.audio.maxBytes). Dłuższe nagrania mogą zostać pominięte dla danego modelu i wtedy OpenClaw spróbuje następnej opcji.

Po drugie: komendy slash. Gdy transkrypcja się uda, OpenClaw ustawia CommandBody/RawBody na transkrypt, więc komendy w stylu /tts inbound dalej działają, nawet jeśli wyślesz je w formie głosowej.

Po trzecie: zakres (scoping). Jeśli nie chcesz transkrybować audio w grupach, możesz dodać reguły zakresu – to prosty sposób na ochronę prywatności i kosztów.

TTS: ElevenLabs / OpenAI / Edge i tryby auto

TTS (text-to-speech) konfiguruje się w OpenClaw pod messages.tts. Auto-TTS jest domyślnie wyłączone, więc nic „nie zacznie gadać” bez Twojej decyzji.

Masz trzy główne opcje dostawcy: ElevenLabs, OpenAI oraz Edge TTS. Edge nie wymaga klucza API i jest wygodnym fallbackiem, ale w kontekście biznesowym traktuj go jako best-effort (bez gwarantowanych limitów).

Najważniejsze jest jednak nie „kto mówi”, tylko kiedy OpenClaw ma mówić. O tym decyduje messages.tts.auto.

Tryby auto-TTS (praktyczny wybór)
TrybCo robiKiedy ma sens
offBrak audio w odpowiedziachGdy głos używasz tylko do transkrypcji
alwaysZawsze dodaje audioGdy słuchasz odpowiedzi (np. w aucie), ale licz się z kosztami
inboundAudio tylko po inbound voice noteNajbardziej naturalny UX: głos za głos
taggedAudio tylko, gdy odpowiedź zawiera tag [[tts]]Gdy chcesz pełnej kontroli i zero przypadkowego audio

Minimalna konfiguracja (np. ElevenLabs) może wyglądać tak:

json5
{
  messages: {
    tts: {
      auto: "inbound",
      provider: "elevenlabs"
    }
  }
}

Jeśli chcesz sterować TTS „na żywo”, OpenClaw ma komendy per sesja (/tts always, /tts inbound, /tts off). To najlepszy sposób, żeby dopasować tryb do kontekstu: inny w pracy przy biurku, inny w drodze.

Whisper działa lokalnie – Twoje nagrania nie opuszczają serwera. ElevenLabs daje naturalny głos, ale wymaga API. Dla wrażliwych rozmów rozważ Edge TTS – gorszy głos, ale zero wysyłania danych.

Kanały: Telegram vs WhatsApp vs Signal (różnice UX)

W praktyce najlepsze doświadczenie głosowe daje Telegram, bo voice note jest natywnym formatem rozmowy. OpenClaw potrafi odesłać audio w formie, która wygląda jak normalna „okrągła” wiadomość głosowa, co daje najbardziej naturalny flow.

Na WhatsApp i Signal zwykle dostajesz audio jako załącznik. To nadal działa, ale UX jest inny: bardziej „plik” niż „rozmowa”. Jeśli budujesz voice workflow w firmie, warto to uwzględnić, żeby ludzie nie czuli, że komunikacja jest ciężka.

Praktyczne workflow: brief głosowy → zadania i następny krok

Najczęstszy use case w MŚP to „zrzut z głowy”. Nagraj 30–60 sekund: co się wydarzyło, co trzeba zrobić, co jest ryzykiem. Potem poproś asystenta o konkretny output: checklistę, priorytety, e-mail do klienta, plan na jutro.

Dobrze działa zasada: jedno nagranie = jeden cel. Jeśli wrzucisz pięć tematów naraz, agent zrobi pięć półodpowiedzi. Jeśli dasz jeden temat, dostaniesz realny następny krok.

Druga dobra praktyka to proszenie o format, który jest łatwy do wdrożenia: „daj 5 kroków, maksymalnie po 1 zdaniu” albo „podaj 3 opcje i rekomendację”. To jest przewidywalne, a przewidywalność to najcenniejsza cecha automatyzacji.

Koszty i kontrola: jak używać głosu bez „audio spamu”

Voice pipeline ma dwa potencjalne koszty: transkrypcję (STT) i syntezę (TTS). Najprostszy sposób na kontrolę budżetu to tryb auto: inbound albo auto: tagged. Wtedy audio pojawia się tylko wtedy, gdy naprawdę ma sens.

Warto też ustawić limity po stronie TTS (np. messages.tts.maxTextLength), żeby asystent nie próbował czytać na głos trzydziestu akapitów. Długie odpowiedzi w audio brzmią źle i męczą użytkownika. Lepiej, żeby asystent zrobił krótkie podsumowanie i zaproponował rozwinięcie na żądanie.

Jeśli chcesz mieć pełną kontrolę nad kosztami providerów, traktuj je jak każdy inny komponent: sprawdzaj aktualne cenniki i limity u dostawcy, a konfigurację buduj tak, żeby w razie problemu mieć fallback (np. CLI → provider albo provider → inny provider).

Chcesz wdrożyć głosowego asystenta AI?

CZYTAJ TAKŻE:
OpenClaw: głosowy asystent z Whisper + ElevenLabs