OPUBLIKOWANO: 11 lutego 2026
Pisanie do asystenta AI jest wygodne, ale w praktyce głos wygrywa, gdy jesteś w biegu: w samochodzie (bez klikania), w magazynie (zajęte ręce), na spacerze (notatki „na świeżo”). Jeśli Twoje najlepsze pomysły pojawiają się w ruchu, głosowy interfejs jest po prostu najkrótszą drogą od myśli do działania.
W OpenClaw obsługa głosu to nie sztuczka. To konkretny pipeline: audio → transkrypt → odpowiedź → audio. Ty wysyłasz notatkę głosową (np. na Telegramie), OpenClaw robi transkrypcję (lokalnie albo przez providera), agent pracuje na tekście, a potem (opcjonalnie) dostajesz odpowiedź jako audio.
Poniżej pokazuję, jak ułożyć to sensownie: jak działa transkrypcja w tools.media.audio, jak skonfigurować TTS w messages.tts, jak dobrać tryb (always vs inbound vs tagged) oraz jak nie spalić budżetu i nie zrobić chaosu w komunikacji.
- Architektura: od notatki głosowej do notatki głosowej
- Whisper i STT: transkrypcja w OpenClaw (auto-detection + konfiguracja)
- TTS: ElevenLabs / OpenAI / Edge i tryby auto
- Kanały: Telegram vs WhatsApp vs Signal (różnice UX)
- Praktyczne workflow: brief głosowy → zadania i następny krok
- Koszty i kontrola: jak używać głosu bez „audio spamu”
Architektura: od notatki głosowej do notatki głosowej
Najprostszy scenariusz jest zaskakująco prosty.
Wysyłasz wiadomość głosową do asystenta (np. w Telegramie). OpenClaw pobiera audio i robi transkrypcję. Jeśli transkrypcja się uda, OpenClaw wstawia do treści wiadomości blok [Audio] oraz udostępnia transkrypt jako Transcript – dzięki temu agent nie „zgaduje” z pliku audio, tylko pracuje na czystym tekście.
Potem agent generuje odpowiedź tekstową. A jeśli włączysz TTS, OpenClaw zamieni odpowiedź na audio i odeśle ją z powrotem – na Telegramie jako natywną wiadomość głosową (tzw. „okrągła” chmurka), a w pozostałych kanałach jako załącznik audio.
| Etap | Co się dzieje | Co jest ważne w praktyce |
| 1) Inbound audio | Notatka głosowa trafia do Gateway | Limit rozmiaru audio ma znaczenie |
| 2) STT | Transkrypcja (CLI lub provider) | Transkrypt staje się treścią wiadomości |
| 3) Agent | Rozumowanie i decyzja | Najlepiej działa na krótkich, konkretnych briefach |
| 4) TTS (opcjonalnie) | Odpowiedź tekstowa → audio | Tryb auto decyduje o kosztach i UX |
Whisper i STT: transkrypcja w OpenClaw (auto-detection + konfiguracja)
Transkrypcja audio w OpenClaw jest częścią „media understanding”. Konfigurujesz ją przez tools.media.audio. Kluczowa rzecz: jeśli nie ustawisz modeli ręcznie i nie wyłączysz tej funkcji, OpenClaw spróbuje auto-detekcji i zatrzyma się na pierwszej działającej opcji.
Auto-detekcja zaczyna od lokalnych narzędzi (jeśli są na PATH), a potem przechodzi do providerów (jeśli masz klucze). Dla wielu firm to dobry kompromis: najpierw prywatnie i tanio lokalnie, a jeśli nie działa – fallback do API.
Jeśli chcesz mieć pełną kontrolę, ustaw własną listę models w kolejności priorytetu. Poniżej przykład „provider + fallback do Whisper CLI” (to wzorzec, który daje wysoką niezawodność):
{
tools: {
media: {
audio: {
enabled: true,
maxBytes: 20971520,
models: [
{ provider: "openai", model: "gpt-4o-mini-transcribe" },
{
type: "cli",
command: "whisper",
args: ["--model", "base", "MediaPath"],
timeoutSeconds: 45
}
]
}
}
}
}W praktyce warto pamiętać o trzech rzeczach.
Po pierwsze: limit rozmiaru. Domyślny cap to 20 MB (tools.media.audio.maxBytes). Dłuższe nagrania mogą zostać pominięte dla danego modelu i wtedy OpenClaw spróbuje następnej opcji.
Po drugie: komendy slash. Gdy transkrypcja się uda, OpenClaw ustawia CommandBody/RawBody na transkrypt, więc komendy w stylu /tts inbound dalej działają, nawet jeśli wyślesz je w formie głosowej.
Po trzecie: zakres (scoping). Jeśli nie chcesz transkrybować audio w grupach, możesz dodać reguły zakresu – to prosty sposób na ochronę prywatności i kosztów.
TTS: ElevenLabs / OpenAI / Edge i tryby auto
TTS (text-to-speech) konfiguruje się w OpenClaw pod messages.tts. Auto-TTS jest domyślnie wyłączone, więc nic „nie zacznie gadać” bez Twojej decyzji.
Masz trzy główne opcje dostawcy: ElevenLabs, OpenAI oraz Edge TTS. Edge nie wymaga klucza API i jest wygodnym fallbackiem, ale w kontekście biznesowym traktuj go jako best-effort (bez gwarantowanych limitów).
Najważniejsze jest jednak nie „kto mówi”, tylko kiedy OpenClaw ma mówić. O tym decyduje messages.tts.auto.
| Tryb | Co robi | Kiedy ma sens |
| off | Brak audio w odpowiedziach | Gdy głos używasz tylko do transkrypcji |
| always | Zawsze dodaje audio | Gdy słuchasz odpowiedzi (np. w aucie), ale licz się z kosztami |
| inbound | Audio tylko po inbound voice note | Najbardziej naturalny UX: głos za głos |
| tagged | Audio tylko, gdy odpowiedź zawiera tag [[tts]] | Gdy chcesz pełnej kontroli i zero przypadkowego audio |
Minimalna konfiguracja (np. ElevenLabs) może wyglądać tak:
{
messages: {
tts: {
auto: "inbound",
provider: "elevenlabs"
}
}
}Jeśli chcesz sterować TTS „na żywo”, OpenClaw ma komendy per sesja (/tts always, /tts inbound, /tts off). To najlepszy sposób, żeby dopasować tryb do kontekstu: inny w pracy przy biurku, inny w drodze.
Whisper działa lokalnie – Twoje nagrania nie opuszczają serwera. ElevenLabs daje naturalny głos, ale wymaga API. Dla wrażliwych rozmów rozważ Edge TTS – gorszy głos, ale zero wysyłania danych.
Kanały: Telegram vs WhatsApp vs Signal (różnice UX)
W praktyce najlepsze doświadczenie głosowe daje Telegram, bo voice note jest natywnym formatem rozmowy. OpenClaw potrafi odesłać audio w formie, która wygląda jak normalna „okrągła” wiadomość głosowa, co daje najbardziej naturalny flow.
Na WhatsApp i Signal zwykle dostajesz audio jako załącznik. To nadal działa, ale UX jest inny: bardziej „plik” niż „rozmowa”. Jeśli budujesz voice workflow w firmie, warto to uwzględnić, żeby ludzie nie czuli, że komunikacja jest ciężka.
Praktyczne workflow: brief głosowy → zadania i następny krok
Najczęstszy use case w MŚP to „zrzut z głowy”. Nagraj 30–60 sekund: co się wydarzyło, co trzeba zrobić, co jest ryzykiem. Potem poproś asystenta o konkretny output: checklistę, priorytety, e-mail do klienta, plan na jutro.
Dobrze działa zasada: jedno nagranie = jeden cel. Jeśli wrzucisz pięć tematów naraz, agent zrobi pięć półodpowiedzi. Jeśli dasz jeden temat, dostaniesz realny następny krok.
Druga dobra praktyka to proszenie o format, który jest łatwy do wdrożenia: „daj 5 kroków, maksymalnie po 1 zdaniu” albo „podaj 3 opcje i rekomendację”. To jest przewidywalne, a przewidywalność to najcenniejsza cecha automatyzacji.
Koszty i kontrola: jak używać głosu bez „audio spamu”
Voice pipeline ma dwa potencjalne koszty: transkrypcję (STT) i syntezę (TTS). Najprostszy sposób na kontrolę budżetu to tryb auto: inbound albo auto: tagged. Wtedy audio pojawia się tylko wtedy, gdy naprawdę ma sens.
Warto też ustawić limity po stronie TTS (np. messages.tts.maxTextLength), żeby asystent nie próbował czytać na głos trzydziestu akapitów. Długie odpowiedzi w audio brzmią źle i męczą użytkownika. Lepiej, żeby asystent zrobił krótkie podsumowanie i zaproponował rozwinięcie na żądanie.
Jeśli chcesz mieć pełną kontrolę nad kosztami providerów, traktuj je jak każdy inny komponent: sprawdzaj aktualne cenniki i limity u dostawcy, a konfigurację buduj tak, żeby w razie problemu mieć fallback (np. CLI → provider albo provider → inny provider).
Chcesz wdrożyć głosowego asystenta AI?

