Přeskočit na hlavní obsah

VoiceBot

VoiceBot je volitelná funkce, která umožňuje automatizované hlasové konverzace s volajícími. Lze jej využít pro samoobslužné scénáře, kvalifikaci hovorů nebo jako plně autonomního hlasového agenta.

VoiceBot obsluhuje hlasový kanál — převádí mezi řečí a textem — takže konverzační backendy pracují pouze s prostým textem, podobně jako chatbot.

Architektura

Pipeline VoiceBota je rozdělen do tří kroků, pojmenovaných podle lidských orgánů:

KrokNázevFunkce
👂Uši (Speech-to-Text)Převádí hlas volajícího na text v reálném čase
🧠Mozek (Konverzace)Přijímá text, zpracovává jej a generuje textovou odpověď
👄Ústa (Text-to-Speech)Převádí textovou odpověď zpět na hlas pro volajícího

Toto oddělení umožňuje stavět složité hlasové interakce nad backendy, které pracují pouze s textem. Například CRM systém nemusí řešit audio streamy, kodeky ani časování v reálném čase — jednoduše přijme textovou zprávu a vrátí textovou odpověď.

Kroky Uši a Ústa také obsahují interní funkce, které zlepšují uživatelský zážitek, jako je podkladový zvuk, přirozené pauzy a úpravy časování, aby konverzace působila přirozeněji.

Konverzační backendy

Krok Mozek podporuje více backendů:

  • Interní (LLM) — používá Azure OpenAI (např. GPT-4.1) jako konverzační engine. Celá dialogová logika běží v rámci UCS.
  • Externí (integrovaný systém) — deleguje konverzaci na externí systém (např. OSL nebo jinou CRM/dialogovou platformu). UCS odešle text volajícího externímu systému a přijme textovou odpověď. Dialogový tok řídí externí systém.

Služby Azure

VoiceBot využívá stejné prostředky Azure jako AI přepis hovorů. Pokud již máte AI přepis hovorů nastavený, nejsou potřeba žádné další prostředky Azure.

Pokud nastavujete VoiceBot bez AI přepisu hovorů, vytvořte následující položky podle návodu v sekci AI přepis hovorů — Služby Azure:

PoložkaPoužití
App RegistrationAutentizace UCS vůči Azure API
Azure OpenAIMozek — interní LLM backend (pouze pokud nepoužíváte externí systém)
Azure AI ServicesUši — Speech-to-Text v reálném čase; volitelně Ústa — Text-to-Speech
BudgetKontrola nákladů na služby Azure

Služby třetích stran

Kromě Azure může krok Ústa využívat poskytovatele Text-to-Speech třetí strany:

  • ElevenLabs — nabízí vysoce kvalitní, přirozeně znějící hlasy. Vyžaduje samostatný účet ElevenLabs a API klíč.

Volba poskytovatele TTS se konfiguruje při aktivaci.

Aktivace funkce

Po zajištění všech požadovaných služeb zašlete následující informace společnosti INSOFT k aktivaci:

Přihlašovací údaje Azure (pokud nebyly již poskytnuty pro AI přepis hovorů):

ParametrZdroj
Tenant IDApp Registration → Overview → Directory (tenant) ID
Client IDApp Registration → Overview → Application (client) ID
Client SecretApp Registration → Certificates & secrets → Value
Azure OpenAI EndpointAzure OpenAI → Overview → Endpoint
OpenAI Deployment NameAzure OpenAI → Azure AI Foundry → Deployments
OpenAI API VersionAzure OpenAI → Azure AI Foundry → Deployments → Deployment details
AI Services EndpointAzure AI Services → Overview → Endpoint

Konfigurace specifická pro VoiceBot:

ParametrPopis
Backend mozkuinternal (LLM) nebo external (integrovaný systém)
Poskytovatel TTSazure nebo elevenlabs
ElevenLabs API KeyPouze při použití ElevenLabs jako poskytovatele TTS
Údaje externího systémuPouze při použití externího backendu mozku — detaily připojení dodá integrátor