VoiceBot

VoiceBot je volitelná funkce, která umožňuje automatizované hlasové konverzace s volajícími. Lze jej využít pro samoobslužné scénáře, kvalifikaci hovorů nebo jako plně autonomního hlasového agenta.

VoiceBot obsluhuje hlasový kanál — převádí mezi řečí a textem — takže konverzační backendy pracují pouze s prostým textem, podobně jako chatbot.

Architektura

Pipeline VoiceBota je rozdělen do tří kroků, pojmenovaných podle lidských orgánů:

Krok	Název	Funkce
👂	Uši (Speech-to-Text)	Převádí hlas volajícího na text v reálném čase
🧠	Mozek (Konverzace)	Přijímá text, zpracovává jej a generuje textovou odpověď
👄	Ústa (Text-to-Speech)	Převádí textovou odpověď zpět na hlas pro volajícího

Toto oddělení umožňuje stavět složité hlasové interakce nad backendy, které pracují pouze s textem. Například CRM systém nemusí řešit audio streamy, kodeky ani časování v reálném čase — jednoduše přijme textovou zprávu a vrátí textovou odpověď.

Kroky Uši a Ústa také obsahují interní funkce, které zlepšují uživatelský zážitek, jako je podkladový zvuk, přirozené pauzy a úpravy časování, aby konverzace působila přirozeněji.

Konverzační backendy

Krok Mozek podporuje více backendů:

Interní (LLM) — používá Azure OpenAI (např. GPT-4.1) jako konverzační engine. Celá dialogová logika běží v rámci UCS.
Externí (integrovaný systém) — deleguje konverzaci na externí systém (např. OSL nebo jinou CRM/dialogovou platformu). UCS odešle text volajícího externímu systému a přijme textovou odpověď. Dialogový tok řídí externí systém.

Služby Azure

VoiceBot využívá stejné prostředky Azure jako AI přepis hovorů. Pokud již máte AI přepis hovorů nastavený, nejsou potřeba žádné další prostředky Azure.

Pokud nastavujete VoiceBot bez AI přepisu hovorů, vytvořte následující položky podle návodu v sekci AI přepis hovorů — Služby Azure:

Položka	Použití
App Registration	Autentizace UCS vůči Azure API
Azure OpenAI	Mozek — interní LLM backend (pouze pokud nepoužíváte externí systém)
Azure AI Services	Uši — Speech-to-Text v reálném čase; volitelně Ústa — Text-to-Speech
Budget	Kontrola nákladů na služby Azure

Služby třetích stran

Kromě Azure může krok Ústa využívat poskytovatele Text-to-Speech třetí strany:

ElevenLabs — nabízí vysoce kvalitní, přirozeně znějící hlasy. Vyžaduje samostatný účet ElevenLabs a API klíč.

Volba poskytovatele TTS se konfiguruje při aktivaci.

Aktivace funkce

Po zajištění všech požadovaných služeb zašlete následující informace společnosti INSOFT k aktivaci:

Přihlašovací údaje Azure (pokud nebyly již poskytnuty pro AI přepis hovorů):

Parametr	Zdroj
Tenant ID	App Registration → Overview → Directory (tenant) ID
Client ID	App Registration → Overview → Application (client) ID
Client Secret	App Registration → Certificates & secrets → Value
Azure OpenAI Endpoint	Azure OpenAI → Overview → Endpoint
OpenAI Deployment Name	Azure OpenAI → Azure AI Foundry → Deployments
OpenAI API Version	Azure OpenAI → Azure AI Foundry → Deployments → Deployment details
AI Services Endpoint	Azure AI Services → Overview → Endpoint

Konfigurace specifická pro VoiceBot:

Parametr	Popis
Backend mozku	`internal` (LLM) nebo `external` (integrovaný systém)
Poskytovatel TTS	`azure` nebo `elevenlabs`
ElevenLabs API Key	Pouze při použití ElevenLabs jako poskytovatele TTS
Údaje externího systému	Pouze při použití externího backendu mozku — detaily připojení dodá integrátor

Architektura​

Konverzační backendy​

Služby Azure​

Služby třetích stran​

Aktivace funkce​

Architektura

Konverzační backendy

Služby Azure

Služby třetích stran

Aktivace funkce