25.11.2025

Рішення ElevenLabs для контакт-центрів

Розглядаєте впровадження голосового AI-агента? Огляд ElevenLabs: архітектура, можливості платформи, створення голосового бота.

Рішення ElevenLabs для контакт-центрів

Технічна архітектура платформи

Можливості платформи

Практичне розгортання

Де можна застосувати AI-агента?

Аналітика і моніторинг

Workflow в ElevenLabs

Омніканальні комунікації

Ціноутворення

AI-технології перетворилися з експериментального тренду в бізнес-мейнстрім. Компанії масово впроваджують штучний інтелект для автоматизації рутини. Контакт-центри пред’являють до AI жорсткі вимоги: миттєві відповіді без затримок, емоційний інтелект для роботи з невдоволеними клієнтами, плавне передавання складних кейсів операторам, підтримка всіх каналів зв’язку та корпоративний рівень надійності.

Для керівника, який вирішив на модернізацію системи обслуговування клієнтів, вибір сервісу перетворюється на справжній біль у голові. На ринку сотні AI-платформ від tech-гігантів до нікому не відомих стартапів, і у кожної свої ціни, можливості та підводні камені.

Один з сервісів, на який, на нашу думку варто звернути увагу, —  ElevenLabs. Це спеціалізована платформа для голосових комунікацій. На відміну від багатьох сервісів з “універсальними рішеннями” ElevenLabs обрали іншу стратегію. Замість спроб створити платформу “для всього”, вони зосередилися на одній конкретній задачі — створенні якісного голосового AI-агента з мінімальними витратами часу на розробку та налаштування.

Технічна архітектура платформи

Що таке ElevenLabs?

ElevenLabs — Це дослідницька та впроваджувальна організація в галузі голосового ШІ, яка підійшла до проблеми створення голосових агентів з несподіваної сторони. Вони створили ElevenLabs Agents Platform — сервіс для розгортання повністю налаштованих розмовних голосових агентів.

Перевага підходу особливо помітно, якщо порівняти його з традиційним методом створення голосового агента — процесом, який часто перетворюється на складний і тривалий проєкт: 

  • потрібно обрати систему розпізнавання мови і сподіватися, що вона розуміє акценти ваших клієнтів; 
  • підібрати мовленнєву модель, щоб вона не галюцинувала;
  • знайти систему синтезу мови і перевірити, що вона не звучить як робот з фільмів 80-х років;
  • найняти команду розробників на півроку, щоб змусити все це працювати разом. 

З ElevenLabs все простіше – вони створили готове рішення.

Основні компоненти системи

Платформа ElevenLabs складається з чотирьох основних компонентів, які працюють синхронізовано один з одним.

ASR (Automatic Speech Recognition) — модель, яка розуміє контекст розмови, розрізняє технічні терміни, справляється з фоновим шумом відкритого офісу або вулиці. Розпізнає акценти, розуміє, коли клієнт говорить емоційно і швидко, а коли неуверено підбирає слова. Модель навчена на мільйонах годин реальних розмов і постійно вдосконалюється.

LLM (Large Language Model) — це нейромережа, навчена на величезних обсягах текстів, яка розуміє та генерує людську мову. Простими словами, це “мозок” AI-асистента, який дозволяє вести змістовні діалоги, відповідати на питання та вирішувати завдання. 

Але на відміну від багатьох платформ, які змушують використовувати їх власні моделі, ElevenLabs дає вибір: Google Gemini, OpenAI, Anthropic, Custom LLM. Перелік підтримуваних моделей в документації.
Відповідно до GDPR (General Data Protection Regulation) платформа пропонує режим “EU data residency” — всі дані зберігаються та обробляються лише на серверах ЄС. При активації режиму недоступні деякі старі версії Gemini та Claude, але Custom LLM і OpenAI працюють без обмежень.

TTS (Text-to-Speech) — це голос бренду. І тут ElevenLabs дійсно вражає: понад 5000 голосів на 31 мові. Це не роботизовані голоси, а жива мова з інтонаціями, паузами, емоційним забарвленням. Найчастіше клієнти не впізнають AI у перші хвилини спілкування — якість синтезу робить мову практично нерозрізненною від людської.

Сustom turn-taking (модель визначення черговості у діалозі) — робить розмову природною. Turn-taking визначає момент закінчення фрази або паузи користувача і передає сигнал AI-агенту, коли можна вступити в розмову або призупинити відповідь, підтримуючи плавний діалог. Це одна з ключових технологій, яка робить розмову з роботом “живою”, без незручних пауз або переривань. На відміну від простих систем, які чекають тиші X секунд, ця модель розуміє контекст та інтонації.

Моделі синтезу мови

В арсеналі ElevenLabs чотири основні моделі синтезу мови, кожна оптимізована під конкретні сценарії використання. 

Eleven v3 підтримує понад 70 мов з бездоганним вимовою, здатна передавати емоційні відтінки — від щирого співчуття до професійного ентузіазму. Модель підтримує багатоголосий діалог, що дозволяє створювати сценарії з кількома персонажами. Єдине обмеження 10,000 символів за один раз, що приблизно відповідає 5-6 сторінкам тексту.

Де використовувати? Для VIP-підтримки, преміальних сервісів, іміджевих проєктів, де якість голосу безпосередньо впливає на сприйняття бренду.

Multilingual v2 підтримує 29 основних мов світу зі стабільною якістю, особливо добра для довгих монологів — наприклад, коли потрібно зачитати умови договору або детальну інструкцію. Теж є  ліміт — 10,000 символів, і оптимізована саме для стабільності, а не емоційної виразності. Ідеальна для стандартної підтримки та міжнародних операцій.

Flash v2.5 затримка становить всього 75 мілісекунд. Ця модель забезпечує практично миттєву відповідь. Підтримує 32 мови і має збільшений ліміт у 40,000 символів. Як бонус  — вона на 50% дешевша за інші моделі. Підходить для масових дзвінків, обробки простих запитів, наприклад “дізнатися баланс”, або “статус замовлення” — скрізь, де швидкість і вартість важливіші за емоційні нюанси.

Turbo v2.5  затримка відгуку системи  250-300 мс, підтримка 32 мов, ліміт 40,000 символів. Ця модель забезпечує оптимальний баланс між якістю голосу, швидкістю відповіді та вартістю. Підходить для більшості сценаріїв контакт-центрів.

Хоча повне перенавчання голосових моделей під галузеву термінологію поки недоступно,платформа пропонує ефективні інструменти для вирішення цього завдання.

  • Словники вимови дозволяють налаштувати, як AI вимовляє складні терміни, абревіатури або назви брендів. Наприклад, якщо продукт називається “XCloud”, але клієнти звикли чути “Екс-Клауд”, а не “Ікс-Клауд”, потрібно додати це правило до словника. Система запам’ятає і буде використовувати правильну вимову у всіх розмовах.
  • Теги-псевдоніми (alias tags) працюють як розумна заміна — ви вказуєте системі, що замість технічного терміну потрібно вимовляти його зрозумілий аналог. Це особливо корисно для внутрішніх кодів товарів або послуг, які в розмові з клієнтом звучать інакше.

Такий підхід вирішує більшість проблем з вимовою без необхідності дороговартісного перенавчання всієї моделі.

Крім вибору конкретної моделі синтезу, ElevenLabs підтримує функцію Multi-voice можливість використовувати кілька голосів для різних відділів або сценаріїв. Наприклад, техпідтримка може говорити спокійним чоловічим голосом, відділ продажів — енергійним жіночим, а VIP-підтримка — з легким британським акцентом. Ця функція створює ефект реальної команди, навіть якщо клієнт спілкується з одним і тим же агентом. Також Multi-voice можна використовувати для імітації переведення дзвінка на “старшого спеціаліста” або для навчання операторів через рольові сценарії.

Speech Recognition (розпізнавання мови)

Scribe-v1

Це не просто транскрибатор, а повноцінна система розуміння розмови, працює з 99 мовами. Детальний список можна знайти тут.
Для нашого, українського бізнесу важливо, що система розуміє українську мову, навіть з місцевими особливостями вимови. Більше того, справляється з ситуаціями, коли клієнт у одній розмові говорить то українською, то іншою мовою — система автоматично розпізнає зміну мови і правильно записує все, що було сказано. Це вирішує реальну проблему українських кол-центрів, де операторам доводиться працювати з клієнтами на різних мовах.

Основні функції розпізнавання мови:

  • Часові мітки на рівні слів —  це фіксація часу кожного слова в розмові. Корисно для аналізу: можна швидко знайти момент, коли клієнт попросив менеджера або захотів скасувати послугу;
  • Функція визначення балакаючого (speaker diarization) автоматично розділяє голоси різних людей в розмові; 
  • Динамічна розмітка аудіо – система визначає емоційний стан говорящого, відзначає паузи, міжслов’я, невпевненість у голосі. 

Всі компоненти системи працюють на один результат — створення AI-агента, невідрізненного від людини-оператора. Природна мова, розуміння контексту, правильні паузи в діалозі зібрані в одному сервісі без необхідності збирати рішення з окремих частин.

Scribe v2 Realtime

Покращена версія системи розпізнавання мови, оптимізована для миттєвої обробки розмов. Підтримує ті ж 99 мов, що і Scribe v1, включаючи українську. На відміну від базової версії, яка транскрибує мову з невеликою затримкою, realtime версія видає текст практично одночасно з вимовою слів — затримка становить менше 300 мілісекунд.

Ключові особливості:

  • Потокова обробка — текст з’являється по мірі говоріння, не чекаючи закінчення фрази;
  • Інтелектуальна пунктуація — автоматично розставляє точки, коми та питальні знаки у реальному часі;
  • Корекція на льоту — система може виправляти початок речення, коли чує контекст цілком;
  • Оптимізація для діалогів — краще розуміє розмовну мову, міжслов’я і неповні речення.

ElevenLabs Scribe v2 Realtime може бути реалізований як на стороні клієнта, так і на стороні сервера. Детальні налаштування тут.

Можливості платформи

Основні функції

Платформа ElevenLabs пропонує набір функцій, які охоплюють весь спектр запитів сучасного контакт-центру. Але це не просто перелік можливостей — кожна функція продумана з точки зору практичного застосування в обслуговуванні клієнтів.

  • Text to Speech (текст у мову) — доступно понад 5000 попередньо налаштованих голосів на 31 мові. Підтримується клонування голосів реальних людей та створення кастомних голосових профілів. Застосування: озвучення привітань, відповідей, сповіщень.
  • Speech to Text (мова у текст) — автоматична транскрипція аудіо в текст з точністю 95-98 %. Усі розмови зберігаються у текстовому форматі для подальшого аналізу. Можливості: пошук за ключовими словами, статистичний аналіз частоти термінів, виявлення патернів звернень.
  • Voice changer (зміна голосу) — модифікація параметрів голосу, тон, тембр, швидкість мови, емоційне забарвлення. Налаштовувані параметри дозволяють адаптувати голос під різні департаменти та сценарії використання.
  • Voice isolator (ізоляція голосу) — технологія придушення шуму та виділення основного голосу. Фільтрація фонового шуму до -30 dB. Працює з типовими завадами: вуличний шум, офісний фон, побутові звуки.
  • Dubbing (дубляж) — автоматичний переклад мови зі збереженням інтонацій та темпу оригіналу. Підтримується синхронний переклад на 31 мову. Затримка перекладу: 200-500 мс.
  • Sound effects (звукові ефекти) — бібліотека аудіоелементів для оформлення діалогів. Включає: музичні заставки, звуки перемикання, сигнали очікування. Можливість завантаження власних аудіофайлів.
  • Voice cloning & design (клонування та дизайн голосів) — створення цифрової копії голосу на основі 5-30 хвилин запису. Точність відтворення становить 85-95% за метрикою MOS (Mean Opinion Score).
  • Conversational AI (розмовний ШІ) — інтеграція всіх компонентів для ведення діалогів. Підтримує контекстне розуміння, управління станом діалогу, обробку переривань, повернення до попередніх тем розмови.

Підтримувані формати

Технічна гнучкість платформи проявляється у широкій підтримці aудіоформатів. Це важливо для сумісності з існуючою інфраструктурою контакт-центру.

PCM (Pulse Code Modulation — імпульсно-кодова модуляція) — це нестиснений аудіоформат. Платформа підтримує всі популярні частоти дискретизації:

  • 8 kHz для класичної телефонії;
  • 16 kHz для широкосмугового зв’язку;
  • 22.05 kHz для якості FM-радіо;
  • 24 kHz для професійного аудіо; 
  • 44.1 kHz для CD-якості. 

Це означає, що незалежно від того, яке обладнання використовує ваш кол-центр — від старих аналогових АТС до сучасних VoIP-систем — платформа буде працювати без проблем.

μ-law (мю-закон) 8000Hz — класичний алгоритм стиснення для телефонії, який використовується в Північній Америці та Японії. Якщо ваш контакт-центр працює з legacy-системами або повинен відповідати телекомунікаційним стандартам певних країн, підтримка μ-law критично важлива. Це забезпечує сумісність з традиційними телефонними мережами та старим обладнанням, яке все ще широко використовується в індустрії.

Методи інтеграції

ElevenLabs розуміє, що кожен контакт-центр має свою унікальну технічну інфраструктуру, тому пропонує безліч способів інтеграції:

  • HTTP requests — універсальний метод через REST API.  Відправили запит — отримали відповідь. Просто і надійно;
  • WebSocket — для комунікації у реальному часі без затримок. Постійне з’єднання забезпечує миттєву передачу даних у обидва боки. Необхідно для живих діалогів;
  • Python SDK — готова бібліотека для Python. Створення голосового агента в кілька рядків коду. Зручно для швидкого прототипування та тестування;
  • Node.js libraries — бібліотеки для JavaScript. Дозволяють інтегрувати агентів у веб-додатки, CRM системи та операторські інтерфейси.

Платформа говорить мовою сучасної розробки і легко інтегрується в будь-яку технічну інфраструктуру.

Практичне розгортання

Підключення голосового агента — це більше, ніж просто налаштування самого бота. У процес входять звітність, моніторинг, інтеграції та інші інструменти, що формують повноцінну систему комунікації. 

Для початку роботи потрібна авторизація в системі. На сайті elevenlabs.io є кнопка “Sign Up”. Для реєстрації потрібна тільки пошта та пароль — жодних довгих форм або кредитних карт. Після підтвердження e-mail доступ до платформи відкритий.

Створення агента відбувається в дашборді через кнопку “Create Agent”. Це чиста конфігурація, яка налаштовується під конкретні завдання:

  • Ім’я агента може бути будь-яким — “Служба підтримки”, “Консультант з продуктів”. Система автоматично генерує унікальний ID для кожного бота.
  • Мовні налаштування включають основну мову інтерфейсу та додаткові мови, між якими клієнти зможуть перемикатися під час розмови. 
  • Привітальне повідомлення визначає першу фразу агента. При порожньому полі агент буде чекати, поки клієнт розпочне діалог.
  • Системна підказка задає особистість агента та контекст розмови — це основна інструкція, яка визначає поведінку ШІ.
  • Голос – понад 5000+ голосів на 31 мові з налаштуванням ключових параметрів: Stability (стабільність подачі від емоційної до монотонної), Similarity Boost (близькість до оригіналу) і вибір моделі синтезу. Можна створити словник вимов для специфічних термінів і клонувати будь-який голос з 5-30 хвилин запису.
  • Динамічні змінні – дозволяють вбудовувати значення часу виконання в повідомлення агента, системні підказки і інструменти. Це дозволяє персоналізувати кожен діалог, використовуючи дані, специфічні для користувача, без створення кількох агентів.
  • База знань (база знань) – можна завантажити файли або додати посилання на сайт (у безкоштовній версії кількість обмежена). 
  • Retrieval-Augmented Generation (RAG) — це технологія, яка дозволяє голосовому чи чат-агенту отримувати доступ до великих баз даних під час діалогу. Замість того, щоб завантажувати в контекст весь документ цілком, RAG витягує тільки найбільш релевантні фрагменти інформації для конкретного запиту користувача. У ElevenLabs цей процес автоматизований — достатньо активувати його, пересунувши повзунок у налаштуваннях агента, а кожен документ з бази знань має перевищувати 500 байт. Після включення RAG всі додані файли проходять індексацію, а база знань розбивається на невеликі фрагменти (chunks), зазвичай по 100–500 токенів. Кожен chunk представляє собою логічно завершений абзац або секцію тексту. Завдяки цьому агент може швидше знаходити потрібну інформацію і давати більш точні, контекстно релевантні відповіді. Однак у RAG є і обмеження:
    • Він не визначає, які дані є більш новими або актуальними;
    • Не вміє автоматично розв’язувати протиріччя між версіями документів (наприклад, якщо в одному файлі вказано «14 днів на повернення», а в іншому — «30 днів»);
    • Не перевіряє логічну узгодженість інформації — модель може отримати конфліктні дані і видати суперечливу відповідь.
  • Інструменти – цей блок надає доступ AI-агенту до додаткових дій, наприклад: першим завершити діалог, визначити мову, перевести клієнта на іншого AI-агента або телефонний номер для з’єднання з оператором.

Після натискання кнопки “Test Agent” відкривається симулятор розмови, в якому можна задати типові питання клієнтів. Агент відповідає, використовуючи завантажену інформацію. В результаті, за 15 хвилин отримується працюючий AI-агент. Це лише початковий етап, у подальшому належить оптимізація, налаштування та інтеграція, але вже через чверть години можна отримати прототип.

Безпека доступу — не менш важливий аспект. Кожен агент має унікальний ідентифікатор (Agent ID), який слід зберігати як пароль: не публікувати і не передавати відкрито.

В ElevenLabs можна увімкнути аутентифікацію через API-ключі, OAuth чи JWT-токени, щоб запобігти несанкціонованому підключенню. Для корпоративних користувачів доступ можна обмежити за IP-адресами, дозволяючи з’єднання тільки з довірених мереж.

Де можна застосувати AI-агента?

На практиці AI-агенти вже використовуються у різних сферах:

  • У службах підтримки беруть на себе звернення, вирішуючи типові питання без участі операторів;
  • У рітейлі допомагають підбирати товари та відстежувати замовлення, діючи як особисті консультанти;
  • Внутрішні AI-асистенти у компаніях нагадують про зустрічі та знаходять потрібні документи;
  • У сфері онлайн-навчання AI-агенти працюють у форматі інтерактивних тьюторів, які пояснюють теми, задають питання та перевіряють розуміння матеріалу.

Важливо розуміти головне — AI-агенти не забирають роботу у операторів, а звільняють їх від рутини. Замість скорочень співробітники отримують нові ролі:

  • AI-тренери — навчають і вдосконалюють AI-агентів;
  • Workflow-дизайнери — створення сценаріїв без програмування;
  • Спеціалісти з ескалації — робота тільки зі складними випадками;
  • Аналітики розмов — аналіз 100% діалогів замість 2%, але не вручну, а з допомогою AI-агентів.

AI-агенти — це не загроза, а інструмент еволюції контакт-центрів. Чим більше завдань бере на себе штучний інтелект, тим більше часу у операторів для вирішення дійсно важливих питань, а не для механічного слідування скриптам.

Аналітика і моніторинг

Коли ми чуємо слова “моніторинг, контроль якості, аналітика” в голові одразу виникає образ супервайзера, який годинами прослуховує розмови операторів і робить позначки в оціночних листах. 

Традиційний контроль якості — це вибіркове прослуховування 2-5% дзвінків, де результат залежить суто від оцінки перевіряючого. Це дорого, суб’єктивно і охоплює мізерну частину реальних взаємодій. І тут ElevenLabs перевертає цю парадигму, автоматично оцінюючи 100% розмов. 

Ні, це не означає, що вам більше не потрібен ОКЦ, просто тепер супервайзери перестають бути “слухачами” і стають аналітиками даних та стратегами якості.

Система ElevenLabs бере на себе рутину — вона автоматично аналізує кожну розмову, оцінює виконання цілей і фіксує, де AI-агент впорався, а де ні.

Загальний принцип роботи

Після завершення дзвінка ElevenLabs автоматично створює транскрипт розмови, а потім аналізує його за тими параметрами, які ви самі задали.
Система не “вгадує”, що шукати — вона слідує вашому сценарію з розділу“ Analysis”.
У налаштуваннях AI-агента можна задати метрики для оцінки розмови — Evaluation criteria та характеристики даних для вилучення — Data extraction.
Така система оцінки дає прозорість і точність аналізу. Вона виключає людський фактор і суб’єктивні оцінки. Замість вибіркового контролю, як у класичному ОКЦ, тут аналізується 100% розмов. 

Метрики та оцінка розмов

(доступні у тарифі  PRO)

Розділ Analysis → Evaluation settings — це центр управління якістю. Тут  задається система, за якою платформа оцінює ефективність роботи AI-агентів та якість обслуговування клієнтів. Це ті самі оціночні листи, до яких звик будь-який супервайзер, але тепер не потрібно прослуховувати дзвінки та вручну  заповнювати таблиці.

Базова аналітика доступна починаючи з тарифу “Pro”- бінарна оцінка результату (успіх/невдача), базовий аналіз настрою, три передустановлених критерії та проста статистика успішності. При виборі більш дорогоцінних тарифів – функціонал інструмента розширюється:

  • Scale – оцінка за шкалою 1–10, до 20 критеріїв з настроюваними вагами, відстеження CSAT/NPS та аналіз причин невдач;
  • Business – всі раніше вказані функції + A/B-тести, порівняння агентів та автоматичні рекомендації;
  • Enterprise – без обмежень + власні ML-моделі, інтеграції та прогностична оцінка успіху.  

Кожен критерій оцінки — це чітке правило, за яким система буде оцінювати розмову. Ви можете задати одну або кілька умов, залежно від завдань вашого бізнесу.

Наприклад:

  • “Проблема вирішена без участі оператора” — ключовий показник для AI-агента. Якщо клієнт не був переведений на “живого” співробітника і при цьому отримав рішення, розмова вважається успішною;
  • “Клієнт підтвердив рішення” — система шукає фрази на кшталт “Дякую, все зрозуміло”, “Так, проблема вирішена”, “Відмінно, все працює”. Це сигнал, що кейс закритий;
  • “Час розмови менше 7 хвилин” — допомагає відстежувати ефективність. Поріг можна задати будь-який, наприклад 10 або 15 хвилин;
  • “Емоція клієнта наприкінці — позитивна” — ШІ визначає тональність мови клієнта (за словами, контекстом і інтонацією, якщо включений аналіз аудіо). Якщо фінал позитивний — бал у плюс.

Після завершення дзвінка, процес аналізу запускається автоматично. Спочатку система створює транскрипт розмови — повну текстову розшифровку діалогу. Потім розділяє його на змістовні блоки: привітання, уточнення деталей, пошук рішення і завершення спілкування. Кожен з цих фрагментів порівнюється з заданими критеріями оцінки, щоб визначити, чи були виконані потрібні умови — вирішена проблема, чи залишився клієнт задоволений, чи вміщено розмову в часові рамки.

Після оцінки система формує не тільки підсумковий результат, але і пояснення до нього — свого роду обґрунтування. Якщо розмова отримала низький бал, ElevenLabs покаже, чому саме: наприклад, агент не уточнив, чи задоволений клієнт рішенням, не запропонував додатковий варіант допомоги або перервав розмову раніше часу. Таким чином, платформа не просто ставить оцінку, а допомагає зрозуміти причину помилки і точку для поліпшення.

Вилучення даних з розмови

(доступно у тарифі PRO)

Основне налаштування знаходиться в розділі Agent → Analysis → Data extraction.
Тут створюється схема (зазвичай у форматі JSON), в якій описано, що саме потрібно витягувати з розмови.

Після цього кожен дзвінок аналізується автоматично — ШІ проходить по транскрипту й заповнює ці поля. Якщо в розмові не було потрібної інформації, поле залишається порожнім.

По суті, Data extraction — це мозок аналітики. Вона визначає, що вважати “даними”, а що просто текстом розмови. За допомогою інструменту можна витягнути:

  • дані клієнта (ім’я, телефон, ID замовлення);
  • суть звернення (“проблема з оплатою”, “запит функції”, “скарга”);
  • емоції (негатив, позитив, нейтрально);
  • результат розмови (“запитання вирішено”, “очікує підтвердження”, “ескальовано”);
  • додаткові деталі — товар, місто, причина повернення тощо.

Функція автоматично розпізнає та зберігає базову інформацію: імена, контакти, дати та короткі резюме до 100 слів. Дані зберігаються лише у внутрішньому сховищі з можливістю ручного експорту в CSV. При виборі більш вдосконалених тарифів можливості вилучення значно розширюються:

  • Scale — до 50 налаштовуваних полів із regex-патернами, витяг складних структур (адреси, номери замовлень), детальні резюме і автоматичне визначення ключових фраз. Дані передаються через webhooks у реальному часі, доступний API і автоекспорт у Google Sheets;
  • Business — необмежена кількість полів, робота зі складними бізнес-об’єктами, multi-turn extraction (збір даних з декількох реплік), вбудована валідація та OCR (Optical Character Recognition) документів. Пряма інтеграція з CRM-системами, конектори баз даних та хмарні сховища;
  • Enterprise — вилучення на основі ШІ з налаштовуваними NER-моделями, зв’язування даних між розмовами та автоматична обробка персональних даних. Інтеграція з будь-якими корпоративними системами, розгортання на власних серверах та HIPAA-сумісні сховища для медичних даних.

Таким чином, Data extraction в ElevenLabs — інструмент, який перетворює звичайні розмови у структуровані дані, зрозумілі системі та корисні для бізнесу.

Що система робить після аналізу?

Після того, як ШІ витягнув дані, вся інформація зберігається в розділі Evaluate → Conversations, де можна відкрити конкретний дзвінок та детально вивчити результат. Витягнуті відомості автоматично структуруються — система показує тему розмови, емоції клієнта та підсумок взаємодії.

Після цього запускаються Post-call сценарії: ElevenLabs може автоматично створити тікет в Zendesk, Jira або іншій системі, оновити дані в CRM, відправити клієнту follow-up повідомлення або активувати webhook для кастомної автоматизації подальших процесів.

Обмеження та технічні нюанси

  • ElevenLabs аналізує лише те, що задано у налаштуваннях ніякого “магічного” розпізнавання немає;
  • Один розмова аналізується до 10 000 символів тексту (довгі обрізаються на частини);
  • Полів для вилучення — максимум 20;
  • Тривалість розмови та доступний функціонал для аналізу: 
    • до 10 хв на Starter і тільки базова статистика;
    • до 60 хв на Pro – включає Data extraction, оцінку розмов, Webhooks та CRM-інтеграції; 
    • без обмежень на Enterprise- додає розширені звіти, API до функціоналу доступного на Pro версії;
  • Аналіз займає від 1 до 5 хвилин після закінчення дзвінка.

Реальний аналітичний функціонал з’являється лише з тарифу Pro.

На практиці аналітика ElevenLabs — це не “розумний моніторинг, який все розуміє сам”, а налаштовувана система, яка робить саме те, що їй описали.
Якщо задати правильні поля і зрозумілі критерії, вона перетворюється на потужний інструмент аналізу 100% розмов. Якщо ні — просто створює транскрипти без сенсу.

Workflow в ElevenLabs

(доступно в тарифі PRO)

Workflow — це вбудований візуальний конструктор всередині платформи для створення складних сценаріїв AI-агентів. Це не окремий інструмент, а частина єдиної системи управління агентами.

Щоб створити або змінити сценарій роботи, відкрийте панель Agents Platform, виберіть потрібного агента та перейдіть на вкладку Workflows. Тут можна натиснути Create New Workflow, щоб створити новий сценарій, або вибрати вже існуючий для редагування.

Особливості редактора ElevenLabs:

    • Drag-and-drop інтерфейс без коду — сценарії збираються візуально, без необхідності програмування;
    • Попередній перегляд в реальному часі — можна одразу побачити, як агент виконає задані дії;
    • Інтеграція з Test Agent для перевірки — дозволяє тестувати сценарій без реальних дзвінків;
    • Врахування змін — система автоматично зберігає зміни, і при необхідності можна повернутися до будь-якої попередньої версії.

Логіка і структура Workflow: Conditions і Nodes

У ElevenLabs Workflow вся робота будується за принципом “умова → дія”. Це не просто послідовність кроків, а гнучка система прийняття рішень, де агент аналізує контекст розмови, стан клієнта та дані з зовнішніх систем, щоб обрати правильну дію в реальному часі.

Conditions (умови переходів)

Conditions визначають, коли та за яких обставин агент повинен перейти до наступного кроку сценарію. Це мозок Workflow, який аналізує контекст розмови та управляє поведінкою агента. У ElevenLabs підтримуються чотири типи умов:

  • LLM conditions — ґрунтуються на розумінні сенсу висловлювання клієнта через мовну модель (GPT, Claude, Gemini). Агент визначає намір, наприклад “повернути товар” або “поговорити з оператором”, і запускає потрібну гілку.
  • Tool results — логіка, що залежить від відповіді зовнішньої системи. Наприклад, API повернуло “оплата підтверджена” — агент повідомляє результат; “помилка 404” — пропонує допомогу оператора.
  • System variables — внутрішні змінні платформи: тривалість розмови, мова, емоційний тон клієнта, час доби<та інше. Наприклад: “якщо розмова триває більше 10 хвилин — передати оператору”.
  • Custom rules — користувацькі правила, задані через базу знань або промпти агента. Дозволяють додавати специфічні сценарії на кшталт: “якщо згадана знижка і клієнт роздратований — запропонувати купон”.

Таким чином, conditions відповідають за аналіз ситуації та вибір потрібного сценарію.

Nodes (вузли дій)

Nodes визначають, що саме має зробити агент, коли умова спрацювала. Кожен вузол — це конкретна дія або етап розмови.

  • Subagent node — унікальна функція ElevenLabs, яка дозволяє “на лету” змінювати поведінку агента: переключити голос, вибрати іншу LLM (GPT, Claude, Gemini) або базу знань — все без переривання діалогу.
  • Tool node — відповідає за взаємодію з зовнішніми системами. Підтримує динамічні змінні ({{customer_name}}, {{order_id}} та ін.), які автоматично підставляються в запити до API або webhooks.
  • Transfer node — використовується для передачі дзвінка оператору. При цьому система автоматично формує коротку зведку розмови та відправляє його через webhook в CRM або тікет-систему, щоб оператор одразу бачив контекст.
  • End call node — завершує розмову та запускає післядзвінкову обробку: збереження транскрипта, оцінка якості та аналітика.

Workflow працює як дерево рішень: агент отримує дані → перевіряє умови → обирає відповідний вузол → виконує дію → повертається до аналізу.
Ця структура робить сценарії не лінійними, а інтелектуально адаптивними — агент реагує на реальні наміри клієнта, а не просто слідує заздалегідь прописаному скрипту.

Автоматизація робочих процесів частково доступна з тарифу Pro — базові тригери, email-повідомлення та прості умови “якщо — то”. Однак критично важлива функція передачі дзвінків операторам у цьому плані відсутня. Реальні можливості відкриваються на більш високих тарифах:

  • Scale — передача дзвінків операторам за ключовими словами або типом запиту, пріоритизація черги. Багатоетапні сценарії з умовною логікою, заплановані дії, автоматичні повторні звернення. Повна інтеграція з Zapier, Make, API для читання/запису, Slack та Teams;
  • Business — багатоагентна маршрутизація з “skill-based” розподілом; автоматична передача складних дзвінків живим операторам; пряма інтеграція з Salesforce, HubSpot, Zendesk; комплексні workflows з умовною логікою та паралельними процесами; масові операції для обробки даних; резервні агенти для забезпечення неперервності обслуговування.
  • Enterprise — омніканальна маршрутизація (голос, чат, електронна пошта в одній системі); Інтелектуальне розподіл звернень на основі історичних даних; Архітектура, заснована на подіях та мікросервісах; Інтеграція з корпоративними системами (SAP, Oracle та іншими); Можливість локального розгортання для роботи з критичними даними; Налаштовувані сценарії ескалації з гнучкою логікою; Глобальні правила маршрутизації для міжнародних операцій. Розробляється індивідуально для компаній з великими обсягами. Якщо ви обробляєте 6+ годин розмов щоденно (це 10,000+ хвилин на місяць), має сенс обговорити спеціальні умови. Клієнти Enterprise отримують не тільки кращі ціни, але й персональну підтримку, індивідуальні SLA, пріоритет у обробці запитів, можливість кастомізації функцій.

Омніканальні комунікації

Сучасний клієнт не хоче обмежуватися одним каналом зв’язку. Вранці він дзвонить, вдень пише в чат, ввечері говорить через віджет на сайті. Справжня омніканальність — це не просто наявність різних каналів комунікації, а їх плавна інтеграція в єдину систему.

Телефонні інтеграції

ElevenLabs інтегрується з будь-якими телефонними системами — від традиційних офісних АТС до сучасних хмарних платформ.

SIP Trunking — ElevenLabs сумісний з більшістю стандартних SIP-trunk провайдерів, включаючи Twilio, Vonage, RingCentral, Sinch, Infobip, Telnyx, Exotel, Plivo, Bandwidth та інші, що підтримують стандарти протоколу SIP.

Технічні деталі:

  • Підтримувані аудіо кодеки: G711 8kHz або G722 16kHz;
  • TLS transport і SRTP media encryption підтримуються для підвищеної безпеки;
  • Доступні статичні IP для корпоративних клієнтів, які вимагають білий список IP-адрес.

Twilio — нативна інтеграція для обробки як вхідних, так і вихідних дзвінків. 

Два типи номерів Twilio:

  1. Purchased Twilio Numbers (повна підтримка) – підтримують вхідні та вихідні дзвінки;
  2. Verified Caller IDs (тільки вихідні) – можна використовувати існуючі бізнес-номера для вихідних AI дзвінків. 

Функції телефонії

Передача оператору – підтримується передача на зовнішні телефонні номери через SIP trunking і Twilio. Є два методи передачі: Conference Transfer і SIP REFER 

Batch Calling (масові дзвінки) – доступно для номерів, підключених через Twilio або SIP trunking.

ElevenLabs працює практично з будь-якою телефонною системою, якщо вона підтримує SIP (це 99% сучасних АТС), ви зможете підключити AI-агентів без заміни обладнання.

Widget Integration – AI-агент на сайті

Якщо телефонія — усім знайомий інструмент контакт-центрів, то веб-віджети — це найновіше та майбутнє. ElevenLabs пропонує інтеграцію AI-агента на сайт. Основи настільки прості, що впорається навіть маркетолог без технічного бекграунду. Фрагмент коду потрібно розмістити на сайті, у розділі <body> і в основному файлі <index.html>, щоб забезпечити доступ до віджету на всіх сторінках. У панелі управління можна налаштувати кольори, розмірита розташування віджета відповідно до дизайну веб-сторінки. Для більш продвинутих користувачів доступний SDK для повного контролю над налаштуваннями.

Віджет підтримує три режими роботи:

  • Voice-only для тих, хто віддає перевагу говорити — зручно на мобільних пристроях, де набір тексту не зручний;
  • Voice+text дозволяє перемикатися між модальностями — розпочати голосом, потім перейти на текст, коли опинився в шумному місці;
  • Chat mode для “тихих” офісів або пізніх годин, коли говорити незручно.

Віджет закриває основні потреби: самообслуговування клієнтів, збір лідів та швидку підтримку без очікування оператора. Це вже не просто чат-бот у кутку екрана, а повноцінний голосовий асистент, інтегрований у ваш сайт.

Вибір оптимального каналу для кожного завдання підвищує ефективність. Телефонія залишається для складних емоційних питань, де важлива емпатія, а віджет ідеальний для сценаріїв самообслуговування, коли клієнт сам хоче знайти інформацію.

Ціноутворення

ElevenLabs пропонує прозору та передбачувану модель ціноутворення, яка масштабується разом з бізнесом. Ніяких прихованих платежів, складних калькуляторів або несподіваних рахунків наприкінці місяця.

Тарифні плани

Free

15 хвилин розмов кожного місяця безкоштовно. Це може здатися небагато, але цього достатньо для повноцінного тестування. За 15 хвилин можна провести 5-7 тестових дзвінків, перевірити якість розпізнавання та синтезу мови, оцінити швидкість відповідей, протестувати інтеграції. Багато компаній місяцями використовують безкоштовний тариф для розробки та налагодження, перш ніж переходити на production.

Вартість: безкоштовно

Аналітика та моніторинг: Базовий лічильник використаних хвилин, історія останніх дзвінків, проста статистика за успішністю. Немає доступу до детальної аналітики або експорту даних.

Workflow: Відсутня автоматизація, немає можливості передачі дзвінків операторам, тільки базове логування розмов.

Skill

Розробляється для компаній із середнім обсягом комунікацій. Якщо щоденно обробляється кілька годин розмов, але не досягнуто рівня великого центру — тариф «Skill» буде оптимальним вибором. Клієнти цього рівня отримують вигідні умови, підтримку, інтеграції та стандартні SLA.

Вартість: $330/місяць

Аналітика та моніторинг:

  • Стандартні звіти та дашборди з брендингом базового рівня;
  • Аналітика за департаментами/філіями (кілька акаунтів);
  • Можливість задавати користувацькі метрики та формули з обмеженнями;
  • Інтеграція з BI-системами (наприклад, Power BI);
  • Сповіщення в режимі реального часу та автоматичні щомісячні звіти;
  • Базовий аудит і звітність щодо відповідності вимогам;

Workflow та автоматизація:

  • Омніканальна маршрутизація (голос, чат, email) в єдиній системі;
  • AI-підтримка маршрутизації на основі історичних даних;
  • Готові шаблони BPMN-процесів для типових бізнес-завдань;
  • Інтеграція з CRM/середніми системами та API (без повного enterprise-комплекту).
Business

Основне рішення для бізнесу. За фіксовану плату ви отримуєте 13,750 хвилин включених у пакет. Це приблизно 230 годин розмов — достатньо для обробки 2-3 тисяч дзвінків середньої тривалості. Кожна додаткова хвилина коштує $0.08.

Вартість: $1320/місяць

Аналітика та моніторинг:

  • Повноцінна аналітика з метриками в реальному часі;
  • Детальна розбивка за агентами, мовами, типами запитів;
  • Success Evaluation з налаштовуваними KPI (CSAT, FCR, AHT);
  • Data Extraction — вилучення необмеженої кількості кастомних полів;
  • A/B тестування скриптів та промптів;
  • Експорт звітів у CSV, API доступ для створення власних дашбордів;

Workflow та автоматизація:

  • Мультиагентна маршрутизація зі “skill-based” розподілом;
  • Автоматична передача складних дзвінків живим операторам;
  • Пряма інтеграція з Salesforce, HubSpot, Zendesk;
  • Комплексні workflows з умовною логікою та паралельними процесами;
  • Масові операції для обробки даних;
  • Резервні агенти для забезпечення безперервності обслуговування.
Enterprise

Розробляється індивідуально для компаній з великими обсягами. Якщо ви обробляєте 6+ годин розмов щоденно (це 10,000+ хвилин на місяць), має сенс обговорити спеціальні умови. Enterprise клієнти отримують не тільки кращі ціни, але й персональну підтримку, індивідуальні SLA, пріоритет в обробці запитів, можливість кастомізації функцій.

Вартість: $custom/місяць

Аналітика та моніторинг:

  • Дашборди з фірмовим оформленням компанії;
  • Багатоакаунтна аналітика для різних відділів та філій;
  • Необмежені користувацькі метрики та формули розрахунку;
  • Інтеграція з корпоративними системами бізнес-аналітики (наприклад, Tableau, Power BI);
  • Повна історія дій користувачів та звітність щодо відповідності вимогам.

Бізнес-процеси та автоматизація:

  • Омніканальна маршрутизація (голос, чат, електронна пошта в єдиній системі);
  • Інтелектуальний розподіл звернень на основі історичних даних;
  • Архітектура, заснована на подіях та мікросервісах;
  • Інтеграція з корпоративними системами (SAP, Oracle та іншими);
  • Можливість локального розгортання для роботи з критичними даними;
  • Налаштовувані сценарії ескалації з гнучкою логікою;
  • Глобальні правила маршрутизації для міжнародних операцій.

Механізми оптимізації витра

ElevenLabs розуміє, що впровадження нової технології вимагає експериментів і налаштування, тому пропонує кілька способів значно заощадити.

  • Setup & Testing режим —  Всі операції по налаштуванню і тестуванню тарифікуються за половинну ціну. Можна скільки завгодно експериментувати з промптами, тестувати різні сценарії, проводити навантажувальне тестування — і платити наполовину менше; 
  • Інтелектуальна тарифікація пауз — рішення для реальних розмов. Коли тиша в розмові перевищує 10 секунд, платформа автоматично знижує інтенсивність роботи моделей turn-taking і speech-to-text. Ці періоди мовчання тарифікуються всього по 5% від звичайної вартості. Клієнт пішов шукати документи на 2 хвилини? Ви заплатите як за 6 секунд. У реальних розмовах паузи складають 20-30% часу, що дає значну економію.
  • Текстовий режим відкриває величезні можливості для оптимізації. Chat-only розмови мають ліміти одночасності у 25 разів вищі, ніж голосові. Якщо ваш план дозволяє 20 одночасних голосових дзвінків, то текстових чатів може бути 500. Для простих запитів типу “дізнатися баланс” або “статус замовлення” текстовий режим ідеальний — швидко, дешево, ефективно.

Додаткові витрати

Важливо розуміти повну картину витрат, включаючи додаткові витрати, про які платформа чесно попереджає.

  • LLM costs (витрати на мовні моделі) працюють за принципом прямої тарифікації (pass-through pricing). До вашого основного рахунку за підписку ElevenLabs автоматично додається вартість використаних токенів LLM, яка розраховується за офіційними тарифами провайдера обраної моделі. Залежно від ваших потреб, ви можете вибрати: GPT-4 від OpenAI — додає приблизно $0.01-0.03 за хвилину розмови, оптимальний баланс якості та вартості. Claude від Anthropic може бути дорожчим, але забезпечує більш якісні відповіді. Google Gemini часто виявляється найекономічнішим варіантом.
  • Кількість і вартість відправлених і отриманих токенів можна відстежувати за кожною розмовою окремо — інформація відображається в метаданих розмови;
  • Мультимодальний режим — це коли клієнт може і говорити, і писати в одній розмові. Наприклад, почав голосом, потім перейшов на текст (зайшов у метро), потім знову голосом. Як розраховується оплата: голос — платите за хвилини розмови, текст — платите за кожне повідомлення.

ElevenLabs — це готова екосистема для створення голосових AI-агентів, яка може замінити місяці розробки кількома тижнями налаштування. Платформа поєднує швидкість запуску, прозору тарифікацію та потужний функціонал на рівні enterprise, залишаючись при цьому доступною для бізнесу будь-якого масштабу.
Вона не робить чудес “з коробки” — вимагає грамотної конфігурації, якісної бази знань та регулярної оптимізації. Але при правильному налаштуванні ElevenLabs перетворюється на надійного цифрового співробітника, який бере на себе рутину, залишаючи людям завдання, де важливі емпатія та креативність.

ElevenLabs демонструє, як технології голосового ШІ переходять з сфери експериментів у керовані рішення. Це крок до нової архітектури комунікацій, де машина не замінює людину, а стає її помічником.

 

Оцініть новину:

Читайте також

photo
Середа Грудень 20, 2017 Як зробити автообдзвоні номерів?

Чому контакт-центру необхідний автообдзвоні, які переваги в хмарній системі для внутрішніх та аутсорсингових КЦ Окі-Токі.

Детальніше
photo
Вівторок Листопад 4, 2025 Premium-послуги Окі-Токі: як зробити роботу кол-центру ще зручнішою

Персональний домен, приховування номерів клієнтів, двостороння стенограма, рапорти, синтез і розпізнавання мовлення — функції, які зроблять ваш кол-центр ефективнішим.

Детальніше