- BrainTools - https://www.braintools.ru -
30+ движков за две недели, реальные замеры на Apple M4, и почему ElevenLabs за $5.57/час – это приговор для бизнеса
Сижу на очередном рабочем созвоне. Обсуждаем архитектуру нового сервиса. Технически я всё понимаю – документацию на английском читаю без словаря, код ревьюю, в слаке переписываюсь нормально. А вот когда надо открыть рот и сказать что-то сложнее “I agree” – начинается цирк. Пауза. Подбираю слова. Коллега уже ответил за меня.
Знакомо?
Я CTO, серийный предприниматель, последние годы плотно работаю с AI-интеграциями. И вот парадокс [1]: могу собрать систему автоматического обзвона клиентов с клонированием голосов, а сам на созвоне звучу как иностранец с разговорником.
Решил наконец закрыть этот гештальт. Полез искать real-time переводчик. Что-то типа: я говорю по-русски, собеседник слышит английский. И наоборот. В реальном времени, без пауз на 10 секунд.
И тут началось интересное.
Я прошёлся по всему рынку. Вот что есть:
|
Продукт |
Задержка |
Цена |
Проблема |
|---|---|---|---|
|
Google Meet S2ST |
~2 секунды |
Только платный Workspace |
Только в Google Meet. Не работает в Zoom, Teams, Discord. Ограниченная география. Нет API |
|
Palabra.ai |
~800ms |
от $25/мес за 60 мин |
WebSocket API есть. Бесплатно 30 мин/мес. При активном использовании $100+/мес легко |
|
Talo (куплен Palabra) |
<1 секунды |
по запросу |
Поглощён Palabra в ноябре 2025. Отдельного продукта больше нет |
|
DeepL Voice |
~1-2 секунды |
$32.99/мес (Pro) |
Жалобы на лаги в реальных звонках. Хорош для текста, слабее для речи |
|
Interprefy |
~1-3 секунды |
enterprise, от $300+ |
Заточен под конференции и ивенты, а не под ежедневные созвоны |
|
JotMe |
~2-4 секунды |
от $10/мес |
Больше транскрипция + субтитры, чем voice-to-voice |
|
Wordly |
~2-3 секунды |
enterprise, от $500+ |
Для конференций на 1000+ человек. Overkill для двух людей на созвоне |
|
ElevenLabs |
STT 150ms + TTS 75ms |
собери сам + $99+/мес |
Отдельные компоненты, не готовый продукт. Дорого |
Протестировал всё что мог потрогать. Ни одно не работало так чтобы разговор звучал естественно. Где-то задержка два с лишним секунды – это уже не перевод, это рация. Где-то привязка к одной платформе. Где-то ценник для корпораций.
Ну и мы же айтишники. Да ещё и AI интегрировать умеем. Собрал рабочий прототип за выходные, а за следующие пару недель прогнал через бенчмарки весь рынок голосовых движков. Результаты – ниже.
Схема простая. Три компонента в цепочке:
STT (распознавание речи) → LLM (перевод) → TTS (синтез голоса)
Я говорю по-русски. Deepgram распознаёт речь. Groq с Llama переводит. TTS озвучивает. Собеседник слышит английский. В обратную сторону то же самое.
Звучит просто. На деле каждый компонент – это бутылочное горлышко, и в каждом свои грабли. Разберём по частям.
Speech-to-Text – первое звено цепочки. Чем быстрее распознали речь, тем раньше начнётся перевод.
|
Провайдер |
Задержка |
WER (ошибки [2]) |
Цена/мин |
Streaming |
|---|---|---|---|---|
|
Deepgram Nova-3 |
<300ms |
~10% |
$0.0059 |
Да |
|
AssemblyAI Universal-2 |
~300ms |
8.4% |
~$0.006 |
Да |
|
ElevenLabs Scribe v2 |
150ms |
~9% |
~$0.01 |
Да |
|
Groq Whisper Large v3 |
batch |
10.3% |
$0.0028 |
Нет |
|
whisper.cpp (локально) |
1-3 секунды |
~10% |
бесплатно |
Нет |
Deepgram Nova-3 – лучший для streaming. Работает стабильно, задержка меньше 300ms, цена копеечная.
Кстати, при регистрации Deepgram даёт $200 на счёт. При расходе $0.0059/минута этого хватает на 33,000 минут распознавания. Это 560 часов. Реферальной программы у них нет, а то бы дал ссылку и жил на пассивном доходе.
Groq Whisper мы пробовали раньше – нестабильный, падал с 503 ошибками, средняя задержка 2812ms. Заменили на Deepgram и забыли как страшный сон [3].
ElevenLabs Scribe v2 с заявленными 150ms стоит потестировать, но пока нет данных по точности и цене.
Для перевода нужна LLM, которая выдаёт первый токен максимально быстро (TTFT – Time to First Token). Качество перевода у всех крупных моделей плюс-минус одинаковое, а вот скорость отличается в разы.
|
Провайдер |
Модель |
Скорость (tokens/s) |
TTFT |
|---|---|---|---|
|
Groq |
Llama 3.3 70B |
~750 |
~200ms |
|
Cerebras |
Llama 8B |
1800 |
~350ms |
|
Gemini |
2.5 Flash |
217-245 |
330-450ms |
|
Fireworks AI |
Llama 3.3 70B |
~800 |
~200ms |
Cerebras быстрее по токенам/секунду, но у них выше TTFT. Для перевода коротких фраз (5-15 слов) критичен именно TTFT, а не скорость генерации. Groq с Llama 3.3 70B – оптимальный выбор: ~200ms до первого токена, хорошее качество перевода.
Локальные LLM (Llama 3.2 3B на MLX, ~100 t/s) пока проигрывают облаку для latency-critical задач.
Text-to-Speech выглядит как самая простая часть пайплайна. На деле это бутылочное горлышко всей системы. Если STT + LLM работают за 500ms, а TTS добавляет ещё секунду – собеседник ждёт полторы секунды после каждой фразы.
Вот полная картина.
|
Провайдер |
Модель |
TTFB |
ELO |
Цена/1M симв. |
Цена/час |
Русский |
|---|---|---|---|---|---|---|
|
Cartesia |
Sonic Turbo |
~40ms |
1054 |
$37-47 |
$1.26 |
Да |
|
Cartesia |
Sonic 3 |
~90ms |
1054 |
$37-47 |
$1.26 |
Да |
|
Hume |
Octave 2 |
<200ms |
1562 |
$7.60 |
$0.26 |
Да (11 языков) |
|
Inworld |
TTS-1.5-Max |
<250ms |
1576 |
$10 |
$0.34 |
Нет |
|
Inworld |
TTS-1.5-Mini |
<120ms |
~1480 |
$5 |
$0.17 |
Нет |
|
ElevenLabs |
Flash v2.5 |
~75ms |
1544 |
~$206 |
$5.57 |
Да |
|
Smallest.ai |
Lightning |
<100ms |
~1150 |
~$25 |
$0.84 |
Да |
|
Fish Audio |
OpenAudio S1 |
<100ms |
~1200 |
$15 |
$0.51 |
Да |
|
Deepgram |
Aura-2 |
90-184ms |
~1050 |
$27-30 |
$1.01 |
Нет |
|
OpenAI |
TTS-1 |
~500ms |
1106 |
$15 |
$0.51 |
Да |
|
OpenAI |
gpt-4o-mini-tts |
~300ms |
~1350 |
$64/1M токенов |
~$3.20 |
Да |
|
|
Neural2 |
200-250ms |
~1020 |
$16 |
$0.54 |
Да |
|
|
Chirp 3 HD |
до 3.5с! |
~1180 |
$30 |
$1.01 |
Да |
|
Azure |
Neural HD |
300-500ms |
~1080 |
$15 |
$0.54 |
Да |
|
Speechmatics |
Flow |
~150ms |
~1100 |
$11 |
$0.37 |
Нет |
Расчёт “цена/час”: ~33,750 символов TTS на час звонка (два направления, ~750 символов в минуту, ~45 минут активного TTS).
Данные из TTS Arena v2 [4] и Artificial Analysis [5], март 2026:
|
# |
Модель |
ELO |
Тип |
|---|---|---|---|
|
1 |
Vocu V3.0 |
1600 |
облако |
|
2 |
Inworld TTS-1.5-Max |
1576 |
облако |
|
3 |
Hume Octave 2 |
1562 |
облако |
|
4 |
ElevenLabs Flash v2.5 |
1544 |
облако |
|
5 |
MiniMax Speech 2.6 HD |
1544 |
облако |
|
6 |
OpenAI TTS-1 |
1106 |
облако |
|
7 |
Kokoro 82M |
1059 |
open-source |
|
8 |
Cartesia Sonic 3 |
1054 |
облако |
Все тесты – MacBook Air M4, 24GB RAM. Одни и те же фразы, warm (после прогрева).
|
Модель |
Размер |
Инференс (2-3 слова) |
Инференс (10 слов) |
Качество |
Русский |
Лицензия |
|---|---|---|---|---|---|---|
|
Piper ryan-medium |
63MB |
30-50ms |
137ms |
B |
Да |
MIT |
|
Kokoro 82M fp16 |
156MB |
370ms |
730ms |
A+ |
Нет |
Apache 2.0 |
|
pocket-tts 100M |
100M |
260ms |
7500ms! |
B (нестабильно) |
Нет |
Gated |
|
ZipVoice 123M |
123M |
~500ms |
1240ms avg |
B+ |
Нет |
Apache 2.0 |
|
Chatterbox 500M |
500M |
6310ms |
9100ms |
A |
Да |
MIT |
|
Qwen3-TTS 0.6B |
600M |
~800ms |
~1600-2000ms |
B+ |
Да |
Apache 2.0 |
|
Qwen3-TTS 1.7B |
1.7B |
~2500ms |
~5300ms |
A |
Да |
Apache 2.0 |
|
Marvis TTS 250M |
250M |
~3000ms |
~8500ms |
C+ |
Нет |
MIT |
Тренд неприятный: все серьёзные новые модели (Chatterbox, Dia, Sesame CSM, Spark-TTS) идут к 0.5-2B параметров. На Mac без GPU это 6-19 секунд на фразу. Лёгких конкурентов Kokoro 82M почти нет.
5 одинаковых фраз, warm, замеры TTFB или total time. Это самая ценная таблица в статье:
|
Провайдер |
Модель |
Протокол |
TTFB avg |
Min |
Max |
Цена/1M |
|---|---|---|---|---|---|---|
|
Cartesia |
Sonic-2 |
WebSocket |
245ms |
208ms |
281ms |
$37-47 |
|
Kokoro |
82M |
local MLX |
313ms* |
259ms |
340ms |
бесплатно |
|
ElevenLabs |
Flash v2.5 |
WebSocket |
395ms† |
309ms |
551ms |
~$206 |
|
Hume |
Octave 2 |
HTTP stream |
800ms |
773ms |
833ms |
$7.60 |
|
ZipVoice |
123M distill |
local MPS |
1240ms |
792ms |
2190ms |
бесплатно |
|
Cartesia |
Sonic-2 |
sync SDK |
1361ms |
1173ms |
1567ms |
$37-47 |
|
Inworld |
TTS-1.5-Mini |
sync HTTP |
2018ms |
1606ms |
2404ms |
$5 |
|
Hume |
Octave 2 |
sync |
2158ms |
1915ms |
2395ms |
$7.60 |
|
Inworld |
TTS-1.5-Max |
sync HTTP |
2616ms |
2077ms |
2886ms |
$10 |
*Kokoro – total time (нет стриминга, генерирует аудио целиком). †ElevenLabs – avg без первого cold-start запроса (2520ms).
Обратите внимание [6] на Cartesia в двух строках. Одна и та же модель, одна и та же фраза. Разница – только протокол подключения.
Cartesia Sonic через WebSocket: 245ms.
Cartesia Sonic через обычный HTTP SDK: 1361ms.
Разница в 5.5 раз. Просто потому что в одном случае соединение уже открыто и данные идут стримом, а в другом каждый запрос открывает новое соединение и ждёт полной генерации.
Если выбираете TTS для голосового бота и тестируете через синхронный API – вы получаете цифры, которые не имеют отношения к реальности. Всегда тестируйте через WebSocket.
Обычно INT8-квантизация ускоряет инференс. На Apple Silicon – наоборот.
Kokoro 82M в fp16: 373ms. Та же модель в INT8: 687ms. Почти вдвое медленнее.
ARM-процессоры Apple оптимизированы под fp16. Квантизация экономит RAM, но добавляет overhead на конвертацию типов. Нигде в документации это не написано. Мы убили на это день.
Из 30+ моделей русский поддерживают:
|
Модель |
Русский |
Качество |
Проблема |
|---|---|---|---|
|
Piper TTS (~20M) |
Да |
“Синтетический” голос |
Проект архивирован |
|
Chatterbox 500M |
Да |
Отличное |
6-19 секунд на фразу |
|
Qwen3-TTS 0.6B |
Да |
Хорошее |
Слишком медленно на Mac |
|
Coqui XTTS-v2 1.4B |
Да |
Хорошее |
Модель 1.4GB |
|
Облачные (Cartesia, EL, Google, Azure) |
Да |
Хорошее-отличное |
$$$ каждый месяц |
Kokoro 82M – лучшая бесплатная модель по качеству – русского не поддерживает. Если делаете голосовой продукт для русскоязычного рынка на open-source – готовьтесь к боли [7].
ElevenLabs Flash v2.5 – объективно один из лучших движков. ELO 1544, голоса неотличимы от живых.
Цена: ~$206/1M символов. Для голосового бота на час – $5.57.
Cartesia Sonic Turbo при сопоставимой скорости: $1.26/час. Hume Octave 2: $0.26/час.
ElevenLabs в 4-20 раз дороже конкурентов при сравнимом качестве. Считайте unit-экономику до того как выберете провайдера. Не после.
Отдельно про модель которую я в итоге выбрал для английского TTS. Kokoro 82M – StyleTTS2, Apache 2.0 лицензия, 156MB в fp16.
Бенчмарки на M4 (ONNX Runtime, CPU, 4 потока):
|
Фраза |
Инференс |
Длительность аудио |
|---|---|---|
|
“hey so” (2 слова) |
373ms |
1.50s |
|
“well actually” |
372ms |
1.77s |
|
“we should push the deadline…” (10 слов) |
730ms |
3.33s |
|
“I believe we need to reconsider…” (11 слов) |
1036ms |
4.45s |
|
Полный параграф (~40 слов) |
2756ms |
14.1s |
Попытки ускорить:
|
Оптимизация |
Результат |
Вывод |
|---|---|---|
|
fp16 (дефолт) |
373ms |
Лучший вариант |
|
INT8 квантизация |
687ms |
1.8x медленнее! |
|
q8f16 |
655ms |
1.75x медленнее! |
|
CoreML Neural Engine |
ошибка |
Не поддерживает архитектуру |
|
1 поток |
1723ms |
Слишком медленно |
|
2 потока |
942ms |
Ещё медленно |
|
4 потока |
~730ms |
Оптимум |
|
8 потоков |
754ms |
Overhead |
28 английских голосов (20 US, 8 GB). Качество – первое место в TTS Arena для single-speaker. Субъективно значительно натуральнее Piper.
Минус: нет русского. 9 языков (EN, JA, ZH, ES, FR, HI, IT, PT, GB-EN), но не русский.
Финальный стек переводчика:
Deepgram Nova-3 (STT, ~300ms) → Groq Llama 3.3 70B (перевод, ~200ms) → StreamChunker (нарезает на куски по 2-3 слова, ~100ms) → Kokoro 82M (TTS английский, ~370ms на первый чанк)
Общая задержка до первого звука: ~870ms.
|
Решение |
Задержка |
Цена |
|---|---|---|
|
Google Meet S2ST |
~2000ms |
Только платный Workspace, ограниченная география, только Meet |
|
Palabra.ai |
~800ms |
от $25/мес (60 мин) |
|
Мой переводчик |
~870ms |
~$0.009/мин |
На уровне лучших коммерческих решений. Скоро выложу в open-source.
Для русского TTS пока Piper с фиксом нормализации громкости. Проблема “тихо” оказалась багом – семплы из ONNX шли без gain normalization. Починили, стало нормально.
Пока копался в TTS-движках, тот же пайплайн пригодился для другого проекта. У RigCrew [8]есть колл-центр – автоматический обзвон кандидатов, скриптованные разговоры, FAQ на 30 вопросов. Живые операторы стоят денег и масштабироваться с ними дорого.
Адаптировали пайплайн: STT слушает кандидата, LLM генерирует ответ по скрипту, TTS озвучивает. Один менеджер управляет целым оркестром из AI-звонилок. Голосовой бот который звучит натурально, стоит $1-2 в час, и не устаёт к концу смены.
Все бенчмарки из этой статьи – они работают и там. Тот же выбор между Cartesia за $1.26/час и ElevenLabs за $5.57/час. Та же разница в 5.5 раз между WebSocket и sync API.
Conversational Speech Models. Sesame CSM-1B [9] генерирует речь с паузами, “ммм”, контекстной интонацией. Пока research-grade (200-400ms, нужен GPU), но через год-два это будет стандарт.
LLM-based TTS. Hume Octave 2, OpenAI gpt-4o-mini-tts – модели которые “понимают” что говорят. Грустную новость бот сообщает грустным голосом. Hume побеждал ElevenLabs в слепом тесте (71.6% по quality).
Гонка цен вниз. Новые игроки (Inworld, Smallest.ai [10], Fish Audio) давят ElevenLabs. Цены за два года упали в 5-20 раз.
Open-source догоняет. Kokoro 82M бесплатно даёт качество облачных API годовой давности. Но русский язык – по-прежнему боль.
End-to-end модели. Google S2ST переводит речь напрямую, сохраняя голос. Пока только в Meet. Если откроют API – рынок изменится.
Считайте unit-экономику на берегу. Разница между $0.26/час и $5.57/час при 1000 часов звонков в месяц – это $5,310. Выбор TTS-провайдера может убить бизнес-модель.
Тестируйте через WebSocket. Один и тот же провайдер: 245ms или 1361ms. Зависит только от протокола.
Русский язык – бутылочное горлышко. Open-source пока не дотягивает. Бюджет на cloud TTS неизбежен если ваш продукт для русскоязычного рынка.
Переводчик скоро в open-source. Все бенчмарки из статьи реальные, повторяемые, с указанием железа и условий. Если делаете что-то похожее – пишите, сэкономлю вам пару недель мучений.
Источники и бенчмарки:
TTS Arena v2 [4] · Artificial Analysis [5] · Cartesia [11] · Hume Octave 2 [12] · Deepgram Nova-3 [13] · Kokoro-82M [14] · Sesame CSM [9] · Google Meet S2ST [15] · Cerebras vs Groq [16] · ElevenLabs Scribe v2 [17] · Inworld TTS [18] · Piper TTS [19] · Kokoro ONNX [20]
Об авторе: Кир, CTO и серийный предприниматель. Пишу про AI для бизнеса без булшита: @ai_integr [21]
Автор: Kir_Moisha
Источник [22]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/27882
URLs in this post:
[1] парадокс: http://www.braintools.ru/article/8221
[2] ошибки: http://www.braintools.ru/article/4192
[3] сон: http://www.braintools.ru/article/9809
[4] TTS Arena v2: https://tts-agi-tts-arena-v2.hf.space/leaderboard
[5] Artificial Analysis: https://artificialanalysis.ai/text-to-speech/models
[6] внимание: http://www.braintools.ru/article/7595
[7] боли: http://www.braintools.ru/article/9901
[8] RigCrew: https://rigcrew.net/
[9] Sesame CSM-1B: https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice
[10] Smallest.ai: http://Smallest.ai
[11] Cartesia: https://cartesia.ai/pricing
[12] Hume Octave 2: https://www.hume.ai/blog/octave-2-launch
[13] Deepgram Nova-3: https://deepgram.com/learn/introducing-nova-3-speech-to-text-api
[14] Kokoro-82M: https://huggingface.co/hexgrad/Kokoro-82M
[15] Google Meet S2ST: https://workspaceupdates.googleblog.com/2026/02/speech-translation-meet-ga.html
[16] Cerebras vs Groq: https://www.cerebras.ai/blog/cerebras-cs-3-vs-groq-lpu
[17] ElevenLabs Scribe v2: https://elevenlabs.io/realtime-speech-to-text
[18] Inworld TTS: https://inworld.ai/tts-api
[19] Piper TTS: https://github.com/rhasspy/piper
[20] Kokoro ONNX: https://huggingface.co/onnx-community/Kokoro-82M-v1.0-ONNX
[21] @ai_integr: https://t.me/ai_integr
[22] Источник: https://habr.com/ru/articles/1016156/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1016156
Нажмите здесь для печати.