30+ движков за две недели, реальные замеры на Apple M4, и почему ElevenLabs за $5.57/час – это приговор для бизнеса
Сижу на очередном рабочем созвоне. Обсуждаем архитектуру нового сервиса. Технически я всё понимаю – документацию на английском читаю без словаря, код ревьюю, в слаке переписываюсь нормально. А вот когда надо открыть рот и сказать что-то сложнее “I agree” – начинается цирк. Пауза. Подбираю слова. Коллега уже ответил за меня.
Знакомо?
Я CTO, серийный предприниматель, последние годы плотно работаю с AI-интеграциями. И вот парадокс: могу собрать систему автоматического обзвона клиентов с клонированием голосов, а сам на созвоне звучу как иностранец с разговорником.
Решил наконец закрыть этот гештальт. Полез искать real-time переводчик. Что-то типа: я говорю по-русски, собеседник слышит английский. И наоборот. В реальном времени, без пауз на 10 секунд.
И тут началось интересное.
Существующие решения – от $25 до $300+ в месяц
Я прошёлся по всему рынку. Вот что есть:
|
Продукт |
Задержка |
Цена |
Проблема |
|---|---|---|---|
|
Google Meet S2ST |
~2 секунды |
Только платный Workspace |
Только в Google Meet. Не работает в Zoom, Teams, Discord. Ограниченная география. Нет API |
|
Palabra.ai |
~800ms |
от $25/мес за 60 мин |
WebSocket API есть. Бесплатно 30 мин/мес. При активном использовании $100+/мес легко |
|
Talo (куплен Palabra) |
<1 секунды |
по запросу |
Поглощён Palabra в ноябре 2025. Отдельного продукта больше нет |
|
DeepL Voice |
~1-2 секунды |
$32.99/мес (Pro) |
Жалобы на лаги в реальных звонках. Хорош для текста, слабее для речи |
|
Interprefy |
~1-3 секунды |
enterprise, от $300+ |
Заточен под конференции и ивенты, а не под ежедневные созвоны |
|
JotMe |
~2-4 секунды |
от $10/мес |
Больше транскрипция + субтитры, чем voice-to-voice |
|
Wordly |
~2-3 секунды |
enterprise, от $500+ |
Для конференций на 1000+ человек. Overkill для двух людей на созвоне |
|
ElevenLabs |
STT 150ms + TTS 75ms |
собери сам + $99+/мес |
Отдельные компоненты, не готовый продукт. Дорого |
Протестировал всё что мог потрогать. Ни одно не работало так чтобы разговор звучал естественно. Где-то задержка два с лишним секунды – это уже не перевод, это рация. Где-то привязка к одной платформе. Где-то ценник для корпораций.
Ну и мы же айтишники. Да ещё и AI интегрировать умеем. Собрал рабочий прототип за выходные, а за следующие пару недель прогнал через бенчмарки весь рынок голосовых движков. Результаты – ниже.
Как устроен голосовой AI-переводчик
Схема простая. Три компонента в цепочке:
STT (распознавание речи) → LLM (перевод) → TTS (синтез голоса)
Я говорю по-русски. Deepgram распознаёт речь. Groq с Llama переводит. TTS озвучивает. Собеседник слышит английский. В обратную сторону то же самое.
Звучит просто. На деле каждый компонент – это бутылочное горлышко, и в каждом свои грабли. Разберём по частям.
Часть 1: STT – кто слушает лучше всех
Speech-to-Text – первое звено цепочки. Чем быстрее распознали речь, тем раньше начнётся перевод.
|
Провайдер |
Задержка |
WER (ошибки) |
Цена/мин |
Streaming |
|---|---|---|---|---|
|
Deepgram Nova-3 |
<300ms |
~10% |
$0.0059 |
Да |
|
AssemblyAI Universal-2 |
~300ms |
8.4% |
~$0.006 |
Да |
|
ElevenLabs Scribe v2 |
150ms |
~9% |
~$0.01 |
Да |
|
Groq Whisper Large v3 |
batch |
10.3% |
$0.0028 |
Нет |
|
whisper.cpp (локально) |
1-3 секунды |
~10% |
бесплатно |
Нет |
Deepgram Nova-3 – лучший для streaming. Работает стабильно, задержка меньше 300ms, цена копеечная.
Кстати, при регистрации Deepgram даёт $200 на счёт. При расходе $0.0059/минута этого хватает на 33,000 минут распознавания. Это 560 часов. Реферальной программы у них нет, а то бы дал ссылку и жил на пассивном доходе.
Groq Whisper мы пробовали раньше – нестабильный, падал с 503 ошибками, средняя задержка 2812ms. Заменили на Deepgram и забыли как страшный сон.
ElevenLabs Scribe v2 с заявленными 150ms стоит потестировать, но пока нет данных по точности и цене.
Часть 2: LLM – кто переводит быстрее
Для перевода нужна LLM, которая выдаёт первый токен максимально быстро (TTFT – Time to First Token). Качество перевода у всех крупных моделей плюс-минус одинаковое, а вот скорость отличается в разы.
|
Провайдер |
Модель |
Скорость (tokens/s) |
TTFT |
|---|---|---|---|
|
Groq |
Llama 3.3 70B |
~750 |
~200ms |
|
Cerebras |
Llama 8B |
1800 |
~350ms |
|
Gemini |
2.5 Flash |
217-245 |
330-450ms |
|
Fireworks AI |
Llama 3.3 70B |
~800 |
~200ms |
Cerebras быстрее по токенам/секунду, но у них выше TTFT. Для перевода коротких фраз (5-15 слов) критичен именно TTFT, а не скорость генерации. Groq с Llama 3.3 70B – оптимальный выбор: ~200ms до первого токена, хорошее качество перевода.
Локальные LLM (Llama 3.2 3B на MLX, ~100 t/s) пока проигрывают облаку для latency-critical задач.
Часть 3: TTS – где всё ломается
Text-to-Speech выглядит как самая простая часть пайплайна. На деле это бутылочное горлышко всей системы. Если STT + LLM работают за 500ms, а TTS добавляет ещё секунду – собеседник ждёт полторы секунды после каждой фразы.
Вот полная картина.
Облачные TTS API (полная сводка)
|
Провайдер |
Модель |
TTFB |
ELO |
Цена/1M симв. |
Цена/час |
Русский |
|---|---|---|---|---|---|---|
|
Cartesia |
Sonic Turbo |
~40ms |
1054 |
$37-47 |
$1.26 |
Да |
|
Cartesia |
Sonic 3 |
~90ms |
1054 |
$37-47 |
$1.26 |
Да |
|
Hume |
Octave 2 |
<200ms |
1562 |
$7.60 |
$0.26 |
Да (11 языков) |
|
Inworld |
TTS-1.5-Max |
<250ms |
1576 |
$10 |
$0.34 |
Нет |
|
Inworld |
TTS-1.5-Mini |
<120ms |
~1480 |
$5 |
$0.17 |
Нет |
|
ElevenLabs |
Flash v2.5 |
~75ms |
1544 |
~$206 |
$5.57 |
Да |
|
Smallest.ai |
Lightning |
<100ms |
~1150 |
~$25 |
$0.84 |
Да |
|
Fish Audio |
OpenAudio S1 |
<100ms |
~1200 |
$15 |
$0.51 |
Да |
|
Deepgram |
Aura-2 |
90-184ms |
~1050 |
$27-30 |
$1.01 |
Нет |
|
OpenAI |
TTS-1 |
~500ms |
1106 |
$15 |
$0.51 |
Да |
|
OpenAI |
gpt-4o-mini-tts |
~300ms |
~1350 |
$64/1M токенов |
~$3.20 |
Да |
|
|
Neural2 |
200-250ms |
~1020 |
$16 |
$0.54 |
Да |
|
|
Chirp 3 HD |
до 3.5с! |
~1180 |
$30 |
$1.01 |
Да |
|
Azure |
Neural HD |
300-500ms |
~1080 |
$15 |
$0.54 |
Да |
|
Speechmatics |
Flow |
~150ms |
~1100 |
$11 |
$0.37 |
Нет |
Расчёт “цена/час”: ~33,750 символов TTS на час звонка (два направления, ~750 символов в минуту, ~45 минут активного TTS).
Рейтинг качества TTS (ELO, слепое голосование)
Данные из TTS Arena v2 и Artificial Analysis, март 2026:
|
# |
Модель |
ELO |
Тип |
|---|---|---|---|
|
1 |
Vocu V3.0 |
1600 |
облако |
|
2 |
Inworld TTS-1.5-Max |
1576 |
облако |
|
3 |
Hume Octave 2 |
1562 |
облако |
|
4 |
ElevenLabs Flash v2.5 |
1544 |
облако |
|
5 |
MiniMax Speech 2.6 HD |
1544 |
облако |
|
6 |
OpenAI TTS-1 |
1106 |
облако |
|
7 |
Kokoro 82M |
1059 |
open-source |
|
8 |
Cartesia Sonic 3 |
1054 |
облако |
Локальные TTS модели (реальные бенчмарки на Apple M4)
Все тесты – MacBook Air M4, 24GB RAM. Одни и те же фразы, warm (после прогрева).
|
Модель |
Размер |
Инференс (2-3 слова) |
Инференс (10 слов) |
Качество |
Русский |
Лицензия |
|---|---|---|---|---|---|---|
|
Piper ryan-medium |
63MB |
30-50ms |
137ms |
B |
Да |
MIT |
|
Kokoro 82M fp16 |
156MB |
370ms |
730ms |
A+ |
Нет |
Apache 2.0 |
|
pocket-tts 100M |
100M |
260ms |
7500ms! |
B (нестабильно) |
Нет |
Gated |
|
ZipVoice 123M |
123M |
~500ms |
1240ms avg |
B+ |
Нет |
Apache 2.0 |
|
Chatterbox 500M |
500M |
6310ms |
9100ms |
A |
Да |
MIT |
|
Qwen3-TTS 0.6B |
600M |
~800ms |
~1600-2000ms |
B+ |
Да |
Apache 2.0 |
|
Qwen3-TTS 1.7B |
1.7B |
~2500ms |
~5300ms |
A |
Да |
Apache 2.0 |
|
Marvis TTS 250M |
250M |
~3000ms |
~8500ms |
C+ |
Нет |
MIT |
Тренд неприятный: все серьёзные новые модели (Chatterbox, Dia, Sesame CSM, Spark-TTS) идут к 0.5-2B параметров. На Mac без GPU это 6-19 секунд на фразу. Лёгких конкурентов Kokoro 82M почти нет.
Реальные бенчмарки: одни и те же фразы, все провайдеры
5 одинаковых фраз, warm, замеры TTFB или total time. Это самая ценная таблица в статье:
|
Провайдер |
Модель |
Протокол |
TTFB avg |
Min |
Max |
Цена/1M |
|---|---|---|---|---|---|---|
|
Cartesia |
Sonic-2 |
WebSocket |
245ms |
208ms |
281ms |
$37-47 |
|
Kokoro |
82M |
local MLX |
313ms* |
259ms |
340ms |
бесплатно |
|
ElevenLabs |
Flash v2.5 |
WebSocket |
395ms† |
309ms |
551ms |
~$206 |
|
Hume |
Octave 2 |
HTTP stream |
800ms |
773ms |
833ms |
$7.60 |
|
ZipVoice |
123M distill |
local MPS |
1240ms |
792ms |
2190ms |
бесплатно |
|
Cartesia |
Sonic-2 |
sync SDK |
1361ms |
1173ms |
1567ms |
$37-47 |
|
Inworld |
TTS-1.5-Mini |
sync HTTP |
2018ms |
1606ms |
2404ms |
$5 |
|
Hume |
Octave 2 |
sync |
2158ms |
1915ms |
2395ms |
$7.60 |
|
Inworld |
TTS-1.5-Max |
sync HTTP |
2616ms |
2077ms |
2886ms |
$10 |
*Kokoro – total time (нет стриминга, генерирует аудио целиком). †ElevenLabs – avg без первого cold-start запроса (2520ms).
Обратите внимание на Cartesia в двух строках. Одна и та же модель, одна и та же фраза. Разница – только протокол подключения.
Четыре находки, которые стоили мне недели
Находка #1: Протокол решает всё
Cartesia Sonic через WebSocket: 245ms.
Cartesia Sonic через обычный HTTP SDK: 1361ms.
Разница в 5.5 раз. Просто потому что в одном случае соединение уже открыто и данные идут стримом, а в другом каждый запрос открывает новое соединение и ждёт полной генерации.
Если выбираете TTS для голосового бота и тестируете через синхронный API – вы получаете цифры, которые не имеют отношения к реальности. Всегда тестируйте через WebSocket.
Находка #2: Квантизация замедляет на Apple Silicon
Обычно INT8-квантизация ускоряет инференс. На Apple Silicon – наоборот.
Kokoro 82M в fp16: 373ms. Та же модель в INT8: 687ms. Почти вдвое медленнее.
ARM-процессоры Apple оптимизированы под fp16. Квантизация экономит RAM, но добавляет overhead на конвертацию типов. Нигде в документации это не написано. Мы убили на это день.
Находка #3: Русский язык – пустыня
Из 30+ моделей русский поддерживают:
|
Модель |
Русский |
Качество |
Проблема |
|---|---|---|---|
|
Piper TTS (~20M) |
Да |
“Синтетический” голос |
Проект архивирован |
|
Chatterbox 500M |
Да |
Отличное |
6-19 секунд на фразу |
|
Qwen3-TTS 0.6B |
Да |
Хорошее |
Слишком медленно на Mac |
|
Coqui XTTS-v2 1.4B |
Да |
Хорошее |
Модель 1.4GB |
|
Облачные (Cartesia, EL, Google, Azure) |
Да |
Хорошее-отличное |
$$$ каждый месяц |
Kokoro 82M – лучшая бесплатная модель по качеству – русского не поддерживает. Если делаете голосовой продукт для русскоязычного рынка на open-source – готовьтесь к боли.
Находка #4: ElevenLabs – лучшее качество, худшая экономика
ElevenLabs Flash v2.5 – объективно один из лучших движков. ELO 1544, голоса неотличимы от живых.
Цена: ~$206/1M символов. Для голосового бота на час – $5.57.
Cartesia Sonic Turbo при сопоставимой скорости: $1.26/час. Hume Octave 2: $0.26/час.
ElevenLabs в 4-20 раз дороже конкурентов при сравнимом качестве. Считайте unit-экономику до того как выберете провайдера. Не после.
Kokoro 82M: бесплатный чемпион (с нюансами)
Отдельно про модель которую я в итоге выбрал для английского TTS. Kokoro 82M – StyleTTS2, Apache 2.0 лицензия, 156MB в fp16.
Бенчмарки на M4 (ONNX Runtime, CPU, 4 потока):
|
Фраза |
Инференс |
Длительность аудио |
|---|---|---|
|
“hey so” (2 слова) |
373ms |
1.50s |
|
“well actually” |
372ms |
1.77s |
|
“we should push the deadline…” (10 слов) |
730ms |
3.33s |
|
“I believe we need to reconsider…” (11 слов) |
1036ms |
4.45s |
|
Полный параграф (~40 слов) |
2756ms |
14.1s |
Попытки ускорить:
|
Оптимизация |
Результат |
Вывод |
|---|---|---|
|
fp16 (дефолт) |
373ms |
Лучший вариант |
|
INT8 квантизация |
687ms |
1.8x медленнее! |
|
q8f16 |
655ms |
1.75x медленнее! |
|
CoreML Neural Engine |
ошибка |
Не поддерживает архитектуру |
|
1 поток |
1723ms |
Слишком медленно |
|
2 потока |
942ms |
Ещё медленно |
|
4 потока |
~730ms |
Оптимум |
|
8 потоков |
754ms |
Overhead |
28 английских голосов (20 US, 8 GB). Качество – первое место в TTS Arena для single-speaker. Субъективно значительно натуральнее Piper.
Минус: нет русского. 9 языков (EN, JA, ZH, ES, FR, HI, IT, PT, GB-EN), но не русский.
Что получилось в итоге
Финальный стек переводчика:
Deepgram Nova-3 (STT, ~300ms) → Groq Llama 3.3 70B (перевод, ~200ms) → StreamChunker (нарезает на куски по 2-3 слова, ~100ms) → Kokoro 82M (TTS английский, ~370ms на первый чанк)
Общая задержка до первого звука: ~870ms.
|
Решение |
Задержка |
Цена |
|---|---|---|
|
Google Meet S2ST |
~2000ms |
Только платный Workspace, ограниченная география, только Meet |
|
Palabra.ai |
~800ms |
от $25/мес (60 мин) |
|
Мой переводчик |
~870ms |
~$0.009/мин |
На уровне лучших коммерческих решений. Скоро выложу в open-source.
Для русского TTS пока Piper с фиксом нормализации громкости. Проблема “тихо” оказалась багом – семплы из ONNX шли без gain normalization. Починили, стало нормально.
Бонус: тот же стек для колл-центра
Пока копался в TTS-движках, тот же пайплайн пригодился для другого проекта. У RigCrewесть колл-центр – автоматический обзвон кандидатов, скриптованные разговоры, FAQ на 30 вопросов. Живые операторы стоят денег и масштабироваться с ними дорого.
Адаптировали пайплайн: STT слушает кандидата, LLM генерирует ответ по скрипту, TTS озвучивает. Один менеджер управляет целым оркестром из AI-звонилок. Голосовой бот который звучит натурально, стоит $1-2 в час, и не устаёт к концу смены.
Все бенчмарки из этой статьи – они работают и там. Тот же выбор между Cartesia за $1.26/час и ElevenLabs за $5.57/час. Та же разница в 5.5 раз между WebSocket и sync API.
Куда движется голосовой AI
Conversational Speech Models. Sesame CSM-1B генерирует речь с паузами, “ммм”, контекстной интонацией. Пока research-grade (200-400ms, нужен GPU), но через год-два это будет стандарт.
LLM-based TTS. Hume Octave 2, OpenAI gpt-4o-mini-tts – модели которые “понимают” что говорят. Грустную новость бот сообщает грустным голосом. Hume побеждал ElevenLabs в слепом тесте (71.6% по quality).
Гонка цен вниз. Новые игроки (Inworld, Smallest.ai, Fish Audio) давят ElevenLabs. Цены за два года упали в 5-20 раз.
Open-source догоняет. Kokoro 82M бесплатно даёт качество облачных API годовой давности. Но русский язык – по-прежнему боль.
End-to-end модели. Google S2ST переводит речь напрямую, сохраняя голос. Пока только в Meet. Если откроют API – рынок изменится.
Три вещи которые я хотел бы знать до начала
Считайте unit-экономику на берегу. Разница между $0.26/час и $5.57/час при 1000 часов звонков в месяц – это $5,310. Выбор TTS-провайдера может убить бизнес-модель.
Тестируйте через WebSocket. Один и тот же провайдер: 245ms или 1361ms. Зависит только от протокола.
Русский язык – бутылочное горлышко. Open-source пока не дотягивает. Бюджет на cloud TTS неизбежен если ваш продукт для русскоязычного рынка.
Переводчик скоро в open-source. Все бенчмарки из статьи реальные, повторяемые, с указанием железа и условий. Если делаете что-то похожее – пишите, сэкономлю вам пару недель мучений.
Источники и бенчмарки:
TTS Arena v2 · Artificial Analysis · Cartesia · Hume Octave 2 · Deepgram Nova-3 · Kokoro-82M · Sesame CSM · Google Meet S2ST · Cerebras vs Groq · ElevenLabs Scribe v2 · Inworld TTS · Piper TTS · Kokoro ONNX
Об авторе: Кир, CTO и серийный предприниматель. Пишу про AI для бизнеса без булшита: @ai_integr
Автор: Kir_Moisha


