Я протестировал 30+ голосовых AI-движков и собрал переводчик быстрее Google Meet. Бенчмарки, цены, грабли. ai.. ai. Deepgram.. ai. Deepgram. elevenlabs.. ai. Deepgram. elevenlabs. Kokoro.. ai. Deepgram. elevenlabs. Kokoro. llm.. ai. Deepgram. elevenlabs. Kokoro. llm. macOS.. ai. Deepgram. elevenlabs. Kokoro. llm. macOS. stt.. ai. Deepgram. elevenlabs. Kokoro. llm. macOS. stt. tts.. ai. Deepgram. elevenlabs. Kokoro. llm. macOS. stt. tts. voice ai.. ai. Deepgram. elevenlabs. Kokoro. llm. macOS. stt. tts. voice ai. Анализ и проектирование систем.. ai. Deepgram. elevenlabs. Kokoro. llm. macOS. stt. tts. voice ai. Анализ и проектирование систем. голосовой бот.. ai. Deepgram. elevenlabs. Kokoro. llm. macOS. stt. tts. voice ai. Анализ и проектирование систем. голосовой бот. Голосовые интерфейсы.. ai. Deepgram. elevenlabs. Kokoro. llm. macOS. stt. tts. voice ai. Анализ и проектирование систем. голосовой бот. Голосовые интерфейсы. Исследования и прогнозы в IT.

30+ движков за две недели, реальные замеры на Apple M4, и почему ElevenLabs за $5.57/час – это приговор для бизнеса

Сижу на очередном рабочем созвоне. Обсуждаем архитектуру нового сервиса. Технически я всё понимаю – документацию на английском читаю без словаря, код ревьюю, в слаке переписываюсь нормально. А вот когда надо открыть рот и сказать что-то сложнее “I agree” – начинается цирк. Пауза. Подбираю слова. Коллега уже ответил за меня.

Знакомо?

Я CTO, серийный предприниматель, последние годы плотно работаю с AI-интеграциями. И вот парадокс: могу собрать систему автоматического обзвона клиентов с клонированием голосов, а сам на созвоне звучу как иностранец с разговорником.

Решил наконец закрыть этот гештальт. Полез искать real-time переводчик. Что-то типа: я говорю по-русски, собеседник слышит английский. И наоборот. В реальном времени, без пауз на 10 секунд.

И тут началось интересное.

Существующие решения – от $25 до $300+ в месяц

Я прошёлся по всему рынку. Вот что есть:

Продукт

Задержка

Цена

Проблема

Google Meet S2ST

~2 секунды

Только платный Workspace

Только в Google Meet. Не работает в Zoom, Teams, Discord. Ограниченная география. Нет API

Palabra.ai

~800ms

от $25/мес за 60 мин

WebSocket API есть. Бесплатно 30 мин/мес. При активном использовании $100+/мес легко

Talo (куплен Palabra)

<1 секунды

по запросу

Поглощён Palabra в ноябре 2025. Отдельного продукта больше нет

DeepL Voice

~1-2 секунды

$32.99/мес (Pro)

Жалобы на лаги в реальных звонках. Хорош для текста, слабее для речи

Interprefy

~1-3 секунды

enterprise, от $300+

Заточен под конференции и ивенты, а не под ежедневные созвоны

JotMe

~2-4 секунды

от $10/мес

Больше транскрипция + субтитры, чем voice-to-voice

Wordly

~2-3 секунды

enterprise, от $500+

Для конференций на 1000+ человек. Overkill для двух людей на созвоне

ElevenLabs

STT 150ms + TTS 75ms

собери сам + $99+/мес

Отдельные компоненты, не готовый продукт. Дорого

Протестировал всё что мог потрогать. Ни одно не работало так чтобы разговор звучал естественно. Где-то задержка два с лишним секунды – это уже не перевод, это рация. Где-то привязка к одной платформе. Где-то ценник для корпораций.

Ну и мы же айтишники. Да ещё и AI интегрировать умеем. Собрал рабочий прототип за выходные, а за следующие пару недель прогнал через бенчмарки весь рынок голосовых движков. Результаты – ниже.

Как устроен голосовой AI-переводчик

Схема простая. Три компонента в цепочке:

STT (распознавание речи) → LLM (перевод) → TTS (синтез голоса)

Я говорю по-русски. Deepgram распознаёт речь. Groq с Llama переводит. TTS озвучивает. Собеседник слышит английский. В обратную сторону то же самое.

Звучит просто. На деле каждый компонент – это бутылочное горлышко, и в каждом свои грабли. Разберём по частям.

Часть 1: STT – кто слушает лучше всех

Speech-to-Text – первое звено цепочки. Чем быстрее распознали речь, тем раньше начнётся перевод.

Провайдер

Задержка

WER (ошибки)

Цена/мин

Streaming

Deepgram Nova-3

<300ms

~10%

$0.0059

Да

AssemblyAI Universal-2

~300ms

8.4%

~$0.006

Да

ElevenLabs Scribe v2

150ms

~9%

~$0.01

Да

Groq Whisper Large v3

batch

10.3%

$0.0028

Нет

whisper.cpp (локально)

1-3 секунды

~10%

бесплатно

Нет

Deepgram Nova-3 – лучший для streaming. Работает стабильно, задержка меньше 300ms, цена копеечная.

Кстати, при регистрации Deepgram даёт $200 на счёт. При расходе $0.0059/минута этого хватает на 33,000 минут распознавания. Это 560 часов. Реферальной программы у них нет, а то бы дал ссылку и жил на пассивном доходе.

Groq Whisper мы пробовали раньше – нестабильный, падал с 503 ошибками, средняя задержка 2812ms. Заменили на Deepgram и забыли как страшный сон.

ElevenLabs Scribe v2 с заявленными 150ms стоит потестировать, но пока нет данных по точности и цене.

Часть 2: LLM – кто переводит быстрее

Для перевода нужна LLM, которая выдаёт первый токен максимально быстро (TTFT – Time to First Token). Качество перевода у всех крупных моделей плюс-минус одинаковое, а вот скорость отличается в разы.

Провайдер

Модель

Скорость (tokens/s)

TTFT

Groq

Llama 3.3 70B

~750

~200ms

Cerebras

Llama 8B

1800

~350ms

Gemini

2.5 Flash

217-245

330-450ms

Fireworks AI

Llama 3.3 70B

~800

~200ms

Cerebras быстрее по токенам/секунду, но у них выше TTFT. Для перевода коротких фраз (5-15 слов) критичен именно TTFT, а не скорость генерации. Groq с Llama 3.3 70B – оптимальный выбор: ~200ms до первого токена, хорошее качество перевода.

Локальные LLM (Llama 3.2 3B на MLX, ~100 t/s) пока проигрывают облаку для latency-critical задач.

Часть 3: TTS – где всё ломается

Text-to-Speech выглядит как самая простая часть пайплайна. На деле это бутылочное горлышко всей системы. Если STT + LLM работают за 500ms, а TTS добавляет ещё секунду – собеседник ждёт полторы секунды после каждой фразы.

Вот полная картина.

Облачные TTS API (полная сводка)

Провайдер

Модель

TTFB

ELO

Цена/1M симв.

Цена/час

Русский

Cartesia

Sonic Turbo

~40ms

1054

$37-47

$1.26

Да

Cartesia

Sonic 3

~90ms

1054

$37-47

$1.26

Да

Hume

Octave 2

<200ms

1562

$7.60

$0.26

Да (11 языков)

Inworld

TTS-1.5-Max

<250ms

1576

$10

$0.34

Нет

Inworld

TTS-1.5-Mini

<120ms

~1480

$5

$0.17

Нет

ElevenLabs

Flash v2.5

~75ms

1544

~$206

$5.57

Да

Smallest.ai

Lightning

<100ms

~1150

~$25

$0.84

Да

Fish Audio

OpenAudio S1

<100ms

~1200

$15

$0.51

Да

Deepgram

Aura-2

90-184ms

~1050

$27-30

$1.01

Нет

OpenAI

TTS-1

~500ms

1106

$15

$0.51

Да

OpenAI

gpt-4o-mini-tts

~300ms

~1350

$64/1M токенов

~$3.20

Да

Google

Neural2

200-250ms

~1020

$16

$0.54

Да

Google

Chirp 3 HD

до 3.5с!

~1180

$30

$1.01

Да

Azure

Neural HD

300-500ms

~1080

$15

$0.54

Да

Speechmatics

Flow

~150ms

~1100

$11

$0.37

Нет

Расчёт “цена/час”: ~33,750 символов TTS на час звонка (два направления, ~750 символов в минуту, ~45 минут активного TTS).

Рейтинг качества TTS (ELO, слепое голосование)

Данные из TTS Arena v2 и Artificial Analysis, март 2026:

#

Модель

ELO

Тип

1

Vocu V3.0

1600

облако

2

Inworld TTS-1.5-Max

1576

облако

3

Hume Octave 2

1562

облако

4

ElevenLabs Flash v2.5

1544

облако

5

MiniMax Speech 2.6 HD

1544

облако

6

OpenAI TTS-1

1106

облако

7

Kokoro 82M

1059

open-source

8

Cartesia Sonic 3

1054

облако

Локальные TTS модели (реальные бенчмарки на Apple M4)

Все тесты – MacBook Air M4, 24GB RAM. Одни и те же фразы, warm (после прогрева).

Модель

Размер

Инференс (2-3 слова)

Инференс (10 слов)

Качество

Русский

Лицензия

Piper ryan-medium

63MB

30-50ms

137ms

B

Да

MIT

Kokoro 82M fp16

156MB

370ms

730ms

A+

Нет

Apache 2.0

pocket-tts 100M

100M

260ms

7500ms!

B (нестабильно)

Нет

Gated

ZipVoice 123M

123M

~500ms

1240ms avg

B+

Нет

Apache 2.0

Chatterbox 500M

500M

6310ms

9100ms

A

Да

MIT

Qwen3-TTS 0.6B

600M

~800ms

~1600-2000ms

B+

Да

Apache 2.0

Qwen3-TTS 1.7B

1.7B

~2500ms

~5300ms

A

Да

Apache 2.0

Marvis TTS 250M

250M

~3000ms

~8500ms

C+

Нет

MIT

Тренд неприятный: все серьёзные новые модели (Chatterbox, Dia, Sesame CSM, Spark-TTS) идут к 0.5-2B параметров. На Mac без GPU это 6-19 секунд на фразу. Лёгких конкурентов Kokoro 82M почти нет.

Реальные бенчмарки: одни и те же фразы, все провайдеры

5 одинаковых фраз, warm, замеры TTFB или total time. Это самая ценная таблица в статье:

Провайдер

Модель

Протокол

TTFB avg

Min

Max

Цена/1M

Cartesia

Sonic-2

WebSocket

245ms

208ms

281ms

$37-47

Kokoro

82M

local MLX

313ms*

259ms

340ms

бесплатно

ElevenLabs

Flash v2.5

WebSocket

395ms†

309ms

551ms

~$206

Hume

Octave 2

HTTP stream

800ms

773ms

833ms

$7.60

ZipVoice

123M distill

local MPS

1240ms

792ms

2190ms

бесплатно

Cartesia

Sonic-2

sync SDK

1361ms

1173ms

1567ms

$37-47

Inworld

TTS-1.5-Mini

sync HTTP

2018ms

1606ms

2404ms

$5

Hume

Octave 2

sync

2158ms

1915ms

2395ms

$7.60

Inworld

TTS-1.5-Max

sync HTTP

2616ms

2077ms

2886ms

$10

*Kokoro – total time (нет стриминга, генерирует аудио целиком). †ElevenLabs – avg без первого cold-start запроса (2520ms).

Обратите внимание на Cartesia в двух строках. Одна и та же модель, одна и та же фраза. Разница – только протокол подключения.

Четыре находки, которые стоили мне недели

Находка #1: Протокол решает всё

Cartesia Sonic через WebSocket: 245ms.
Cartesia Sonic через обычный HTTP SDK: 1361ms.

Разница в 5.5 раз. Просто потому что в одном случае соединение уже открыто и данные идут стримом, а в другом каждый запрос открывает новое соединение и ждёт полной генерации.

Если выбираете TTS для голосового бота и тестируете через синхронный API – вы получаете цифры, которые не имеют отношения к реальности. Всегда тестируйте через WebSocket.

Находка #2: Квантизация замедляет на Apple Silicon

Обычно INT8-квантизация ускоряет инференс. На Apple Silicon – наоборот.

Kokoro 82M в fp16: 373ms. Та же модель в INT8: 687ms. Почти вдвое медленнее.

ARM-процессоры Apple оптимизированы под fp16. Квантизация экономит RAM, но добавляет overhead на конвертацию типов. Нигде в документации это не написано. Мы убили на это день.

Находка #3: Русский язык – пустыня

Из 30+ моделей русский поддерживают:

Модель

Русский

Качество

Проблема

Piper TTS (~20M)

Да

“Синтетический” голос

Проект архивирован

Chatterbox 500M

Да

Отличное

6-19 секунд на фразу

Qwen3-TTS 0.6B

Да

Хорошее

Слишком медленно на Mac

Coqui XTTS-v2 1.4B

Да

Хорошее

Модель 1.4GB

Облачные (Cartesia, EL, Google, Azure)

Да

Хорошее-отличное

$$$ каждый месяц

Kokoro 82M – лучшая бесплатная модель по качеству – русского не поддерживает. Если делаете голосовой продукт для русскоязычного рынка на open-source – готовьтесь к боли.

Находка #4: ElevenLabs – лучшее качество, худшая экономика

ElevenLabs Flash v2.5 – объективно один из лучших движков. ELO 1544, голоса неотличимы от живых.

Цена: ~$206/1M символов. Для голосового бота на час – $5.57.

Cartesia Sonic Turbo при сопоставимой скорости: $1.26/час. Hume Octave 2: $0.26/час.

ElevenLabs в 4-20 раз дороже конкурентов при сравнимом качестве. Считайте unit-экономику до того как выберете провайдера. Не после.

Kokoro 82M: бесплатный чемпион (с нюансами)

Отдельно про модель которую я в итоге выбрал для английского TTS. Kokoro 82M – StyleTTS2, Apache 2.0 лицензия, 156MB в fp16.

Бенчмарки на M4 (ONNX Runtime, CPU, 4 потока):

Фраза

Инференс

Длительность аудио

“hey so” (2 слова)

373ms

1.50s

“well actually”

372ms

1.77s

“we should push the deadline…” (10 слов)

730ms

3.33s

“I believe we need to reconsider…” (11 слов)

1036ms

4.45s

Полный параграф (~40 слов)

2756ms

14.1s

Попытки ускорить:

Оптимизация

Результат

Вывод

fp16 (дефолт)

373ms

Лучший вариант

INT8 квантизация

687ms

1.8x медленнее!

q8f16

655ms

1.75x медленнее!

CoreML Neural Engine

ошибка

Не поддерживает архитектуру

1 поток

1723ms

Слишком медленно

2 потока

942ms

Ещё медленно

4 потока

~730ms

Оптимум

8 потоков

754ms

Overhead

28 английских голосов (20 US, 8 GB). Качество – первое место в TTS Arena для single-speaker. Субъективно значительно натуральнее Piper.

Минус: нет русского. 9 языков (EN, JA, ZH, ES, FR, HI, IT, PT, GB-EN), но не русский.

Что получилось в итоге

Финальный стек переводчика:

Deepgram Nova-3 (STT, ~300ms) → Groq Llama 3.3 70B (перевод, ~200ms) → StreamChunker (нарезает на куски по 2-3 слова, ~100ms) → Kokoro 82M (TTS английский, ~370ms на первый чанк)

Общая задержка до первого звука: ~870ms.

Решение

Задержка

Цена

Google Meet S2ST

~2000ms

Только платный Workspace, ограниченная география, только Meet

Palabra.ai

~800ms

от $25/мес (60 мин)

Мой переводчик

~870ms

~$0.009/мин

На уровне лучших коммерческих решений. Скоро выложу в open-source.

Для русского TTS пока Piper с фиксом нормализации громкости. Проблема “тихо” оказалась багом – семплы из ONNX шли без gain normalization. Починили, стало нормально.

Бонус: тот же стек для колл-центра

Пока копался в TTS-движках, тот же пайплайн пригодился для другого проекта. У RigCrewесть колл-центр – автоматический обзвон кандидатов, скриптованные разговоры, FAQ на 30 вопросов. Живые операторы стоят денег и масштабироваться с ними дорого.

Адаптировали пайплайн: STT слушает кандидата, LLM генерирует ответ по скрипту, TTS озвучивает. Один менеджер управляет целым оркестром из AI-звонилок. Голосовой бот который звучит натурально, стоит $1-2 в час, и не устаёт к концу смены.

Все бенчмарки из этой статьи – они работают и там. Тот же выбор между Cartesia за $1.26/час и ElevenLabs за $5.57/час. Та же разница в 5.5 раз между WebSocket и sync API.

Куда движется голосовой AI

Conversational Speech Models. Sesame CSM-1B генерирует речь с паузами, “ммм”, контекстной интонацией. Пока research-grade (200-400ms, нужен GPU), но через год-два это будет стандарт.

LLM-based TTS. Hume Octave 2, OpenAI gpt-4o-mini-tts – модели которые “понимают” что говорят. Грустную новость бот сообщает грустным голосом. Hume побеждал ElevenLabs в слепом тесте (71.6% по quality).

Гонка цен вниз. Новые игроки (Inworld, Smallest.ai, Fish Audio) давят ElevenLabs. Цены за два года упали в 5-20 раз.

Open-source догоняет. Kokoro 82M бесплатно даёт качество облачных API годовой давности. Но русский язык – по-прежнему боль.

End-to-end модели. Google S2ST переводит речь напрямую, сохраняя голос. Пока только в Meet. Если откроют API – рынок изменится.

Три вещи которые я хотел бы знать до начала

Считайте unit-экономику на берегу. Разница между $0.26/час и $5.57/час при 1000 часов звонков в месяц – это $5,310. Выбор TTS-провайдера может убить бизнес-модель.

Тестируйте через WebSocket. Один и тот же провайдер: 245ms или 1361ms. Зависит только от протокола.

Русский язык – бутылочное горлышко. Open-source пока не дотягивает. Бюджет на cloud TTS неизбежен если ваш продукт для русскоязычного рынка.

Переводчик скоро в open-source. Все бенчмарки из статьи реальные, повторяемые, с указанием железа и условий. Если делаете что-то похожее – пишите, сэкономлю вам пару недель мучений.


Источники и бенчмарки:
TTS Arena v2 · Artificial Analysis · Cartesia · Hume Octave 2 · Deepgram Nova-3 · Kokoro-82M · Sesame CSM · Google Meet S2ST · Cerebras vs Groq · ElevenLabs Scribe v2 · Inworld TTS · Piper TTS · Kokoro ONNX

Об авторе: Кир, CTO и серийный предприниматель. Пишу про AI для бизнеса без булшита: @ai_integr

Автор: Kir_Moisha

Источник

Rambler's Top100