Все переводчики речи в реальном времени — херня. Я написал свой. Тоже херня, но бесплатная

Перепробовал всё что есть на рынке, потратил на подписки больше чем на кофе, и в итоге сел писать с нуля. Вот что вышло

AI Open Source Voice AI Real-time перевод Deepgram Groq Piper TTS STT TTS LLM Google Meet Zoom Личный опыт ^[1] Elixir Rust macOS Apple Silicon Speech-to-Text Text-to-Speech

Сижу на рабочем созвоне. Обсуждаем архитектуру нового сервиса. Технически я всё понимаю – документацию на английском читаю без словаря, код ревьюю, в Slack переписываюсь нормально. А вот когда надо открыть рот и сказать что-то сложнее “I agree” – начинается цирк. Пауза. Подбираю слова. Коллега уже ответил за меня.

Знакомо? Мне – до зубного скрежета.

Я CTO, последние годы плотно работаю с AI-интеграциями. Могу собрать систему автоматического обзвона клиентов с клонированием голосов, поднять флот ботов для скана Телеги, собрать архитектуру которая выдержит тысячи пользователей за копейки. А сам на созвоне звучу как иностранец с разговорником. Ирония уровня бог.

И вот в голове простая картинка: я говорю по-русски, собеседник слышит английский. Он отвечает по-английски, я слышу русский. В реальном времени. Без пауз на 10 секунд. Без субтитров – именно голосом. С любым приложением: Meet, Zoom, Slack, Discord.

Пошёл искать. И тут началось.

Что есть на рынке и почему это всё не то

На рынке real-time переводчиков речи сейчас десятки продуктов. Я перепробовал несколько, прочитал про остальные, потратил время и деньги на подписки. Вот что я увидел.

Google Meet: “перевод” для избранных

Google запустил перевод речи в Meet ^[2] в начале 2026. Звучит шикарно: Gemini AI, сохранение тона и интонации, всё встроено прямо в звонок.

Теперь нюансы. Работает только с шестью языками: английский плюс испанский, французский, немецкий, португальский и итальянский. Русского нет. Только одна языковая пара на созвон – если у вас трёхъязычная команда, извините. Только десктоп – с телефона не работает. И самое весёлое: нужна платная подписка Google AI Pro, Google AI Ultra или Workspace Business Standard. То есть это не фича Meet, а фича дорогой подписки.

Задержка 2-3 секунды. Для демо на конференции норм. Для живого разговора – неловкие паузы после каждой фразы.

JotMe, Talo, Transync: субтитры вместо голоса

Куча приложений за $9-15 в месяц, которые обещают “real-time translation”. Заходишь, подключаешь – и получаешь субтитры. Текст на экране. Ваш собеседник ничего не слышит, он должен сам смотреть в субтитры. Или ставить себе то же приложение.

JotMe ^[3] – Chrome extension, неплохо распознаёт речь, но выдаёт текст, не голос. Talo – бот который заходит в ваш Zoom и переводит, но опять же – субтитрами. У некоторых есть TTS-озвучка, но звучит она как объявление на вокзале и ломает разговор.

Главная проблема: эти штуки требуют чтобы оба участника были в одной экосистеме. Позвоните через WhatsApp или Discord – и ваш переводчик не работает.

Palabra, KUDO, Interprefy: корпоративный сегмент

Palabra ^[4] – стартап с бюджетом $8.4M от сооснователя Reddit. Латентность 800мс – быстрее всех на рынке. Но это SaaS, закрытый, за подписку. Заточен под конференции и ивенты.

KUDO ^[5] и Interprefy ^[6] – enterprise-решения за $300+ в месяц. Конференц-перевод на 500 человек с AI + живыми переводчиками. Если у вас есть бюджет на “мультиязычную конференцию” – отлично. Если вы один человек на созвоне с тремя коллегами – мимо.

Физические переводчики

Устройства за $200-500 которые вы держите в руке как рацию. Тесты показывают ^[7]: теряют начало фразы (устройство “думает” первую секунду и не успевает поймать первые слова), путают слова при длинных фразах (“hotel” превращается в “boxing”, а “reception” в “disappointment”), и говорят так быстро, что перевод приходится переслушивать три раза.

В звонке бесполезны: они работают в режиме “нажал кнопку – говоришь – отпустил – слушаешь перевод”. Как рация. Для живого разговора не годятся.

Общая картина: субтитры вместо голоса, задержка 2-6 секунд, работают только на своей платформе, от $9 до $300+ в месяц. Ни одно решение не делает простую вещь: вы говорите на своём языке, собеседник слышит свой. В любом приложении.

Решение	Цена	Голос или субтитры	Задержка	Языков	Платформы
Google Meet	Подписка AI Pro/Ultra	Голос	2-3с	6	Только Meet
JotMe	$10-15/мес	Субтитры	~1-2с	77	Chrome extension
Talo	Подписка	Субтитры + бот	~2с	60	Zoom, Meet, Teams
Transync	$9/мес	Субтитры	~0.1с (заявл.)	60	Zoom, Meet, Teams
Palabra	SaaS подписка	Голос	~0.8с	25+	Zoom, Meet, свой
KUDO / Interprefy	$300+/мес	Голос + живые переводчики	~2-4с	60+	Свои платформы
Мой переводчик	$0	Голос	0.8-1.7с	29	Любое приложение

Ну и я решил написать своё

Классическая история разработчика: вместо того чтобы заплатить $15 в месяц за несовершенный продукт, потратить кучу времени на свой собственный несовершенный продукт. Тогда я думал что напишу это за пару дней. Ну, open-source, бесплатно, Elixir + Rust – что может пойти не так?

Идея простая: перехватить звук с микрофона, распознать речь, перевести, синтезировать голос на другом языке, и отправить этот голос в звонок вместо моего. То же самое в обратную сторону – перехватить речь собеседника, перевести, и озвучить мне.

Звучит как пять строчек кода. По факту – три переписанных с нуля архитектуры, заброшенная ветка с целым SaaS-бизнесом который я написал за один день (лицензионный сервер, биллинг, GDPR – всё выброшено), и момент когда я неделю не трогал проект потому что злился.

Архитектура	Стек	Что получилось	Почему не выжила
v1: Всё локально	Elixir + Rust + voxtral + Opus-MT	Не работало вообще	voxtral думал 15 секунд, Opus-MT переводил как стажёр
v2: Десктоп-приложение	Tauri + Svelte + Rust + Stripe	Красивый SaaS с биллингом и GDPR	Один баг с async/sync IPC убил всё
v3: Простой и рабочий	Elixir + Rust + Flask (1 файл)	Open-source, работает стабильно	Выжила. Простота победила

Но в итоге получилось. Не так, как я мечтал. Но получилось.

Как это работает (простым языком)

Когда вы говорите в микрофон, происходит четыре вещи подряд:

1. Распознавание. Ваш голос уходит в Deepgram ^[8] – сервис который слушает речь через WebSocket и моментально превращает её в текст. Не ждёт пока вы закончите предложение – начинает распознавать сразу.

2. Перевод. Текст уходит в Groq ^[9], где языковая модель llama-3.3-70b переводит его на нужный язык. Промпт простой: “ты переводчик на звонке, переводи дословно, сохраняй тон и эмоции ^[10], мата не бойся”.

3. Озвучка. Переведённый текст превращается обратно в речь через Piper ^[11] – open-source движок который работает прямо на вашем компьютере, без интернета.

4. Маршрутизация. Синтезированный голос отправляется в виртуальный микрофон – Meet или Zoom думают что это вы говорите. А речь вашего собеседника перехватывается из виртуального динамика, переводится, и играет вам в наушники.

Всё это занимает 0.8-1.7 секунды. Для контекста: живой синхронный переводчик задерживается на 2-5 секунд. Мы формально быстрее человека.

И самое важное: это работает с любым приложением для звонков. Meet, Zoom, Slack, Discord, WhatsApp Desktop – без разницы. Переводчик работает на уровне аудио-системы, а не внутри конкретного приложения.

Почему именно эти технологии

Каждый компонент пайплайна я выбирал не по документации, а по результатам тестов. Некоторые – прямо в этом проекте, некоторые – в предыдущем исследовании, где я перебрал 30+ голосовых движков ^[12]. Там полный разбор с бенчмарками, ценами и граблями – здесь только выдержки.

Распознавание речи: Deepgram, а не Whisper

Тестировал три варианта:

STT-движок	Тип	Задержка	Что пошло не так
voxtral.c	Локальный	15+ секунд до первого слова	Metal на Apple Silicon глючит, бесполезно для real-time
Groq Whisper	Облачный	~500мс чанками	Мусор между итерациями: “with”, “word,” как отдельные фразы
Deepgram Nova-3	Облачный (WebSocket)	258-681мс	Работает. Стриминг, встроенные паузы, стабильно

Whisper умный, но для real-time не подходит: он “исправляет” предыдущие слова при каждой итерации, и пайплайн получает не готовую фразу, а постоянно меняющийся поток. Deepgram просто работает – отдаёт финализированный текст когда человек сделал паузу.

Перевод: Groq, а не OpenAI, Google Translate или DeepL

Тут выбор шире чем кажется. Есть классические переводчики, есть LLM-провайдеры. Тестировал и тех и других.

Провайдер	Тип	Задержка	Цена	Почему нет
Google Translate API	Классический перевод	100-300мс	$20/1M символов	LLM переводит лучше, особенно разговорную речь
DeepL API	Классический перевод	200-500мс	$25/мес	Тоже хуже LLM + платная подписка
OpenAI	LLM	500-1200мс	Платно	Медленнее, стоит денег
Anthropic	LLM	600-1500мс	Платно	Ещё медленнее для коротких фраз
Groq	LLM	250-560мс	Бесплатно	Быстрее всех + бесплатный tier

Логика ^[13] простая. Google Translate и DeepL – зачем, если LLM переводит лучше? Особенно разговорную речь с контекстом. А платные LLM – зачем, если перевод это настолько базовая задача для нейросети, что бесплатный tier Groq справляется не хуже? llama-3.3-70b на LPU-чипах Groq отвечает за 250мс и денег не просит.

Озвучка: Piper, а не облачные TTS

TTS-движок	Качество	Задержка	Цена	Почему да/нет
ElevenLabs	Отличное	300-800мс	$5.57/час	Звучит шикарно, стоит как крыло от самолёта
Cartesia	Хорошее	200-400мс	$1.26/час	Быстрый, но всё равно платный + зависимость от API
Kokoro (локальный)	Хорошее (EN)	500-1500мс	Бесплатно	Отлично для английского, русского нет
Piper	Терпимое	300-500мс	Бесплатно	29 языков, офлайн, предсказуемо

Да, ElevenLabs звучит в десять раз лучше. Но $5.57 в час – это приговор для бесплатного open-source продукта. Piper звучит как робот, зато работает локально, не зависит от интернета, и поддерживает 29 языков. Компромисс? Ещё какой. Но бесплатный компромисс.

Сколько стоит: фактически ноль

Что	Провайдер	Цена
Распознавание речи	Deepgram ^[14]	$200 бесплатного кредита при регистрации (сотни часов звонков)
Перевод	Groq ^[9]	Бесплатно, полностью
Озвучка	Piper TTS ^[11]	Бесплатно, работает офлайн

Две бесплатные регистрации. Никаких подписок, никаких серверов. За всё время разработки и тестирования я потратил $5 из $200 бесплатного кредита Deepgram. Этого хватит на годы обычного использования.

Для сравнения: JotMe – от $10/мес, Transync – $9/мес, Google Meet translation – нужна подписка AI Pro, KUDO – $300+/мес.

Как это работает в реальной жизни

Тестировал в трёх режимах: сам с собой (говорю в микрофон, слушаю перевод), с друзьями (договаривались заранее, звонили через Meet), и на рабочем созвоне с командой.

Предупреждал всех заранее: “буду использовать переводчик, не пугайтесь”. Хорошо что предупредил – потому что вместо моего голоса люди слышали робота.

Фидбек честный: переводит не всегда правильно и звучит так себе. Piper – open-source движок, бесплатный и быстрый. Но голоса у него, мягко говоря, не натуральные. Для английского ещё нормально – десятки моделей на выбор, есть даже вполне приличные. Для русского – три штуки. Мой любимый – “Денис”. Звучит как мой препод из универа, который кодил ещё на перфокартах. Крутой мужик был, но в 2026 году так не разговаривают. Собеседник слышит этого Дениса вместо тебя и у него на лице выражение которое сложно описать словами.

С переводом тоже не всё гладко. LLM переводит смысл, но разговорная речь – это не смысл. “Ну, такое” превращается в “well, something like that”. Формально верно. По ощущениям – как будто за тебя говорит иностранец из учебника. Сарказм, идиомы, контекст – теряются.

И задержка. 0.8-1.7 секунды – звучит быстро. Быстрее живого переводчика. Но в реальности к этому добавляется пинг самого Meet или Zoom, плюс задержка интернет-соединения через полпланеты. На бумаге секунда, в жизни – полторы-две. Когда ты в разговоре и после каждой фразы пауза – это чувствуется. Собеседник начинает говорить, а ты ещё слышишь перевод предыдущей фразы. К этому привыкаешь минут за пять, но первые минуты – странно.

А теперь совсем честно

Я из тех, кто пишет про AI без булшита. Поэтому вот как есть.

Переводчик работает. Но не так, как я себе представлял. В моей голове это было волшебство: говоришь по-русски, собеседник слышит идеальный английский, как будто ты всегда говорил на этом языке. На практике – полезный, но несовершенный инструмент. Как и вообще все AI-инструменты в 2026 году.

Голоса – роботы. Перевод – нормальный, но без нюансов. Задержка – есть, заметная. Настройка – нетривиальная (виртуальные аудио-устройства на macOS это отдельный квест).

Но знаете что? Это нормально. Технологии вообще редко дают тот результат, который мы от них ожидаем. И всегда далеки от того, что обещают маркетологи. Между демо-видео на конференции и реальным использованием – пропасть. Это касается не только моего переводчика, это касается вообще всех AI-продуктов прямо сейчас.

Если подумать, моему переводчику для идеальной работы не хватает одной маленькой технологии. Машины времени. Чтобы начинать переводить до того, как я начну говорить фразу. Потому что задержка – это не баг, это физика: невозможно перевести то, что ещё не сказано. Все переводчики в мире – и мой, и за $300/мес – бьются об эту стену.

Но.

Эта штука работает лучше большинства платных решений. Не потому что она идеальная, а потому что остальные ещё хуже. Субтитры вместо голоса. Задержка 5-10 секунд. Работа только на одной платформе. Обязательная подписка.

Мой переводчик работает с любым приложением. Задержка меньше двух секунд. 29 языков. Стоит ноль. Ставится одной командой в терминале.

Да, голос робота. Да, иногда странные переводы. Но год назад такого не существовало вообще. А сейчас можно скачать с GitHub, вставить два бесплатных ключа, и через пять минут разговаривать на созвоне на 29 языках.

Это не идеал. Но это уже большая победа – если откалибровать ожидания и помнить, что AI-инструменты сейчас работают по принципу “80% магии, 20% кринжа”.

AI-инструменты в 2026 – это не магия. Это инженерные компромиссы. Работает, но с оговорками. Экономит время и деньги, но требует калибровки ожиданий. И если выбирать между несовершенным бесплатным инструментом и несовершенным платным – выбор очевиден.

Под капотом (для тех кому интересно)

Если вам не интересны технические детали – смело пропускайте, ниже есть ссылка на GitHub.

Три языка программирования: Rust для всего тяжёлого (захват аудио, стриминг, синтез), Elixir как оркестратор (следит чтобы всё работало, перезапускает если что-то падает), Python/Flask для веб-интерфейса (один файл, ~1950 строк, весь UI внутри).

Главная техническая находка: процесс синтеза голоса отделён от процесса захвата аудио. Синтез занимает 300-500мс – если бы он блокировал микрофон, вы бы теряли полсекунды речи на каждой фразе. Звучит как деталь, но без этого решения переводчик был бы бесполезен.

Работает только на macOS (нужен BlackHole ^[15] для виртуальных аудио-устройств). Пользователи Windows и Linux – смело форкайте и дорабатывайте под себя, по сути нужно только заменить BlackHole на своё решение для виртуального аудио. Или кидайте PR, если есть желание присоединиться к проекту. Я давно отказался от Linux, а что такое Windows – вообще забыл.

29 языков. Голосовые модели скачиваются прямо из интерфейса в один клик. Тёмная и светлая тема. Экспорт транскрипта. Закладки на важных фразах.

Попробуйте

git clone https://github.com/LetovKai/call-translator.git
cd call-translator
./setup.sh
./run.sh

Откройте http://127.0.0.1:5050 ^[16] в Chrome. Вставьте ключи Deepgram ^[14] и Groq ^[9]. Настройте аудио(надо устройства в мите микрофон и динамики выбрать Blackholl). Позвоните кому-нибудь.

29 языков. Секунда задержки. Бесплатно. С голосом робота и иногда странными переводами – но работает. И это то, что есть.

Где меня найти: Telegram: @ai_integr ^[17] – кейсы, инструменты, фейлы AI-интеграций GitHub: realtime-call-translator ^[18]

Источники:
Google Meet Speech Translation ^[2] · JotMe: 8 Best AI Live Translation Tools 2026 ^[3] · CLS: We Tested 3 AI Translation Devices ^[7] · TechCrunch: Palabra AI ^[19] · Deepgram ^[8] · Groq ^[9] · Piper TTS ^[11] · BlackHole ^[15]

Автор: Kir_Moisha

Источник ^[20]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/28287

URLs in this post:

[1] опыт: http://www.braintools.ru/article/6952

[2] запустил перевод речи в Meet: https://maestra.ai/blogs/google-meet-real-time-speech-translation

[3] JotMe: https://www.jotme.io/blog/best-live-translation

[4] Palabra: https://www.palabra.ai/

[5] KUDO: https://kudo.ai/

[6] Interprefy: https://www.interprefy.com/

[7] Тесты показывают: https://certifiedlanguages.com/blog/we-tested-ai-generated-translation-devices/

[8] Deepgram: https://deepgram.com

[9] Groq: https://console.groq.com

[10] эмоции: http://www.braintools.ru/article/9540

[11] Piper: https://github.com/rhasspy/piper

[12] предыдущем исследовании, где я перебрал 30+ голосовых движков: https://habr.com/ru/articles/1016156/

[13] Логика: http://www.braintools.ru/article/7640

[14] Deepgram: https://console.deepgram.com

[15] BlackHole: https://existential.audio/blackhole/

[16] http://127.0.0.1:5050: http://127.0.0.1:5050

[17] @ai_integr: https://t.me/ai_integr

[18] realtime-call-translator: https://github.com/LetovKai/call-translator

[19] TechCrunch: Palabra AI: https://techcrunch.com/2025/08/14/ai-translation-tech-palabra-gets-backing-from-reddit-co-founders-venture-firm/

[20] Источник: https://habr.com/ru/articles/1019458/?utm_campaign=1019458&utm_source=habrahabr&utm_medium=rss

Нажмите здесь для печати.