- BrainTools - https://www.braintools.ru -
Перепробовал всё что есть на рынке, потратил на подписки больше чем на кофе, и в итоге сел писать с нуля. Вот что вышло
AI Open Source Voice AI Real-time перевод Deepgram Groq Piper TTS STT TTS LLM Google Meet Zoom Личный опыт [1] Elixir Rust macOS Apple Silicon Speech-to-Text Text-to-Speech
Сижу на рабочем созвоне. Обсуждаем архитектуру нового сервиса. Технически я всё понимаю – документацию на английском читаю без словаря, код ревьюю, в Slack переписываюсь нормально. А вот когда надо открыть рот и сказать что-то сложнее “I agree” – начинается цирк. Пауза. Подбираю слова. Коллега уже ответил за меня.
Знакомо? Мне – до зубного скрежета.
Я CTO, последние годы плотно работаю с AI-интеграциями. Могу собрать систему автоматического обзвона клиентов с клонированием голосов, поднять флот ботов для скана Телеги, собрать архитектуру которая выдержит тысячи пользователей за копейки. А сам на созвоне звучу как иностранец с разговорником. Ирония уровня бог.
И вот в голове простая картинка: я говорю по-русски, собеседник слышит английский. Он отвечает по-английски, я слышу русский. В реальном времени. Без пауз на 10 секунд. Без субтитров – именно голосом. С любым приложением: Meet, Zoom, Slack, Discord.
Пошёл искать. И тут началось.
На рынке real-time переводчиков речи сейчас десятки продуктов. Я перепробовал несколько, прочитал про остальные, потратил время и деньги на подписки. Вот что я увидел.
Google запустил перевод речи в Meet [2] в начале 2026. Звучит шикарно: Gemini AI, сохранение тона и интонации, всё встроено прямо в звонок.
Теперь нюансы. Работает только с шестью языками: английский плюс испанский, французский, немецкий, португальский и итальянский. Русского нет. Только одна языковая пара на созвон – если у вас трёхъязычная команда, извините. Только десктоп – с телефона не работает. И самое весёлое: нужна платная подписка Google AI Pro, Google AI Ultra или Workspace Business Standard. То есть это не фича Meet, а фича дорогой подписки.
Задержка 2-3 секунды. Для демо на конференции норм. Для живого разговора – неловкие паузы после каждой фразы.
Куча приложений за $9-15 в месяц, которые обещают “real-time translation”. Заходишь, подключаешь – и получаешь субтитры. Текст на экране. Ваш собеседник ничего не слышит, он должен сам смотреть в субтитры. Или ставить себе то же приложение.
JotMe [3] – Chrome extension, неплохо распознаёт речь, но выдаёт текст, не голос. Talo – бот который заходит в ваш Zoom и переводит, но опять же – субтитрами. У некоторых есть TTS-озвучка, но звучит она как объявление на вокзале и ломает разговор.
Главная проблема: эти штуки требуют чтобы оба участника были в одной экосистеме. Позвоните через WhatsApp или Discord – и ваш переводчик не работает.
Palabra [4] – стартап с бюджетом $8.4M от сооснователя Reddit. Латентность 800мс – быстрее всех на рынке. Но это SaaS, закрытый, за подписку. Заточен под конференции и ивенты.
KUDO [5] и Interprefy [6] – enterprise-решения за $300+ в месяц. Конференц-перевод на 500 человек с AI + живыми переводчиками. Если у вас есть бюджет на “мультиязычную конференцию” – отлично. Если вы один человек на созвоне с тремя коллегами – мимо.
Устройства за $200-500 которые вы держите в руке как рацию. Тесты показывают [7]: теряют начало фразы (устройство “думает” первую секунду и не успевает поймать первые слова), путают слова при длинных фразах (“hotel” превращается в “boxing”, а “reception” в “disappointment”), и говорят так быстро, что перевод приходится переслушивать три раза.
В звонке бесполезны: они работают в режиме “нажал кнопку – говоришь – отпустил – слушаешь перевод”. Как рация. Для живого разговора не годятся.
Общая картина: субтитры вместо голоса, задержка 2-6 секунд, работают только на своей платформе, от $9 до $300+ в месяц. Ни одно решение не делает простую вещь: вы говорите на своём языке, собеседник слышит свой. В любом приложении.
|
Решение |
Цена |
Голос или субтитры |
Задержка |
Языков |
Платформы |
|---|---|---|---|---|---|
|
Google Meet |
Подписка AI Pro/Ultra |
Голос |
2-3с |
6 |
Только Meet |
|
JotMe |
$10-15/мес |
Субтитры |
~1-2с |
77 |
Chrome extension |
|
Talo |
Подписка |
Субтитры + бот |
~2с |
60 |
Zoom, Meet, Teams |
|
Transync |
$9/мес |
Субтитры |
~0.1с (заявл.) |
60 |
Zoom, Meet, Teams |
|
Palabra |
SaaS подписка |
Голос |
~0.8с |
25+ |
Zoom, Meet, свой |
|
KUDO / Interprefy |
$300+/мес |
Голос + живые переводчики |
~2-4с |
60+ |
Свои платформы |
|
Мой переводчик |
$0 |
Голос |
0.8-1.7с |
29 |
Любое приложение |
Классическая история разработчика: вместо того чтобы заплатить $15 в месяц за несовершенный продукт, потратить кучу времени на свой собственный несовершенный продукт. Тогда я думал что напишу это за пару дней. Ну, open-source, бесплатно, Elixir + Rust – что может пойти не так?
Идея простая: перехватить звук с микрофона, распознать речь, перевести, синтезировать голос на другом языке, и отправить этот голос в звонок вместо моего. То же самое в обратную сторону – перехватить речь собеседника, перевести, и озвучить мне.
Звучит как пять строчек кода. По факту – три переписанных с нуля архитектуры, заброшенная ветка с целым SaaS-бизнесом который я написал за один день (лицензионный сервер, биллинг, GDPR – всё выброшено), и момент когда я неделю не трогал проект потому что злился.
|
Архитектура |
Стек |
Что получилось |
Почему не выжила |
|---|---|---|---|
|
v1: Всё локально |
Elixir + Rust + voxtral + Opus-MT |
Не работало вообще |
voxtral думал 15 секунд, Opus-MT переводил как стажёр |
|
v2: Десктоп-приложение |
Tauri + Svelte + Rust + Stripe |
Красивый SaaS с биллингом и GDPR |
Один баг с async/sync IPC убил всё |
|
v3: Простой и рабочий |
Elixir + Rust + Flask (1 файл) |
Open-source, работает стабильно |
Выжила. Простота победила |
Но в итоге получилось. Не так, как я мечтал. Но получилось.
Когда вы говорите в микрофон, происходит четыре вещи подряд:
1. Распознавание. Ваш голос уходит в Deepgram [8] – сервис который слушает речь через WebSocket и моментально превращает её в текст. Не ждёт пока вы закончите предложение – начинает распознавать сразу.
2. Перевод. Текст уходит в Groq [9], где языковая модель llama-3.3-70b переводит его на нужный язык. Промпт простой: “ты переводчик на звонке, переводи дословно, сохраняй тон и эмоции [10], мата не бойся”.
3. Озвучка. Переведённый текст превращается обратно в речь через Piper [11] – open-source движок который работает прямо на вашем компьютере, без интернета.
4. Маршрутизация. Синтезированный голос отправляется в виртуальный микрофон – Meet или Zoom думают что это вы говорите. А речь вашего собеседника перехватывается из виртуального динамика, переводится, и играет вам в наушники.
Всё это занимает 0.8-1.7 секунды. Для контекста: живой синхронный переводчик задерживается на 2-5 секунд. Мы формально быстрее человека.
И самое важное: это работает с любым приложением для звонков. Meet, Zoom, Slack, Discord, WhatsApp Desktop – без разницы. Переводчик работает на уровне аудио-системы, а не внутри конкретного приложения.
Каждый компонент пайплайна я выбирал не по документации, а по результатам тестов. Некоторые – прямо в этом проекте, некоторые – в предыдущем исследовании, где я перебрал 30+ голосовых движков [12]. Там полный разбор с бенчмарками, ценами и граблями – здесь только выдержки.
Тестировал три варианта:
|
STT-движок |
Тип |
Задержка |
Что пошло не так |
|---|---|---|---|
|
voxtral.c |
Локальный |
15+ секунд до первого слова |
Metal на Apple Silicon глючит, бесполезно для real-time |
|
Groq Whisper |
Облачный |
~500мс чанками |
Мусор между итерациями: “with”, “word,” как отдельные фразы |
|
Deepgram Nova-3 |
Облачный (WebSocket) |
258-681мс |
Работает. Стриминг, встроенные паузы, стабильно |
Whisper умный, но для real-time не подходит: он “исправляет” предыдущие слова при каждой итерации, и пайплайн получает не готовую фразу, а постоянно меняющийся поток. Deepgram просто работает – отдаёт финализированный текст когда человек сделал паузу.
Тут выбор шире чем кажется. Есть классические переводчики, есть LLM-провайдеры. Тестировал и тех и других.
|
Провайдер |
Тип |
Задержка |
Цена |
Почему нет |
|---|---|---|---|---|
|
Google Translate API |
Классический перевод |
100-300мс |
$20/1M символов |
LLM переводит лучше, особенно разговорную речь |
|
DeepL API |
Классический перевод |
200-500мс |
$25/мес |
Тоже хуже LLM + платная подписка |
|
OpenAI |
LLM |
500-1200мс |
Платно |
Медленнее, стоит денег |
|
Anthropic |
LLM |
600-1500мс |
Платно |
Ещё медленнее для коротких фраз |
|
Groq |
LLM |
250-560мс |
Бесплатно |
Быстрее всех + бесплатный tier |
Логика [13] простая. Google Translate и DeepL – зачем, если LLM переводит лучше? Особенно разговорную речь с контекстом. А платные LLM – зачем, если перевод это настолько базовая задача для нейросети, что бесплатный tier Groq справляется не хуже? llama-3.3-70b на LPU-чипах Groq отвечает за 250мс и денег не просит.
|
TTS-движок |
Качество |
Задержка |
Цена |
Почему да/нет |
|---|---|---|---|---|
|
ElevenLabs |
Отличное |
300-800мс |
$5.57/час |
Звучит шикарно, стоит как крыло от самолёта |
|
Cartesia |
Хорошее |
200-400мс |
$1.26/час |
Быстрый, но всё равно платный + зависимость от API |
|
Kokoro (локальный) |
Хорошее (EN) |
500-1500мс |
Бесплатно |
Отлично для английского, русского нет |
|
Piper |
Терпимое |
300-500мс |
Бесплатно |
29 языков, офлайн, предсказуемо |
Да, ElevenLabs звучит в десять раз лучше. Но $5.57 в час – это приговор для бесплатного open-source продукта. Piper звучит как робот, зато работает локально, не зависит от интернета, и поддерживает 29 языков. Компромисс? Ещё какой. Но бесплатный компромисс.
Две бесплатные регистрации. Никаких подписок, никаких серверов. За всё время разработки и тестирования я потратил $5 из $200 бесплатного кредита Deepgram. Этого хватит на годы обычного использования.
Для сравнения: JotMe – от $10/мес, Transync – $9/мес, Google Meet translation – нужна подписка AI Pro, KUDO – $300+/мес.
Тестировал в трёх режимах: сам с собой (говорю в микрофон, слушаю перевод), с друзьями (договаривались заранее, звонили через Meet), и на рабочем созвоне с командой.
Предупреждал всех заранее: “буду использовать переводчик, не пугайтесь”. Хорошо что предупредил – потому что вместо моего голоса люди слышали робота.
Фидбек честный: переводит не всегда правильно и звучит так себе. Piper – open-source движок, бесплатный и быстрый. Но голоса у него, мягко говоря, не натуральные. Для английского ещё нормально – десятки моделей на выбор, есть даже вполне приличные. Для русского – три штуки. Мой любимый – “Денис”. Звучит как мой препод из универа, который кодил ещё на перфокартах. Крутой мужик был, но в 2026 году так не разговаривают. Собеседник слышит этого Дениса вместо тебя и у него на лице выражение которое сложно описать словами.
С переводом тоже не всё гладко. LLM переводит смысл, но разговорная речь – это не смысл. “Ну, такое” превращается в “well, something like that”. Формально верно. По ощущениям – как будто за тебя говорит иностранец из учебника. Сарказм, идиомы, контекст – теряются.
И задержка. 0.8-1.7 секунды – звучит быстро. Быстрее живого переводчика. Но в реальности к этому добавляется пинг самого Meet или Zoom, плюс задержка интернет-соединения через полпланеты. На бумаге секунда, в жизни – полторы-две. Когда ты в разговоре и после каждой фразы пауза – это чувствуется. Собеседник начинает говорить, а ты ещё слышишь перевод предыдущей фразы. К этому привыкаешь минут за пять, но первые минуты – странно.
Я из тех, кто пишет про AI без булшита. Поэтому вот как есть.
Переводчик работает. Но не так, как я себе представлял. В моей голове это было волшебство: говоришь по-русски, собеседник слышит идеальный английский, как будто ты всегда говорил на этом языке. На практике – полезный, но несовершенный инструмент. Как и вообще все AI-инструменты в 2026 году.
Голоса – роботы. Перевод – нормальный, но без нюансов. Задержка – есть, заметная. Настройка – нетривиальная (виртуальные аудио-устройства на macOS это отдельный квест).
Но знаете что? Это нормально. Технологии вообще редко дают тот результат, который мы от них ожидаем. И всегда далеки от того, что обещают маркетологи. Между демо-видео на конференции и реальным использованием – пропасть. Это касается не только моего переводчика, это касается вообще всех AI-продуктов прямо сейчас.
Если подумать, моему переводчику для идеальной работы не хватает одной маленькой технологии. Машины времени. Чтобы начинать переводить до того, как я начну говорить фразу. Потому что задержка – это не баг, это физика: невозможно перевести то, что ещё не сказано. Все переводчики в мире – и мой, и за $300/мес – бьются об эту стену.
Но.
Эта штука работает лучше большинства платных решений. Не потому что она идеальная, а потому что остальные ещё хуже. Субтитры вместо голоса. Задержка 5-10 секунд. Работа только на одной платформе. Обязательная подписка.
Мой переводчик работает с любым приложением. Задержка меньше двух секунд. 29 языков. Стоит ноль. Ставится одной командой в терминале.
Да, голос робота. Да, иногда странные переводы. Но год назад такого не существовало вообще. А сейчас можно скачать с GitHub, вставить два бесплатных ключа, и через пять минут разговаривать на созвоне на 29 языках.
Это не идеал. Но это уже большая победа – если откалибровать ожидания и помнить, что AI-инструменты сейчас работают по принципу “80% магии, 20% кринжа”.
AI-инструменты в 2026 – это не магия. Это инженерные компромиссы. Работает, но с оговорками. Экономит время и деньги, но требует калибровки ожиданий. И если выбирать между несовершенным бесплатным инструментом и несовершенным платным – выбор очевиден.
Если вам не интересны технические детали – смело пропускайте, ниже есть ссылка на GitHub.
Три языка программирования: Rust для всего тяжёлого (захват аудио, стриминг, синтез), Elixir как оркестратор (следит чтобы всё работало, перезапускает если что-то падает), Python/Flask для веб-интерфейса (один файл, ~1950 строк, весь UI внутри).
Главная техническая находка: процесс синтеза голоса отделён от процесса захвата аудио. Синтез занимает 300-500мс – если бы он блокировал микрофон, вы бы теряли полсекунды речи на каждой фразе. Звучит как деталь, но без этого решения переводчик был бы бесполезен.
Работает только на macOS (нужен BlackHole [15] для виртуальных аудио-устройств). Пользователи Windows и Linux – смело форкайте и дорабатывайте под себя, по сути нужно только заменить BlackHole на своё решение для виртуального аудио. Или кидайте PR, если есть желание присоединиться к проекту. Я давно отказался от Linux, а что такое Windows – вообще забыл.
29 языков. Голосовые модели скачиваются прямо из интерфейса в один клик. Тёмная и светлая тема. Экспорт транскрипта. Закладки на важных фразах.
git clone https://github.com/LetovKai/call-translator.git
cd call-translator
./setup.sh
./run.sh
Откройте http://127.0.0.1:5050 [16] в Chrome. Вставьте ключи Deepgram [14] и Groq [9]. Настройте аудио(надо устройства в мите микрофон и динамики выбрать Blackholl). Позвоните кому-нибудь.
29 языков. Секунда задержки. Бесплатно. С голосом робота и иногда странными переводами – но работает. И это то, что есть.
Где меня найти: Telegram: @ai_integr [17] – кейсы, инструменты, фейлы AI-интеграций GitHub: realtime-call-translator [18]
Источники:
Google Meet Speech Translation [2] · JotMe: 8 Best AI Live Translation Tools 2026 [3] · CLS: We Tested 3 AI Translation Devices [7] · TechCrunch: Palabra AI [19] · Deepgram [8] · Groq [9] · Piper TTS [11] · BlackHole [15]
Автор: Kir_Moisha
Источник [20]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/28287
URLs in this post:
[1] опыт: http://www.braintools.ru/article/6952
[2] запустил перевод речи в Meet: https://maestra.ai/blogs/google-meet-real-time-speech-translation
[3] JotMe: https://www.jotme.io/blog/best-live-translation
[4] Palabra: https://www.palabra.ai/
[5] KUDO: https://kudo.ai/
[6] Interprefy: https://www.interprefy.com/
[7] Тесты показывают: https://certifiedlanguages.com/blog/we-tested-ai-generated-translation-devices/
[8] Deepgram: https://deepgram.com
[9] Groq: https://console.groq.com
[10] эмоции: http://www.braintools.ru/article/9540
[11] Piper: https://github.com/rhasspy/piper
[12] предыдущем исследовании, где я перебрал 30+ голосовых движков: https://habr.com/ru/articles/1016156/
[13] Логика: http://www.braintools.ru/article/7640
[14] Deepgram: https://console.deepgram.com
[15] BlackHole: https://existential.audio/blackhole/
[16] http://127.0.0.1:5050: http://127.0.0.1:5050
[17] @ai_integr: https://t.me/ai_integr
[18] realtime-call-translator: https://github.com/LetovKai/call-translator
[19] TechCrunch: Palabra AI: https://techcrunch.com/2025/08/14/ai-translation-tech-palabra-gets-backing-from-reddit-co-founders-venture-firm/
[20] Источник: https://habr.com/ru/articles/1019458/?utm_campaign=1019458&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.