Перепробовал всё что есть на рынке, потратил на подписки больше чем на кофе, и в итоге сел писать с нуля. Вот что вышло
AI Open Source Voice AI Real-time перевод Deepgram Groq Piper TTS STT TTS LLM Google Meet Zoom Личный опыт Elixir Rust macOS Apple Silicon Speech-to-Text Text-to-Speech
Сижу на рабочем созвоне. Обсуждаем архитектуру нового сервиса. Технически я всё понимаю – документацию на английском читаю без словаря, код ревьюю, в Slack переписываюсь нормально. А вот когда надо открыть рот и сказать что-то сложнее “I agree” – начинается цирк. Пауза. Подбираю слова. Коллега уже ответил за меня.
Знакомо? Мне – до зубного скрежета.
Я CTO, последние годы плотно работаю с AI-интеграциями. Могу собрать систему автоматического обзвона клиентов с клонированием голосов, поднять флот ботов для скана Телеги, собрать архитектуру которая выдержит тысячи пользователей за копейки. А сам на созвоне звучу как иностранец с разговорником. Ирония уровня бог.
И вот в голове простая картинка: я говорю по-русски, собеседник слышит английский. Он отвечает по-английски, я слышу русский. В реальном времени. Без пауз на 10 секунд. Без субтитров – именно голосом. С любым приложением: Meet, Zoom, Slack, Discord.
Пошёл искать. И тут началось.
Что есть на рынке и почему это всё не то
На рынке real-time переводчиков речи сейчас десятки продуктов. Я перепробовал несколько, прочитал про остальные, потратил время и деньги на подписки. Вот что я увидел.
Google Meet: “перевод” для избранных
Google запустил перевод речи в Meet в начале 2026. Звучит шикарно: Gemini AI, сохранение тона и интонации, всё встроено прямо в звонок.
Теперь нюансы. Работает только с шестью языками: английский плюс испанский, французский, немецкий, португальский и итальянский. Русского нет. Только одна языковая пара на созвон – если у вас трёхъязычная команда, извините. Только десктоп – с телефона не работает. И самое весёлое: нужна платная подписка Google AI Pro, Google AI Ultra или Workspace Business Standard. То есть это не фича Meet, а фича дорогой подписки.
Задержка 2-3 секунды. Для демо на конференции норм. Для живого разговора – неловкие паузы после каждой фразы.
JotMe, Talo, Transync: субтитры вместо голоса
Куча приложений за $9-15 в месяц, которые обещают “real-time translation”. Заходишь, подключаешь – и получаешь субтитры. Текст на экране. Ваш собеседник ничего не слышит, он должен сам смотреть в субтитры. Или ставить себе то же приложение.
JotMe – Chrome extension, неплохо распознаёт речь, но выдаёт текст, не голос. Talo – бот который заходит в ваш Zoom и переводит, но опять же – субтитрами. У некоторых есть TTS-озвучка, но звучит она как объявление на вокзале и ломает разговор.
Главная проблема: эти штуки требуют чтобы оба участника были в одной экосистеме. Позвоните через WhatsApp или Discord – и ваш переводчик не работает.
Palabra, KUDO, Interprefy: корпоративный сегмент
Palabra – стартап с бюджетом $8.4M от сооснователя Reddit. Латентность 800мс – быстрее всех на рынке. Но это SaaS, закрытый, за подписку. Заточен под конференции и ивенты.
KUDO и Interprefy – enterprise-решения за $300+ в месяц. Конференц-перевод на 500 человек с AI + живыми переводчиками. Если у вас есть бюджет на “мультиязычную конференцию” – отлично. Если вы один человек на созвоне с тремя коллегами – мимо.
Физические переводчики
Устройства за $200-500 которые вы держите в руке как рацию. Тесты показывают: теряют начало фразы (устройство “думает” первую секунду и не успевает поймать первые слова), путают слова при длинных фразах (“hotel” превращается в “boxing”, а “reception” в “disappointment”), и говорят так быстро, что перевод приходится переслушивать три раза.
В звонке бесполезны: они работают в режиме “нажал кнопку – говоришь – отпустил – слушаешь перевод”. Как рация. Для живого разговора не годятся.
Общая картина: субтитры вместо голоса, задержка 2-6 секунд, работают только на своей платформе, от $9 до $300+ в месяц. Ни одно решение не делает простую вещь: вы говорите на своём языке, собеседник слышит свой. В любом приложении.
|
Решение |
Цена |
Голос или субтитры |
Задержка |
Языков |
Платформы |
|---|---|---|---|---|---|
|
Google Meet |
Подписка AI Pro/Ultra |
Голос |
2-3с |
6 |
Только Meet |
|
JotMe |
$10-15/мес |
Субтитры |
~1-2с |
77 |
Chrome extension |
|
Talo |
Подписка |
Субтитры + бот |
~2с |
60 |
Zoom, Meet, Teams |
|
Transync |
$9/мес |
Субтитры |
~0.1с (заявл.) |
60 |
Zoom, Meet, Teams |
|
Palabra |
SaaS подписка |
Голос |
~0.8с |
25+ |
Zoom, Meet, свой |
|
KUDO / Interprefy |
$300+/мес |
Голос + живые переводчики |
~2-4с |
60+ |
Свои платформы |
|
Мой переводчик |
$0 |
Голос |
0.8-1.7с |
29 |
Любое приложение |
Ну и я решил написать своё
Классическая история разработчика: вместо того чтобы заплатить $15 в месяц за несовершенный продукт, потратить кучу времени на свой собственный несовершенный продукт. Тогда я думал что напишу это за пару дней. Ну, open-source, бесплатно, Elixir + Rust – что может пойти не так?
Идея простая: перехватить звук с микрофона, распознать речь, перевести, синтезировать голос на другом языке, и отправить этот голос в звонок вместо моего. То же самое в обратную сторону – перехватить речь собеседника, перевести, и озвучить мне.
Звучит как пять строчек кода. По факту – три переписанных с нуля архитектуры, заброшенная ветка с целым SaaS-бизнесом который я написал за один день (лицензионный сервер, биллинг, GDPR – всё выброшено), и момент когда я неделю не трогал проект потому что злился.
|
Архитектура |
Стек |
Что получилось |
Почему не выжила |
|---|---|---|---|
|
v1: Всё локально |
Elixir + Rust + voxtral + Opus-MT |
Не работало вообще |
voxtral думал 15 секунд, Opus-MT переводил как стажёр |
|
v2: Десктоп-приложение |
Tauri + Svelte + Rust + Stripe |
Красивый SaaS с биллингом и GDPR |
Один баг с async/sync IPC убил всё |
|
v3: Простой и рабочий |
Elixir + Rust + Flask (1 файл) |
Open-source, работает стабильно |
Выжила. Простота победила |
Но в итоге получилось. Не так, как я мечтал. Но получилось.
Как это работает (простым языком)
Когда вы говорите в микрофон, происходит четыре вещи подряд:
1. Распознавание. Ваш голос уходит в Deepgram – сервис который слушает речь через WebSocket и моментально превращает её в текст. Не ждёт пока вы закончите предложение – начинает распознавать сразу.
2. Перевод. Текст уходит в Groq, где языковая модель llama-3.3-70b переводит его на нужный язык. Промпт простой: “ты переводчик на звонке, переводи дословно, сохраняй тон и эмоции, мата не бойся”.
3. Озвучка. Переведённый текст превращается обратно в речь через Piper – open-source движок который работает прямо на вашем компьютере, без интернета.
4. Маршрутизация. Синтезированный голос отправляется в виртуальный микрофон – Meet или Zoom думают что это вы говорите. А речь вашего собеседника перехватывается из виртуального динамика, переводится, и играет вам в наушники.
Всё это занимает 0.8-1.7 секунды. Для контекста: живой синхронный переводчик задерживается на 2-5 секунд. Мы формально быстрее человека.
И самое важное: это работает с любым приложением для звонков. Meet, Zoom, Slack, Discord, WhatsApp Desktop – без разницы. Переводчик работает на уровне аудио-системы, а не внутри конкретного приложения.
Почему именно эти технологии
Каждый компонент пайплайна я выбирал не по документации, а по результатам тестов. Некоторые – прямо в этом проекте, некоторые – в предыдущем исследовании, где я перебрал 30+ голосовых движков. Там полный разбор с бенчмарками, ценами и граблями – здесь только выдержки.
Распознавание речи: Deepgram, а не Whisper
Тестировал три варианта:
|
STT-движок |
Тип |
Задержка |
Что пошло не так |
|---|---|---|---|
|
voxtral.c |
Локальный |
15+ секунд до первого слова |
Metal на Apple Silicon глючит, бесполезно для real-time |
|
Groq Whisper |
Облачный |
~500мс чанками |
Мусор между итерациями: “with”, “word,” как отдельные фразы |
|
Deepgram Nova-3 |
Облачный (WebSocket) |
258-681мс |
Работает. Стриминг, встроенные паузы, стабильно |
Whisper умный, но для real-time не подходит: он “исправляет” предыдущие слова при каждой итерации, и пайплайн получает не готовую фразу, а постоянно меняющийся поток. Deepgram просто работает – отдаёт финализированный текст когда человек сделал паузу.
Перевод: Groq, а не OpenAI, Google Translate или DeepL
Тут выбор шире чем кажется. Есть классические переводчики, есть LLM-провайдеры. Тестировал и тех и других.
|
Провайдер |
Тип |
Задержка |
Цена |
Почему нет |
|---|---|---|---|---|
|
Google Translate API |
Классический перевод |
100-300мс |
$20/1M символов |
LLM переводит лучше, особенно разговорную речь |
|
DeepL API |
Классический перевод |
200-500мс |
$25/мес |
Тоже хуже LLM + платная подписка |
|
OpenAI |
LLM |
500-1200мс |
Платно |
Медленнее, стоит денег |
|
Anthropic |
LLM |
600-1500мс |
Платно |
Ещё медленнее для коротких фраз |
|
Groq |
LLM |
250-560мс |
Бесплатно |
Быстрее всех + бесплатный tier |
Логика простая. Google Translate и DeepL – зачем, если LLM переводит лучше? Особенно разговорную речь с контекстом. А платные LLM – зачем, если перевод это настолько базовая задача для нейросети, что бесплатный tier Groq справляется не хуже? llama-3.3-70b на LPU-чипах Groq отвечает за 250мс и денег не просит.
Озвучка: Piper, а не облачные TTS
|
TTS-движок |
Качество |
Задержка |
Цена |
Почему да/нет |
|---|---|---|---|---|
|
ElevenLabs |
Отличное |
300-800мс |
$5.57/час |
Звучит шикарно, стоит как крыло от самолёта |
|
Cartesia |
Хорошее |
200-400мс |
$1.26/час |
Быстрый, но всё равно платный + зависимость от API |
|
Kokoro (локальный) |
Хорошее (EN) |
500-1500мс |
Бесплатно |
Отлично для английского, русского нет |
|
Piper |
Терпимое |
300-500мс |
Бесплатно |
29 языков, офлайн, предсказуемо |
Да, ElevenLabs звучит в десять раз лучше. Но $5.57 в час – это приговор для бесплатного open-source продукта. Piper звучит как робот, зато работает локально, не зависит от интернета, и поддерживает 29 языков. Компромисс? Ещё какой. Но бесплатный компромисс.
Сколько стоит: фактически ноль
Две бесплатные регистрации. Никаких подписок, никаких серверов. За всё время разработки и тестирования я потратил $5 из $200 бесплатного кредита Deepgram. Этого хватит на годы обычного использования.
Для сравнения: JotMe – от $10/мес, Transync – $9/мес, Google Meet translation – нужна подписка AI Pro, KUDO – $300+/мес.
Как это работает в реальной жизни
Тестировал в трёх режимах: сам с собой (говорю в микрофон, слушаю перевод), с друзьями (договаривались заранее, звонили через Meet), и на рабочем созвоне с командой.
Предупреждал всех заранее: “буду использовать переводчик, не пугайтесь”. Хорошо что предупредил – потому что вместо моего голоса люди слышали робота.
Фидбек честный: переводит не всегда правильно и звучит так себе. Piper – open-source движок, бесплатный и быстрый. Но голоса у него, мягко говоря, не натуральные. Для английского ещё нормально – десятки моделей на выбор, есть даже вполне приличные. Для русского – три штуки. Мой любимый – “Денис”. Звучит как мой препод из универа, который кодил ещё на перфокартах. Крутой мужик был, но в 2026 году так не разговаривают. Собеседник слышит этого Дениса вместо тебя и у него на лице выражение которое сложно описать словами.
С переводом тоже не всё гладко. LLM переводит смысл, но разговорная речь – это не смысл. “Ну, такое” превращается в “well, something like that”. Формально верно. По ощущениям – как будто за тебя говорит иностранец из учебника. Сарказм, идиомы, контекст – теряются.
И задержка. 0.8-1.7 секунды – звучит быстро. Быстрее живого переводчика. Но в реальности к этому добавляется пинг самого Meet или Zoom, плюс задержка интернет-соединения через полпланеты. На бумаге секунда, в жизни – полторы-две. Когда ты в разговоре и после каждой фразы пауза – это чувствуется. Собеседник начинает говорить, а ты ещё слышишь перевод предыдущей фразы. К этому привыкаешь минут за пять, но первые минуты – странно.
А теперь совсем честно
Я из тех, кто пишет про AI без булшита. Поэтому вот как есть.
Переводчик работает. Но не так, как я себе представлял. В моей голове это было волшебство: говоришь по-русски, собеседник слышит идеальный английский, как будто ты всегда говорил на этом языке. На практике – полезный, но несовершенный инструмент. Как и вообще все AI-инструменты в 2026 году.
Голоса – роботы. Перевод – нормальный, но без нюансов. Задержка – есть, заметная. Настройка – нетривиальная (виртуальные аудио-устройства на macOS это отдельный квест).
Но знаете что? Это нормально. Технологии вообще редко дают тот результат, который мы от них ожидаем. И всегда далеки от того, что обещают маркетологи. Между демо-видео на конференции и реальным использованием – пропасть. Это касается не только моего переводчика, это касается вообще всех AI-продуктов прямо сейчас.
Если подумать, моему переводчику для идеальной работы не хватает одной маленькой технологии. Машины времени. Чтобы начинать переводить до того, как я начну говорить фразу. Потому что задержка – это не баг, это физика: невозможно перевести то, что ещё не сказано. Все переводчики в мире – и мой, и за $300/мес – бьются об эту стену.
Но.
Эта штука работает лучше большинства платных решений. Не потому что она идеальная, а потому что остальные ещё хуже. Субтитры вместо голоса. Задержка 5-10 секунд. Работа только на одной платформе. Обязательная подписка.
Мой переводчик работает с любым приложением. Задержка меньше двух секунд. 29 языков. Стоит ноль. Ставится одной командой в терминале.
Да, голос робота. Да, иногда странные переводы. Но год назад такого не существовало вообще. А сейчас можно скачать с GitHub, вставить два бесплатных ключа, и через пять минут разговаривать на созвоне на 29 языках.
Это не идеал. Но это уже большая победа – если откалибровать ожидания и помнить, что AI-инструменты сейчас работают по принципу “80% магии, 20% кринжа”.
AI-инструменты в 2026 – это не магия. Это инженерные компромиссы. Работает, но с оговорками. Экономит время и деньги, но требует калибровки ожиданий. И если выбирать между несовершенным бесплатным инструментом и несовершенным платным – выбор очевиден.
Под капотом (для тех кому интересно)
Если вам не интересны технические детали – смело пропускайте, ниже есть ссылка на GitHub.
Три языка программирования: Rust для всего тяжёлого (захват аудио, стриминг, синтез), Elixir как оркестратор (следит чтобы всё работало, перезапускает если что-то падает), Python/Flask для веб-интерфейса (один файл, ~1950 строк, весь UI внутри).
Главная техническая находка: процесс синтеза голоса отделён от процесса захвата аудио. Синтез занимает 300-500мс – если бы он блокировал микрофон, вы бы теряли полсекунды речи на каждой фразе. Звучит как деталь, но без этого решения переводчик был бы бесполезен.
Работает только на macOS (нужен BlackHole для виртуальных аудио-устройств). Пользователи Windows и Linux – смело форкайте и дорабатывайте под себя, по сути нужно только заменить BlackHole на своё решение для виртуального аудио. Или кидайте PR, если есть желание присоединиться к проекту. Я давно отказался от Linux, а что такое Windows – вообще забыл.
29 языков. Голосовые модели скачиваются прямо из интерфейса в один клик. Тёмная и светлая тема. Экспорт транскрипта. Закладки на важных фразах.
Попробуйте
git clone https://github.com/LetovKai/call-translator.git
cd call-translator
./setup.sh
./run.sh
Откройте http://127.0.0.1:5050 в Chrome. Вставьте ключи Deepgram и Groq. Настройте аудио(надо устройства в мите микрофон и динамики выбрать Blackholl). Позвоните кому-нибудь.
29 языков. Секунда задержки. Бесплатно. С голосом робота и иногда странными переводами – но работает. И это то, что есть.
Где меня найти: Telegram: @ai_integr – кейсы, инструменты, фейлы AI-интеграций GitHub: realtime-call-translator
Источники:
Google Meet Speech Translation · JotMe: 8 Best AI Live Translation Tools 2026 · CLS: We Tested 3 AI Translation Devices · TechCrunch: Palabra AI · Deepgram · Groq · Piper TTS · BlackHole
Автор: Kir_Moisha


