tts.
Как утки с СДВГ довели меня до опенсорса: зачем я собрал утилиту для перевода коротких видео на домашней видеокарте
Dub Studio - локальная утилита для перевода коротких роликов. Та самая утка тоже тут.
Как мы разрабатывали TTS для Ил-2 Штурмовик
Все же помнят легенду?Так получилось, что нам посчастливилось принять участие в разработке синтеза для новой версии игры игры Ил-2 Штурмовик — Ил-2: Корея. Это был длинный путь, но в итоге у нас получилось:
Что перестаёт работать в тестировании, когда приходит LLM
Слева — привычный зелёный тест. Справа — то, что с ним делает LLM
Неочевидные проблемы в Text‑to‑Speech, о которых редко говорят
Когда приходишь в Text‑to‑Speech из классического ML (или даже из CV/NLP), кажется, что всё знакомо: датасет, модель, loss, валидация, поехали. А потом довольно быстро ловишь себя на мысли, что что‑то тут не так.В TTS есть набор проблем, которые:не очевидны на старте;почти не обсуждаются;и при этом регулярно бьют по разработке.Причём это не какие‑то редкие кейсы. Это вещи, которые встречаются постоянно.Попробую описать несколько таких моментов, о которые обжегся сам во время работы над аудио ассистентом в одном из российских бигтехов.
Как я завёл нормальный голос в детское приложение, не разорившись и не заставив никого лезть в настройки
Я в одиночку делаю Kalyaki — приложение, где дети учат английский через рисование: рисуют слова (cat, sun, house), оно распознаёт рисунок прямо на устройстве через ONNX-модель и отвечает голосом. Хотя «в одиночку» — это уже не совсем честно: с Claude Code, конечно, но заранее — нет, это не очередная статья как я стал 10х-инженером благодаря ИИ.Сначала был робо-воисВ MVP голос был сделан максимально дёшево — системный TTS (expo-speech поверх голосов iOS/Android). Ноль инфраструктуры, работает офлайн. Для проверки гипотезы — самое то, и я ни разу не жалею, что начал так.
Обрести свой голос: сложность выбора TTS-архитектуры для ИИ-агента
Продолжаю писать о разработке собственного TTS-сервиса, основанный на шишках, набитых в targetai. В первой статье я описал критерии оценки и методологию бенчмарка. В этой статье речь пойдет о том, как мы с командой применили эти критерии на практике.Дисклеймеры:
Как мы голос для ИИ-ассистента выбирали или критерии оценки TTS-движков
targetai специализируется на создании ИИ-ассистентов для клиентского сервиса. И голосовые агенты для нас — один из ключевых сценариев: телефония, входящие и исходящие звонки, сервисные диалоги. На определённом этапе мы с командой пришли к пониманию, что зависимость от вендорских TTS-сервисов — это риск: по стоимости, по контролю над качеством, по гибкости под конкретных клиентов. И тогда перед нами встал вопрос о собственном сервисе синтеза речи.Первый шаг, который оказался совсем не тривиальным — договориться между собой о том, что вообще считать «хорошим голосом» для ИИ-агента
Наш синтез для экранных читалок (SAPI5) для 20 языков России стал лучше
Ультанул башем в 2012 годуМы не так давно опубликовали SAPI5-обёртку для нашего синтеза
Голосовой агент — это не чатбот с телефоном: 40 часов экономии и $100, сожженные на ботах
Я однажды примерно за сутки сжег около $100 на голосовом агенте.Не на большом запуске. Не на огромной базе. Не на хитрой рекламной кампании. Просто на небольшом пуле холодных контактов, где агент периодически попадал на voicemail, IVR, секретарей и других ботов.В какой-то момент два не очень умных голосовых процесса могли довольно долго вежливо говорить друг другу что-то в духе:Здравствуйте.Здравствуйте, чем могу помочь?Я звоню, чтобы…Здравствуйте, чем могу помочь?Конечно, подскажите, пожалуйста…
Как я добавил llama.cpp бэкенд в CosyVoice3 и ускорил инференс в 2.6x
CosyVoice3 — одна из лучших open source TTS моделей прямо сейчас, особенно для русского языка. Но у неё есть проблема: LLM-часть на PyTorch работает медленно на слабых GPU вроде T4. RTF (real-time factor) около 1.17 — это значит синтез одной секунды аудио занимает больше секунды реального времени.Я решил это исправить, добавив поддержку llama.cpp через llama-cpp-python. Результат: RTF упал до ~0.45, то есть ускорение примерно в 2.6x.В этой статье расскажу как это работает, почему это нетривиально, и как попробовать самому.Почему CosyVoice LLM — не обычная LLM

