
В прошлом году Яндекс Браузер при переводе видео научился сохранять тембр и интонации оригинального голоса, создавая перевод, который звучит более естественно и близко к оригиналу. Сегодня мы расширили количество языков для этого типа перевода — Браузер переведёт и озвучит видео с итальянского, испанского, французского, китайского, японского, корейского и немецкого языков.
Команда полностью обновила стек перевода видео в «Живых голосах»: расширила языковое покрытие, повысила качество локализации и одновременно сократила вычислительные затраты на генерацию.
Как работает перевод
Перевод с сохранением оригинальных голосов и интонаций выполняет нейросетевая модель — её обучили на сотнях тысяч часов устной речи. Чтобы озвучить ролик, модель анализирует оригинальную аудиодорожку, определяет тембр, ритм и особенности речи всех участников видео, а затем воспроизводит их в русскоязычной озвучке. За счёт этого перевод звучит ближе к оригиналу и помогает точнее воспринимать эмоциональную составляющую контента.
Улучшили качество
Самое содержательное изменение — смена кодека. Команда перешла на семантический S3 Tokenizer из открытой модели CosyVoice 2. В прежнем подходе декодер опирался в основном на акустические латенты, и много информации о спикере было «впаяно» прямо в токены. S3 Tokenizer устроен иначе: его токены кодируют преимущественно семантику, ритмику и интонационный контур, а тембр и стиль спикера задаются отдельно — через биометрический эмбеддинг. Это дало более естественный перенос интонации и стабильный тембр между разными аудиодорожками одного спикера.
Простой tokens‑to‑mel Flow Matching декодер (внутри его называли CosyFlow) на чистых данных давал отличный прирост, но в видеопереводе много нестандартных условий: шумы, помехи, старые плёночные записи, музыкальный фон, тихие или сильно компрессированные спикеры. На таких промптах модель иногда срывалась — вплоть до артефактов уровня «DemonVoice».

Чтобы убрать срывы, но сохранить выразительность нового кодека, собрали гибридную архитектуру CosyLatents — flow matching decoder в духе Tortoise, работающий на латентных представлениях. Это закрыло проблему критических артефактов на домене видеоперевода и при этом сохранило выигрыш в качестве звука, интонациях и тембре.
Ускорили генерацию
Раньше пайплайн (в духе Tortoise) генерировал несколько гипотез токенов, а отдельная модель CLVP ранжировала их по соответствию исходному тексту и выбирала лучший вариант. После прокачки LLM‑части — лучше данные, токенизация и контроль за счёт внешних кондишенингов — разница в итоговом качестве между 16 гипотезами и 1 гипотезой сошла к нулю, поэтому CLVP‑ранжирование убрали из инференса. Авторегрессионную генерацию speech‑токенов перевели на TRT‑LLM: на compute time GPT‑части это дало выигрыш чуть больше чем в 2 раза, а на уровне всего end‑to‑end пайплайна клонирования — примерно +40–50% к throughput.
После оптимизации LLM‑части пайплайна и переезда на TRT‑LLM мы получили большой прирост скорости в авторегрессионной генерации токенов. Но из‑за этого изменился профиль инференса: заметную долю времени начал занимать декодер кодека. Главная проблема — скорость: 20 шагов сэмплирования на каждый чанк.

В итоге мы перешли в парадигме обучения декодера на Flow Matching, сократив число шагов сэмплирования с 20 до 10. Уже поверх этого нового фреймворка мы сделали ещё одну итерацию ускорения — задистилировали модель так, что ей больше не требуется unconditional pass для classifier free guidance и перенесли идею progressive distillation на Flow Matching. Так число шагов сократилось с 10 до 3.
Только дистилляция увеличила пропускную способность всего пайплайна клонирования по метрике SPS на 42% без просадки по качеству.
Результаты в цифрах
В слепом сравнении side‑by‑side текущая модель CosyLatents выигрывает у прошлого прода (модель апреля 2025) в 74% случаев против 26%. Качество озвучки выросло на 40%, перенос голоса и манеры речи — на 30%.

Закадровым переводом видео в Браузере каждый месяц пользуются около 1,7 млн человек, и больше половины из них — около 1 млн — выбирают озвучку живыми голосами. Теперь они смогут смотреть с естественной озвучкой интервью футболистов и тренеров сборных с чемпионата мира, комментарии дизайнеров и журналистов с Парижской недели моды или разборы рецептов от итальянских и французских шеф‑поваров.
Озвучка живыми голосами работает при просмотре видео на YouTube, в Поиске Яндекса, на VK Видео, в Дзене и на Rutube. Выбрать перевод можно на медиапанели, которая появляется при просмотре видео в Яндекс Браузере.
Автор: NatalieVT


