Яндекс Браузер обновил модель перевода и научился переводить видео живыми голосами ещё с семи языков. llm.. llm. ml.. llm. ml. Блог компании Яндекс.. llm. ml. Блог компании Яндекс. Браузеры.. llm. ml. Блог компании Яндекс. Браузеры. Звук.. llm. ml. Блог компании Яндекс. Браузеры. Звук. искусственный интеллект.. llm. ml. Блог компании Яндекс. Браузеры. Звук. искусственный интеллект. Машинное обучение.. llm. ml. Блог компании Яндекс. Браузеры. Звук. искусственный интеллект. Машинное обучение. нейросети.. llm. ml. Блог компании Яндекс. Браузеры. Звук. искусственный интеллект. Машинное обучение. нейросети. озвучка.. llm. ml. Блог компании Яндекс. Браузеры. Звук. искусственный интеллект. Машинное обучение. нейросети. озвучка. перевод.. llm. ml. Блог компании Яндекс. Браузеры. Звук. искусственный интеллект. Машинное обучение. нейросети. озвучка. перевод. яндекс браузер.
Яндекс Браузер обновил модель перевода и научился переводить видео живыми голосами ещё с семи языков - 1

В прошлом году Яндекс Браузер при переводе видео научился сохранять тембр и интонации оригинального голоса, создавая перевод, который звучит более естественно и близко к оригиналу. Сегодня мы расширили количество языков для этого типа перевода — Браузер переведёт и озвучит видео с итальянского, испанского, французского, китайского, японского, корейского и немецкого языков. 

Команда полностью обновила стек перевода видео в «Живых голосах»: расширила языковое покрытие, повысила качество локализации и одновременно сократила вычислительные затраты на генерацию.

Как работает перевод

Перевод с сохранением оригинальных голосов и интонаций выполняет нейросетевая модель — её обучили на сотнях тысяч часов устной речи. Чтобы озвучить ролик, модель анализирует оригинальную аудиодорожку, определяет тембр, ритм и особенности речи всех участников видео, а затем воспроизводит их в русскоязычной озвучке. За счёт этого перевод звучит ближе к оригиналу и помогает точнее воспринимать эмоциональную составляющую контента. 

Улучшили качество

Самое содержательное изменение — смена кодека. Команда перешла на семантический S3 Tokenizer из открытой модели CosyVoice 2. В прежнем подходе декодер опирался в основном на акустические латенты, и много информации о спикере было «впаяно» прямо в токены. S3 Tokenizer устроен иначе: его токены кодируют преимущественно семантику, ритмику и интонационный контур, а тембр и стиль спикера задаются отдельно — через биометрический эмбеддинг. Это дало более естественный перенос интонации и стабильный тембр между разными аудиодорожками одного спикера.

Простой tokens‑to‑mel Flow Matching декодер (внутри его называли CosyFlow) на чистых данных давал отличный прирост, но в видеопереводе много нестандартных условий: шумы, помехи, старые плёночные записи, музыкальный фон, тихие или сильно компрессированные спикеры. На таких промптах модель иногда срывалась — вплоть до артефактов уровня «DemonVoice». 

Яндекс Браузер обновил модель перевода и научился переводить видео живыми голосами ещё с семи языков - 2

Чтобы убрать срывы, но сохранить выразительность нового кодека, собрали гибридную архитектуру CosyLatents — flow matching decoder в духе Tortoise, работающий на латентных представлениях. Это закрыло проблему критических артефактов на домене видеоперевода и при этом сохранило выигрыш в качестве звука, интонациях и тембре.

Ускорили генерацию

Раньше пайплайн (в духе Tortoise) генерировал несколько гипотез токенов, а отдельная модель CLVP ранжировала их по соответствию исходному тексту и выбирала лучший вариант. После прокачки LLM‑части — лучше данные, токенизация и контроль за счёт внешних кондишенингов — разница в итоговом качестве между 16 гипотезами и 1 гипотезой сошла к нулю, поэтому CLVP‑ранжирование убрали из инференса. Авторегрессионную генерацию speech‑токенов перевели на TRT‑LLM: на compute time GPT‑части это дало выигрыш чуть больше чем в 2 раза, а на уровне всего end‑to‑end пайплайна клонирования — примерно +40–50% к throughput.

После оптимизации LLM‑части пайплайна и переезда на TRT‑LLM мы получили большой прирост скорости в авторегрессионной генерации токенов. Но из‑за этого изменился профиль инференса: заметную долю времени начал занимать декодер кодека. Главная проблема — скорость: 20 шагов сэмплирования на каждый чанк. 

Яндекс Браузер обновил модель перевода и научился переводить видео живыми голосами ещё с семи языков - 3

В итоге мы перешли в парадигме обучения декодера на Flow Matching, сократив число шагов сэмплирования с 20 до 10. Уже поверх этого нового фреймворка мы сделали ещё одну итерацию ускорения — задистилировали модель так, что ей больше не требуется unconditional pass для classifier free guidance и перенесли идею progressive distillation на Flow Matching. Так число шагов сократилось с 10 до 3.

Только дистилляция увеличила пропускную способность всего пайплайна клонирования по метрике SPS на 42% без просадки по качеству.

Результаты в цифрах

В слепом сравнении side‑by‑side текущая модель CosyLatents выигрывает у прошлого прода (модель апреля 2025) в 74% случаев против 26%. Качество озвучки выросло на 40%, перенос голоса и манеры речи — на 30%. 

Яндекс Браузер обновил модель перевода и научился переводить видео живыми голосами ещё с семи языков - 4

Закадровым переводом видео в Браузере каждый месяц пользуются около 1,7 млн человек, и больше половины из них — около 1 млн — выбирают озвучку живыми голосами. Теперь они смогут смотреть с естественной озвучкой интервью футболистов и тренеров сборных с чемпионата мира, комментарии дизайнеров и журналистов с Парижской недели моды или разборы рецептов от итальянских и французских шеф‑поваров.

Озвучка живыми голосами работает при просмотре видео на YouTube, в Поиске Яндекса, на VK Видео, в Дзене и на Rutube. Выбрать перевод можно на медиапанели, которая появляется при просмотре видео в Яндекс Браузере.

Автор: NatalieVT

Источник