Mistral выпустила открытую модель синтеза речи Voxtral

Компания Mistral AI представила модель Voxtral TTS, предназначенную для генерации речи с высокой степенью реализма. Модель поддерживает 9 языков и умеет клонировать голос по короткому аудиосэмплу длительностью менее 5 секунд, передавая не только тембр, но и микроинтонации, акценты и особенности дикции.

Mistral выпустила открытую модель синтеза речи Voxtral - 2

Одной из ключевых возможностей Voxtral стала способность переключаться между языками на лету, сохраняя при этом характеристики исходного голоса. Это открывает новые сценарии использования, включая мультиязычные голосовые интерфейсы и персонализированные аудиосервисы.

Архитектура модели построена на базе LLM Ministral 3B. Разработчики сделали акцент на скорости: генерация 10-секундного аудио занимает около 1,6 секунды, что позволяет использовать модель в реальном времени без заметных задержек.

Веса базовой версии опубликованы на Hugging Face под некоммерческой лицензией. Также протестировать модель можно через Mistral Studio и Le Chat. Запуск Voxtral подтверждает тренд на открытые и быстрые голосовые модели, которые могут конкурировать с закрытыми решениями по качеству и удобству.

Делегируйте часть рутинных задач вместе с BotHub! ^[1] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке ^[2] вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник ^[3]

Автор: cognitronn

Источник ^[4]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/27827

URLs in this post:

[1] BotHub!: https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=

[2] По ссылке: https://bothub.chat/?invitedBy=iTNi-351UcHgc1BxGFWim

[3] Источник: https://mistral.ai/news/voxtral-tts

[4] Источник: https://habr.com/ru/companies/bothub/news/1015818/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1015818

Нажмите здесь для печати.