Вышла новая открытая модель синтеза речи Kani-TTS-370M

Вышла новая открытая модель синтеза речи Kani-TTS-370M ^[1], обеспечивающая естественное и выразительное звучание при высокой скорости работы. Модель насчитывает 370 миллионов параметров и оптимизирована для работы на потребительских GPU, включая RTX 3060, где она способна генерировать речь в реальном времени.

Kani-TTS сочетает технологии NanoCodec и LFM2-350M, что обеспечивает компактность модели и качество звучания, сопоставимое с крупными нейросетевыми TTS-системами. Разработчики акцентировали внимание ^[2] на естественной интонации, чистоте звука и минимальных задержках при генерации.

Главная особенность модели — её эффективность и универсальность. Kani-TTS легко разворачивается локально и подходит для интеграции в голосовых ассистентов, игровых персонажей, системы офлайн-озвучки и других приложений, где критично отсутствие облачных вычислений.

Разработчики подчёркивают, что Kani-TTS-370M открывает новые возможности для создания голосовых интерфейсов и интерактивного контента, делая качественный синтез речи доступным на широком спектре устройств и платформ.

Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News ^[3].

Автор: cognitronn

Источник ^[4]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/20393

URLs in this post:

[1] Kani-TTS-370M: https://huggingface.co/nineninesix/kani-tts-370m

[2] внимание: http://www.braintools.ru/article/7595

[3] BotHub AI News: https://t.me/bothub

[4] Источник: https://habr.com/ru/companies/bothub/news/954078/?utm_source=habrahabr&utm_medium=rss&utm_campaign=954078

Нажмите здесь для печати.