- BrainTools - https://www.braintools.ru -

Вышла новая открытая модель синтеза речи Kani-TTS-370M [1], обеспечивающая естественное и выразительное звучание при высокой скорости работы. Модель насчитывает 370 миллионов параметров и оптимизирована для работы на потребительских GPU, включая RTX 3060, где она способна генерировать речь в реальном времени.
Kani-TTS сочетает технологии NanoCodec и LFM2-350M, что обеспечивает компактность модели и качество звучания, сопоставимое с крупными нейросетевыми TTS-системами. Разработчики акцентировали внимание [2] на естественной интонации, чистоте звука и минимальных задержках при генерации.
Главная особенность модели — её эффективность и универсальность. Kani-TTS легко разворачивается локально и подходит для интеграции в голосовых ассистентов, игровых персонажей, системы офлайн-озвучки и других приложений, где критично отсутствие облачных вычислений.
Разработчики подчёркивают, что Kani-TTS-370M открывает новые возможности для создания голосовых интерфейсов и интерактивного контента, делая качественный синтез речи доступным на широком спектре устройств и платформ.
Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News [3].
Автор: cognitronn
Источник [4]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/20393
URLs in this post:
[1] Kani-TTS-370M: https://huggingface.co/nineninesix/kani-tts-370m
[2] внимание: http://www.braintools.ru/article/7595
[3] BotHub AI News: https://t.me/bothub
[4] Источник: https://habr.com/ru/companies/bothub/news/954078/?utm_source=habrahabr&utm_medium=rss&utm_campaign=954078
Нажмите здесь для печати.