- BrainTools - https://www.braintools.ru -

Американский стартап Hume AI представил Octave 2 — новую модель генерации речи, которую уже называют самой быстрой на рынке. Заявленная задержка составляет менее 200 миллисекунд, то есть речь формируется практически в реальном времени. Это открывает возможности для чат-ботов, голосовых ассистентов и любых интерактивных систем, где важна естественная пауза между репликами.
Octave 2 свободно работает на 11 языках, среди которых русский, английский, французский, испанский, китайский и другие. Модель умеет клонировать голоса, копируя тембр говорящего с короткого образца, менять голос под нужный пол, возраст и интонации, управлять эмоциями [1] — от спокойного тона до ярко выраженного эмоционального — и даже редактировать фонемы, чтобы добиться точного произношения редких слов, имён или брендов.
По сравнению с первой версией Octave новая модель стала примерно на 40 % быстрее, а стоимость генерации снизилась почти вдвое. Улучшилось и качество звучания — от чёткости дикции до передачи интонаций.
Octave 2 уже доступна для тестирования прямо на сайте Hume AI и через API для разработчиков. В блоге компании выложены примеры аудио и видео, демонстрирующие возможности модели. С запуском Octave 2 Hume AI стремится снять главный барьер в TTS — задержку. Теперь генерация речи происходит настолько быстро, что становится возможным естественный диалог человека и машины без привычных пауз.
Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News [2].
Источник [3]
Автор: cognitronn
Источник [4]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/20280
URLs in this post:
[1] эмоциями: http://www.braintools.ru/article/9540
[2] BotHub AI News: https://t.me/bothub
[3] Источник: https://www.hume.ai/blog/octave-2-launch
[4] Источник: https://habr.com/ru/companies/bothub/news/953244/?utm_source=habrahabr&utm_medium=rss&utm_campaign=953244
Нажмите здесь для печати.