- BrainTools - https://www.braintools.ru -

Microsoft выпустила VibeVoice — открытую TTS-модель для генерации диалогов и подкастов продолжительностью до 90 минут

Исследователи Microsoft Research представили [1] VibeVoice — модель для генерации диалогов из текста. Главная особенность TTS-системы в том, что она может создавать диалоги продолжительностью до 90 минут с четырьмя действующими лицами.

Microsoft выпустила VibeVoice — открытую TTS-модель для генерации диалогов и подкастов продолжительностью до 90 минут - 1

В основе архитектуры VibeVoice лежит языковая модель Qwen2.5-1.5B. Она анализирует сценарий, удерживает контекст и управляет генерацией. Также в системе есть два токенизатора — акустический и семантический. Важно отметить, что модель поддерживает только английский и китайский. 

Архитектура VibeVoice

Архитектура VibeVoice

Также разработчики встроили системы защиты от неправомерного использования VibeVoice. Во-первых, есть слышимый дисклеймер, который предупреждает, что фрагмент сгенерировала нейросеть. Во-вторых, в аудиофайлы встроен скрытый водяной знак. С его помощью также можно узнать, что это продукт нейросети, а не реальная запись.

Для локального запуска исследователи рекомендуют использовать NVIDIA Deep Learning Container. Если нужен интерфейс, то есть инструкция по настройке Gradio. Есть поддержка CLI с возможностью управления спикерами и их голосами.

Модель

Длина контекста

Продолжительность сгенерированного аудио

Веса

VibeVoice-0.5B-Streaming

Ожидается

VibeVoice-1.5B

64K

~90 min

HF link [2]

VibeVoice-7B

32K

~45 min

HF link [3] (на момент публикации карточка модели пустая)

Разработчики отмечают, что модели можно использовать для исследований. Перед использованием в коммерческих проектах и пользовательских приложениях следует тестировать модель.

Бенчмарки VibeVoice

Бенчмарки VibeVoice

Проект опубликован по лицензии MIT. Дополнительные материалы можно найти на следующих ресурсах:

Автор: daniilshat

Источник [6]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/18728

URLs in this post:

[1] представили: https://microsoft.github.io/VibeVoice/

[2] HF link: https://huggingface.co/microsoft/VibeVoice-1.5B

[3] HF link: https://huggingface.co/WestZhang/VibeVoice-Large-pt

[4] https://github.com/microsoft/VibeVoice: https://github.com/microsoft/VibeVoice

[5] https://86636c494bbddc69c7.gradio.live/: https://86636c494bbddc69c7.gradio.live/

[6] Источник: https://habr.com/ru/news/940694/?utm_source=habrahabr&utm_medium=rss&utm_campaign=940694

www.BrainTools.ru

Rambler's Top100