Microsoft выпустила VibeVoice — открытую TTS-модель для генерации диалогов и подкастов продолжительностью до 90 минут. microsoft.. microsoft. Open source.. microsoft. Open source. tts.. microsoft. Open source. tts. vibevoice.. microsoft. Open source. tts. vibevoice. аудио.. microsoft. Open source. tts. vibevoice. аудио. Звук.. microsoft. Open source. tts. vibevoice. аудио. Звук. искусственный интеллект.. microsoft. Open source. tts. vibevoice. аудио. Звук. искусственный интеллект. искуственный интеллект.. microsoft. Open source. tts. vibevoice. аудио. Звук. искусственный интеллект. искуственный интеллект. Машинное обучение.. microsoft. Open source. tts. vibevoice. аудио. Звук. искусственный интеллект. искуственный интеллект. Машинное обучение. нейросети.. microsoft. Open source. tts. vibevoice. аудио. Звук. искусственный интеллект. искуственный интеллект. Машинное обучение. нейросети. речь.

Исследователи Microsoft Research представили VibeVoice — модель для генерации диалогов из текста. Главная особенность TTS-системы в том, что она может создавать диалоги продолжительностью до 90 минут с четырьмя действующими лицами.

Microsoft выпустила VibeVoice — открытую TTS-модель для генерации диалогов и подкастов продолжительностью до 90 минут - 1

В основе архитектуры VibeVoice лежит языковая модель Qwen2.5-1.5B. Она анализирует сценарий, удерживает контекст и управляет генерацией. Также в системе есть два токенизатора — акустический и семантический. Важно отметить, что модель поддерживает только английский и китайский. 

Архитектура VibeVoice

Архитектура VibeVoice

Также разработчики встроили системы защиты от неправомерного использования VibeVoice. Во-первых, есть слышимый дисклеймер, который предупреждает, что фрагмент сгенерировала нейросеть. Во-вторых, в аудиофайлы встроен скрытый водяной знак. С его помощью также можно узнать, что это продукт нейросети, а не реальная запись.

Для локального запуска исследователи рекомендуют использовать NVIDIA Deep Learning Container. Если нужен интерфейс, то есть инструкция по настройке Gradio. Есть поддержка CLI с возможностью управления спикерами и их голосами.

Модель

Длина контекста

Продолжительность сгенерированного аудио

Веса

VibeVoice-0.5B-Streaming

Ожидается

VibeVoice-1.5B

64K

~90 min

HF link

VibeVoice-7B

32K

~45 min

HF link (на момент публикации карточка модели пустая)

Разработчики отмечают, что модели можно использовать для исследований. Перед использованием в коммерческих проектах и пользовательских приложениях следует тестировать модель.

Бенчмарки VibeVoice

Бенчмарки VibeVoice

Проект опубликован по лицензии MIT. Дополнительные материалы можно найти на следующих ресурсах:

Автор: daniilshat

Источник

Rambler's Top100