Microsoft выпустила VibeVoice — открытую TTS-модель для генерации диалогов и подкастов продолжительностью до 90 минут. microsoft.. microsoft. Open source.. microsoft. Open source. tts.. microsoft. Open source. tts. vibevoice.. microsoft. Open source. tts. vibevoice. аудио.. microsoft. Open source. tts. vibevoice. аудио. Звук.. microsoft. Open source. tts. vibevoice. аудио. Звук. искусственный интеллект.. microsoft. Open source. tts. vibevoice. аудио. Звук. искусственный интеллект. искуственный интеллект.. microsoft. Open source. tts. vibevoice. аудио. Звук. искусственный интеллект. искуственный интеллект. Машинное обучение.. microsoft. Open source. tts. vibevoice. аудио. Звук. искусственный интеллект. искуственный интеллект. Машинное обучение. нейросети.. microsoft. Open source. tts. vibevoice. аудио. Звук. искусственный интеллект. искуственный интеллект. Машинное обучение. нейросети. речь.

Исследователи Microsoft Research представили VibeVoice — модель для генерации диалогов из текста. Главная особенность TTS-системы в том, что она может создавать диалоги продолжительностью до 90 минут с четырьмя действующими лицами.

Microsoft выпустила VibeVoice — открытую TTS-модель для генерации диалогов и подкастов продолжительностью до 90 минут - 1

В основе архитектуры VibeVoice лежит языковая модель Qwen2.5-1.5B. Она анализирует сценарий, удерживает контекст и управляет генерацией. Также в системе есть два токенизатора — акустический и семантический. Важно отметить, что модель поддерживает только английский и китайский.

Также разработчики встроили системы защиты от неправомерного использования VibeVoice. Во-первых, есть слышимый дисклеймер, который предупреждает, что фрагмент сгенерировала нейросеть. Во-вторых, в аудиофайлы встроен скрытый водяной знак. С его помощью также можно узнать, что это продукт нейросети, а не реальная запись.

Для локального запуска исследователи рекомендуют использовать NVIDIA Deep Learning Container. Если нужен интерфейс, то есть инструкция по настройке Gradio. Есть поддержка CLI с возможностью управления спикерами и их голосами.

Модель	Длина контекста	Продолжительность сгенерированного аудио	Веса
VibeVoice-0.5B-Streaming	–	–	Ожидается
VibeVoice-1.5B	64K	~90 min	HF link
VibeVoice-7B	32K	~45 min	HF link (на момент публикации карточка модели пустая)

Разработчики отмечают, что модели можно использовать для исследований. Перед использованием в коммерческих проектах и пользовательских приложениях следует тестировать модель.