
Лаборатория Tongyi Lab представила PrismAudio — новый фреймворк для задачи Video-to-Audio, то есть автоматической генерации звуковой дорожки по видеоряду. Проект стал развитием идей предыдущей модели ThinkSound, но с более продуманной архитектурой.
Главное отличие — разбиение генерации звука на 4 независимых «перцептивных измерения». Вместо одного монолитного рассуждения модель использует отдельные цепочки reasoning (CoT) для каждой задачи:
• Semantic CoT — определяет, какие звуки соответствуют сцене
• Temporal CoT — выстраивает тайминг и синхронизацию
• Aesthetic CoT — отвечает за качество и естественность
• Spatial CoT — размещает звук в стереопространстве
Такой подход решает проблему ThinkSound, где модель пыталась делать всё сразу и теряла качество. Теперь каждое измерение оптимизируется отдельно через собственную reward-функцию, включая метрики вроде MS-CLAP, Synchformer и StereoCRW.
Для обучения с подкреплением используется метод Fast-GRPO — ускоренная схема, где часть шагов проходит через стохастическое сэмплирование, а остальная траектория рассчитывается детерминированно. Это позволило сократить обучение с 600 до 200 шагов и при этом улучшить итоговые результаты.
В тестах PrismAudio уверенно обходит ThinkSound:
• лучшее семантическое совпадение звука с видео
• более точная синхронизация
• почти в 2 раза меньше ошибок в пространственном позиционировании
• более высокие субъективные оценки качества
Также модель показывает очень быстрый инференс — около 0,63 секунды на 9-секундный фрагмент (без учета препроцессинга).
Но есть и нюанс: извлечение признаков остаётся тяжёлым. По отзывам, для 10-секундного видео может потребоваться до 43 ГБ видеопамяти, что ограничивает использование без мощного железа.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Автор: cognitronn


