Вышел PrismAudio — генерация звука прямо из видео. ai.. ai. Блог компании BotHub.. ai. Блог компании BotHub. Будущее здесь.. ai. Блог компании BotHub. Будущее здесь. ИИ.. ai. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект.. ai. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение.. ai. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение.. ai. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение. научно-популярное.. ai. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение. научно-популярное. нейросети.
Вышел PrismAudio — генерация звука прямо из видео - 1

Лаборатория Tongyi Lab представила PrismAudio — новый фреймворк для задачи Video-to-Audio, то есть автоматической генерации звуковой дорожки по видеоряду. Проект стал развитием идей предыдущей модели ThinkSound, но с более продуманной архитектурой.

Главное отличие — разбиение генерации звука на 4 независимых «перцептивных измерения». Вместо одного монолитного рассуждения модель использует отдельные цепочки reasoning (CoT) для каждой задачи:

• Semantic CoT — определяет, какие звуки соответствуют сцене

• Temporal CoT — выстраивает тайминг и синхронизацию

• Aesthetic CoT — отвечает за качество и естественность

• Spatial CoT — размещает звук в стереопространстве

Такой подход решает проблему ThinkSound, где модель пыталась делать всё сразу и теряла качество. Теперь каждое измерение оптимизируется отдельно через собственную reward-функцию, включая метрики вроде MS-CLAP, Synchformer и StereoCRW.

Для обучения с подкреплением используется метод Fast-GRPO — ускоренная схема, где часть шагов проходит через стохастическое сэмплирование, а остальная траектория рассчитывается детерминированно. Это позволило сократить обучение с 600 до 200 шагов и при этом улучшить итоговые результаты.

В тестах PrismAudio уверенно обходит ThinkSound:

• лучшее семантическое совпадение звука с видео

• более точная синхронизация

• почти в 2 раза меньше ошибок в пространственном позиционировании

• более высокие субъективные оценки качества

Также модель показывает очень быстрый инференс — около 0,63 секунды на 9-секундный фрагмент (без учета препроцессинга).

Но есть и нюанс: извлечение признаков остаётся тяжёлым. По отзывам, для 10-секундного видео может потребоваться до 43 ГБ видеопамяти, что ограничивает использование без мощного железа.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Автор: cognitronn

Источник