NVIDIA представила модель, которая анализирует звук, речь и музыку

NVIDIA представила новую мультимодальную модель Audio Flamingo 3, которая умеет понимать и анализировать звук, речь и музыку. В её основе лежит комбинация сразу нескольких технологий — аудиокодера AF Whisper, адаптера, языковой модели Qwen 2.5 7B и модуля генерации речи. Такой стек позволяет системе работать с длинными звуковыми записями до десяти минут, распознавать речь, понимать контекст и поддерживать многотуровые диалоги с пользователем.

NVIDIA представила модель, которая анализирует звук, речь и музыку - 2

Audio Flamingo 3 обучена на огромном наборе аудио-датасетов и уже показывает выдающиеся результаты в тестах по звуковому пониманию и рассуждению. Модель уверенно справляется с задачами анализа музыкальных фрагментов, разговорной речи и даже звуковых сцен, где нужно распознать происходящее на фоне.

NVIDIA представила модель, которая анализирует звук, речь и музыку - 3

Разработчики отмечают, что новая архитектура открывает путь к полноценным аудиоассистентам, которые смогут не просто распознавать команды, а вести естественные разговоры и понимать интонацию человека. Модель уже интегрирована в экосистему NVIDIA и доступна исследователям через PyTorch и Hugging Face ^[1].

Делегируйте часть рутинных задач вместе с BotHub! ^[2] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке ^[3] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Автор: cognitronn

Источник ^[4]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/21178

URLs in this post:

[1] Hugging Face: https://huggingface.co/nvidia/audio-flamingo-3-hf

[2] BotHub!: https://bothub.chat/?utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_source=contentmarketing&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_medium=habr&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_campaign=news&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_content=NVIDIA%20UNVEILS%20MODEL%20THAT%20ANALYZES%20SOUND,%20SPEECH,%20AND%20MUSIC

[3] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[4] Источник: https://habr.com/ru/companies/bothub/news/960610/?utm_source=habrahabr&utm_medium=rss&utm_campaign=960610

Нажмите здесь для печати.