- BrainTools - https://www.braintools.ru -

ИИ-подразделение компании *Meta представило Perception Encoder Audiovisual (PE-AV) – мультимодальную модель, которая объединяет аудио, видео и текст в единое пространство эмбеддингов. PE-AV является техническим ядром, лежащим в основе SAM Audio, и предназначена для улучшения понимания сцены в задачах, где важно учитывать синхронный контекст изображения и звука.
Модель умеет извлекать векторы признаков из аудио- и видеопотоков, формируя совместные аудиовизуальные представления. Это повышает точность в задачах кросс-модального поиска, детекции звуков, анализа видео и глубокого понимания сцен. Например, PE-AV может одновременно определить, какой звук относится к какому объекту на видео, или идентифицировать действия и события, комбинируя визуальную и аудиосоставляющую.
PE-AV доступна в шести чекпоинтах различного размера – от Small до Large – с вариациями по количеству обрабатываемых кадров, что позволяет подбирать оптимальный вариант для конкретных задач. Модель опубликована с открытым кодом на GitHub, а веса доступны на Hugging Face [1], что делает её доступной для исследователей, разработчиков и команд, занимающихся мультимодальными проектами.
Технология PE-AV демонстрирует, что мультимодальные модели становятся всё более необходимыми для решений в области ИИ для анализа видео, аудио и текстовой информации одновременно. Она открывает возможности для улучшения систем видеонаблюдения, мультимедийного поиска, создания умных ассистентов и аналитики контента, где важна синхронизация звука и изображения.
Релиз PE-AV показывает, что *Meta продолжает инвестировать в мультимодальные ИИ-технологии, которые позволяют объединять разные типы данных в единое представление. Это особенно актуально для исследователей и компаний, работающих с комплексными мультимедийными потоками, где требуется высокая точность и совместное понимание аудио и визуального контекста.
Делегируйте часть рутинных задач вместе с BotHub! [2] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [3] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
*Meta признана экстремистской организацией и запрещена в РФ.
Автор: cognitronn
Источник [4]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/23412
URLs in this post:
[1] Hugging Face: https://huggingface.co/facebook/pe-av-large
[2] BotHub!: https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=DEEPSEEK-OCR%20+%20LLAMA4%20+%20RAG%20=%20REVOLUTION%20IN%20THE%20WORLD%20OF%20AGENT-BASED%20OCR
[3] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7
[4] Источник: https://habr.com/ru/companies/bothub/news/978434/?utm_source=habrahabr&utm_medium=rss&utm_campaign=978434
Нажмите здесь для печати.