*Meta запускает PE-AV — аудио-визуальный энкодер для мультимодального ИИ

ИИ-подразделение компании *Meta представило Perception Encoder Audiovisual (PE-AV) – мультимодальную модель, которая объединяет аудио, видео и текст в единое пространство эмбеддингов. PE-AV является техническим ядром, лежащим в основе SAM Audio, и предназначена для улучшения понимания сцены в задачах, где важно учитывать синхронный контекст изображения и звука.

Модель умеет извлекать векторы признаков из аудио- и видеопотоков, формируя совместные аудиовизуальные представления. Это повышает точность в задачах кросс-модального поиска, детекции звуков, анализа видео и глубокого понимания сцен. Например, PE-AV может одновременно определить, какой звук относится к какому объекту на видео, или идентифицировать действия и события, комбинируя визуальную и аудиосоставляющую.

PE-AV доступна в шести чекпоинтах различного размера – от Small до Large – с вариациями по количеству обрабатываемых кадров, что позволяет подбирать оптимальный вариант для конкретных задач. Модель опубликована с открытым кодом на GitHub, а веса доступны на Hugging Face ^[1], что делает её доступной для исследователей, разработчиков и команд, занимающихся мультимодальными проектами.

Технология PE-AV демонстрирует, что мультимодальные модели становятся всё более необходимыми для решений в области ИИ для анализа видео, аудио и текстовой информации одновременно. Она открывает возможности для улучшения систем видеонаблюдения, мультимедийного поиска, создания умных ассистентов и аналитики контента, где важна синхронизация звука и изображения.

Релиз PE-AV показывает, что *Meta продолжает инвестировать в мультимодальные ИИ-технологии, которые позволяют объединять разные типы данных в единое представление. Это особенно актуально для исследователей и компаний, работающих с комплексными мультимедийными потоками, где требуется высокая точность и совместное понимание аудио и визуального контекста.

Делегируйте часть рутинных задач вместе с BotHub! ^[2] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке ^[3] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

*Meta признана экстремистской организацией и запрещена в РФ.

Автор: cognitronn

Источник ^[4]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/23412

URLs in this post:

[1] Hugging Face: https://huggingface.co/facebook/pe-av-large

[2] BotHub!: https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=DEEPSEEK-OCR%20+%20LLAMA4%20+%20RAG%20=%20REVOLUTION%20IN%20THE%20WORLD%20OF%20AGENT-BASED%20OCR

[3] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[4] Источник: https://habr.com/ru/companies/bothub/news/978434/?utm_source=habrahabr&utm_medium=rss&utm_campaign=978434

Нажмите здесь для печати.