*Meta запускает PE-AV — аудио-визуальный энкодер для мультимодального ИИ. ai.. ai. meta.. ai. meta. Блог компании BotHub.. ai. meta. Блог компании BotHub. Будущее здесь.. ai. meta. Блог компании BotHub. Будущее здесь. ИИ.. ai. meta. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект.. ai. meta. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение.. ai. meta. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение.. ai. meta. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение. научно-популярное.. ai. meta. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение. научно-популярное. нейросети.
*Meta запускает PE-AV — аудио-визуальный энкодер для мультимодального ИИ - 1

ИИ-подразделение компании *Meta представило Perception Encoder Audiovisual (PE-AV) – мультимодальную модель, которая объединяет аудио, видео и текст в единое пространство эмбеддингов. PE-AV является техническим ядром, лежащим в основе SAM Audio, и предназначена для улучшения понимания сцены в задачах, где важно учитывать синхронный контекст изображения и звука.

Модель умеет извлекать векторы признаков из аудио- и видеопотоков, формируя совместные аудиовизуальные представления. Это повышает точность в задачах кросс-модального поиска, детекции звуков, анализа видео и глубокого понимания сцен. Например, PE-AV может одновременно определить, какой звук относится к какому объекту на видео, или идентифицировать действия и события, комбинируя визуальную и аудиосоставляющую.

PE-AV доступна в шести чекпоинтах различного размера – от Small до Large – с вариациями по количеству обрабатываемых кадров, что позволяет подбирать оптимальный вариант для конкретных задач. Модель опубликована с открытым кодом на GitHub, а веса доступны на Hugging Face, что делает её доступной для исследователей, разработчиков и команд, занимающихся мультимодальными проектами.

Технология PE-AV демонстрирует, что мультимодальные модели становятся всё более необходимыми для решений в области ИИ для анализа видео, аудио и текстовой информации одновременно. Она открывает возможности для улучшения систем видеонаблюдения, мультимедийного поиска, создания умных ассистентов и аналитики контента, где важна синхронизация звука и изображения.

Релиз PE-AV показывает, что *Meta продолжает инвестировать в мультимодальные ИИ-технологии, которые позволяют объединять разные типы данных в единое представление. Это особенно актуально для исследователей и компаний, работающих с комплексными мультимедийными потоками, где требуется высокая точность и совместное понимание аудио и визуального контекста.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

*Meta признана экстремистской организацией и запрещена в РФ.

Автор: cognitronn

Источник

Rambler's Top100