
ИИ-подразделение компании *Meta представило Perception Encoder Audiovisual (PE-AV) – мультимодальную модель, которая объединяет аудио, видео и текст в единое пространство эмбеддингов. PE-AV является техническим ядром, лежащим в основе SAM Audio, и предназначена для улучшения понимания сцены в задачах, где важно учитывать синхронный контекст изображения и звука.
Модель умеет извлекать векторы признаков из аудио- и видеопотоков, формируя совместные аудиовизуальные представления. Это повышает точность в задачах кросс-модального поиска, детекции звуков, анализа видео и глубокого понимания сцен. Например, PE-AV может одновременно определить, какой звук относится к какому объекту на видео, или идентифицировать действия и события, комбинируя визуальную и аудиосоставляющую.
PE-AV доступна в шести чекпоинтах различного размера – от Small до Large – с вариациями по количеству обрабатываемых кадров, что позволяет подбирать оптимальный вариант для конкретных задач. Модель опубликована с открытым кодом на GitHub, а веса доступны на Hugging Face, что делает её доступной для исследователей, разработчиков и команд, занимающихся мультимодальными проектами.
Технология PE-AV демонстрирует, что мультимодальные модели становятся всё более необходимыми для решений в области ИИ для анализа видео, аудио и текстовой информации одновременно. Она открывает возможности для улучшения систем видеонаблюдения, мультимедийного поиска, создания умных ассистентов и аналитики контента, где важна синхронизация звука и изображения.
Релиз PE-AV показывает, что *Meta продолжает инвестировать в мультимодальные ИИ-технологии, которые позволяют объединять разные типы данных в единое представление. Это особенно актуально для исследователей и компаний, работающих с комплексными мультимедийными потоками, где требуется высокая точность и совместное понимание аудио и визуального контекста.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
*Meta признана экстремистской организацией и запрещена в РФ.
Автор: cognitronn
- Запись добавлена: 19.12.2025 в 12:31
- Оставлено в
Советуем прочесть:
- Meta* запускает автономное приложение на базе искусственного интеллекта, чтобы конкурировать с ChatGPT
- В Adobe Premiere Pro появился визуальный поиск видеофайлов на базе нейросетей
- Meta приобретает AI-стартап WaveForms для усиления голосовых технологий
- Meta* запускает новые функции для обеспечения безопасности подростков
- Meta* запускает программу по сбору языковых данных для развития AI
- Meta* запускает редактирование видео с помощью ИИ, пока не раскрывая всех возможностей
- LMSYS запускает Miles и обещает ускорение RL на 25 процентов. Конец эпохе медленных MoE?
- Meta* запускает программу, призванную стимулировать стартапы к использованию моделей ИИ Llama
- Meta* запускает лабораторию суперИИ: Цукерберг собирает звездную команду
- Meta AI расширяет своё присутствие на Ближнем Востоке и в Северной Африке


