LFM2.5-VL-450M: структурированный визуальный интеллект. edge ai.. edge ai. Jetson Orin.. edge ai. Jetson Orin. LFM2.5-VL-450M.. edge ai. Jetson Orin. LFM2.5-VL-450M. liquid ai.. edge ai. Jetson Orin. LFM2.5-VL-450M. liquid ai. vision language models.. edge ai. Jetson Orin. LFM2.5-VL-450M. liquid ai. vision language models. искусственный интеллект.. edge ai. Jetson Orin. LFM2.5-VL-450M. liquid ai. vision language models. искусственный интеллект. компьютерное зрение.. edge ai. Jetson Orin. LFM2.5-VL-450M. liquid ai. vision language models. искусственный интеллект. компьютерное зрение. локальный ИИ.. edge ai. Jetson Orin. LFM2.5-VL-450M. liquid ai. vision language models. искусственный интеллект. компьютерное зрение. локальный ИИ. Машинное обучение.. edge ai. Jetson Orin. LFM2.5-VL-450M. liquid ai. vision language models. искусственный интеллект. компьютерное зрение. локальный ИИ. Машинное обучение. Промышленное программирование.. edge ai. Jetson Orin. LFM2.5-VL-450M. liquid ai. vision language models. искусственный интеллект. компьютерное зрение. локальный ИИ. Машинное обучение. Промышленное программирование. робототехника.

Выпущена модель LFM2.5-VL-450M. Это обновленная версия LFM2-VL-450M, в которую добавили функции заземления, улучшенное следование инструкциям и поддержку вызова функций. Модель преобразует видеопоток в структурированные данные в реальном времени на локальных устройствах.

LFM2.5-VL-450M: структурированный визуальный интеллект - 1

LFM2.5-VL-450M доступна на Hugging Face, LEAP и в Playground. Инструкции по локальному запуску и дообучению находятся в документации.

P.S Если вам интересна тема AI-агентов и внедрения нейросетей, заглядывайте в мой Telegram-канал ДругОпенсурса. Там я публикую свежие новости и разборы инструментов в числе первых.

Что изменилось

Объем данных для предварительного обучения увеличили с 10 трлн до 28 трлн токенов. После этого провели дополнительное обучение с использованием оптимизации предпочтений и обучения с подкреплением. Это было нужно для улучшения работы в реальных условиях эксплуатации.

Распознавание объектов : Показатель RefCOCO-M вырос до 81.28. Модель теперь находит объекты на изображении и выделяет их ограничивающими рамками

Многоязычное понимание изображений : Результат в тесте MMMB увеличился с 54.29 до 68.09. Поддерживаются арабский, китайский, французский, немецкий, японский, корейский, португальский и испанский языки. Модель обрабатывает запросы на этих языках без использования сторонних инструментов локализации.

Следование инструкциям : Показатель MM-IFEval вырос с 32.93 до 45.00. Модель точнее соблюдает заданные ограничения и текстовые команды.

LFM2.5-VL-450M: структурированный визуальный интеллект - 2

LFM2.5-VL-450M протестировали на задачах визуального понимания, обнаружения объектов и логического вывода. Результаты выше, чем у версии LFM2-VL-450M. Также добавлена поддержка вызова функций (тест BFCLv4).

Производительность

Модель предназначена для работы с видеокамерами и изображениями в условиях ограниченного времени на обработку. LFM2.5-VL-450M (в квантовании Q4_0) работает на модулях Jetson Orin, процессорах Ryzen AI Max+ 395 и мобильных чипах Snapdragon 8 Elite.

LFM2.5-VL-450M: структурированный визуальный интеллект - 3

На Jetson Orin обработка изображения размером 512×512 занимает менее 250 мс. Это позволяет анализировать видеопоток с частотой 4 кадра в секунду. На мобильных процессорах время обработки составляет менее одной секунды для низких разрешений.

Варианты использования

Промышленная автоматизация :  В автомобилях, сельхозтехнике и на складах вычислительные ресурсы ограничены. LFM2.5-VL-450M позволяет не только находить объекты, но и описывать действия рабочих, движение погрузчиков и перемещение товаров на оборудовании уровня Jetson Orin.

LFM2.5-VL-450M: структурированный визуальный интеллект - 4

Носимые устройства и мониторинг : Смарт-очки, видеорегистраторы и системы безопасности имеют жесткие ограничения по питанию и конфиденциальности. Модель обрабатывает видео локально, превращая его в структурированные данные без передачи в облако.

LFM2.5-VL-450M: структурированный визуальный интеллект - 5

Ритейл и электронная коммерция : При обработке миллионов изображений товаров требуются минимальные затраты на один запрос. LFM2.5-VL-450M подходит для автоматизации каталогов, визуального поиска и контроля выкладки товаров на полках при высокой нагрузке.

LFM2.5-VL-450M: структурированный визуальный интеллект - 6

Автор: Qwertcoser

Источник