- BrainTools - https://www.braintools.ru -

LFM2.5-VL-450M: структурированный визуальный интеллект

Выпущена модель LFM2.5-VL-450M. Это обновленная версия LFM2-VL-450M, в которую добавили функции заземления, улучшенное следование инструкциям и поддержку вызова функций. Модель преобразует видеопоток в структурированные данные в реальном времени на локальных устройствах.

LFM2.5-VL-450M: структурированный визуальный интеллект - 1

LFM2.5-VL-450M доступна на Hugging Face [1], LEAP [2] и в Playground [3]. Инструкции по локальному запуску и дообучению находятся в документации [4].

P.S Если вам интересна тема AI-агентов и внедрения нейросетей, заглядывайте в мой Telegram-канал ДругОпенсурса [5]. Там я публикую свежие новости и разборы инструментов в числе первых.

Что изменилось

Объем данных для предварительного обучения [6] увеличили с 10 трлн до 28 трлн токенов. После этого провели дополнительное обучение с использованием оптимизации предпочтений и обучения с подкреплением [7]. Это было нужно для улучшения работы в реальных условиях эксплуатации.

Распознавание объектов : Показатель RefCOCO-M вырос до 81.28. Модель теперь находит объекты на изображении и выделяет их ограничивающими рамками

Многоязычное понимание изображений : Результат в тесте MMMB увеличился с 54.29 до 68.09. Поддерживаются арабский, китайский, французский, немецкий, японский, корейский, португальский и испанский языки. Модель обрабатывает запросы на этих языках без использования сторонних инструментов локализации.

Следование инструкциям : Показатель MM-IFEval вырос с 32.93 до 45.00. Модель точнее соблюдает заданные ограничения и текстовые команды.

LFM2.5-VL-450M: структурированный визуальный интеллект - 2

LFM2.5-VL-450M протестировали на задачах визуального понимания, обнаружения объектов и логического вывода. Результаты выше, чем у версии LFM2-VL-450M. Также добавлена поддержка вызова функций (тест BFCLv4).

Производительность

Модель предназначена для работы с видеокамерами и изображениями в условиях ограниченного времени на обработку. LFM2.5-VL-450M (в квантовании Q4_0) работает на модулях Jetson Orin, процессорах Ryzen AI Max+ 395 и мобильных чипах Snapdragon 8 Elite.

LFM2.5-VL-450M: структурированный визуальный интеллект - 3

На Jetson Orin обработка изображения размером 512×512 занимает менее 250 мс. Это позволяет анализировать видеопоток с частотой 4 кадра в секунду. На мобильных процессорах время обработки составляет менее одной секунды для низких разрешений.

Варианты использования

Промышленная автоматизация :  В автомобилях, сельхозтехнике и на складах вычислительные ресурсы ограничены. LFM2.5-VL-450M позволяет не только находить объекты, но и описывать действия рабочих, движение погрузчиков и перемещение товаров на оборудовании уровня Jetson Orin.

LFM2.5-VL-450M: структурированный визуальный интеллект - 4

Носимые устройства и мониторинг : Смарт-очки, видеорегистраторы и системы безопасности имеют жесткие ограничения по питанию и конфиденциальности. Модель обрабатывает видео локально, превращая его в структурированные данные без передачи в облако.

LFM2.5-VL-450M: структурированный визуальный интеллект - 5

Ритейл и электронная коммерция : При обработке миллионов изображений товаров требуются минимальные затраты на один запрос. LFM2.5-VL-450M подходит для автоматизации каталогов, визуального поиска и контроля выкладки товаров на полках при высокой нагрузке.

LFM2.5-VL-450M: структурированный визуальный интеллект - 6

Автор: Qwertcoser

Источник [8]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/28548

URLs in this post:

[1] Hugging Face: https://huggingface.co/LiquidAI/LFM2.5-VL-450M

[2] LEAP: https://leap.liquid.ai/models?model=lfm2.5-vl-450m

[3] Playground: https://playground.liquid.ai/login?callbackUrl=%2Fchat%3Fmodel%3Dlfm2.5-vl-450m

[4] документации: https://docs.liquid.ai/examples/customize-models/satellite-vlm

[5] ДругОпенсурса: https://t.me/tch_net

[6] обучения: http://www.braintools.ru/article/5125

[7] подкреплением: http://www.braintools.ru/article/5528

[8] Источник: https://habr.com/ru/news/1021242/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1021242

www.BrainTools.ru

Rambler's Top100