- BrainTools - https://www.braintools.ru -

Исследователи представили LFM2-VL-3B — новую мультимодальную модель, которая показывает результаты уровня средних гигантов при объёме всего 3 миллиарда параметров.
На тестах MM-IFEval (способность следовать инструкциям) модель получила 51,8%, а на RealWorldQA (понимание реальных сцен и объектов) — 71,4%, что сопоставимо с моделями в 7–10 раз крупнее.

Она одинаково хорошо справляется с задачами визуального анализа, OCR, распознавания текста и мультиизображений. Главное — она не галлюцинирует. На тесте POPE уровень вымышленных фактов минимален.

Модель уже выложена на Hugging Face [1], где разработчики отмечают, что LFM2-VL-3B может работать даже на одном GPU — идеальный вариант для стартапов и исследовательских лабораторий без огромных ресурсов.
Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News [2].
Автор: cognitronn
Источник [3]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/21065
URLs in this post:
[1] Hugging Face: https://huggingface.co/LiquidAI/LFM2-VL-3B
[2] BotHub AI News: https://t.me/bothub
[3] Источник: https://habr.com/ru/companies/bothub/news/959414/?utm_source=habrahabr&utm_medium=rss&utm_campaign=959414
Нажмите здесь для печати.