
Исследователи представили LFM2-VL-3B — новую мультимодальную модель, которая показывает результаты уровня средних гигантов при объёме всего 3 миллиарда параметров.
На тестах MM-IFEval (способность следовать инструкциям) модель получила 51,8%, а на RealWorldQA (понимание реальных сцен и объектов) — 71,4%, что сопоставимо с моделями в 7–10 раз крупнее.

Она одинаково хорошо справляется с задачами визуального анализа, OCR, распознавания текста и мультиизображений. Главное — она не галлюцинирует. На тесте POPE уровень вымышленных фактов минимален.

Модель уже выложена на Hugging Face, где разработчики отмечают, что LFM2-VL-3B может работать даже на одном GPU — идеальный вариант для стартапов и исследовательских лабораторий без огромных ресурсов.
Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News.
Автор: cognitronn


