VL-задачи.

Microsoft выпустила мультимодальную версию Phi-4

Microsoft Research анонсировала новую модель в своей линейке компактных языковых моделей — Phi-4-Vision-Reasoning. Это мультимодальная модель, которая не просто распознает изображения, но и способна проводить сложные рассуждения на основе визуальных данных. Главная цель разработчиков заключалась в том, чтобы преодолеть типичные недостатки крупных мультимодальных систем — их медлительность, высокую стоимость использования и сложности при внедрении. Новая модель стремится объединить эффективность небольших моделей с аналитическими способностями, ранее доступными только гигантам индустрии.

продолжить чтение

Rambler's Top100