мультимодальная модель.

Microsoft выпустила мультимодальную версию Phi-4

Microsoft Research анонсировала новую модель в своей линейке компактных языковых моделей — Phi-4-Vision-Reasoning. Это мультимодальная модель, которая не просто распознает изображения, но и способна проводить сложные рассуждения на основе визуальных данных. Главная цель разработчиков заключалась в том, чтобы преодолеть типичные недостатки крупных мультимодальных систем — их медлительность, высокую стоимость использования и сложности при внедрении. Новая модель стремится объединить эффективность небольших моделей с аналитическими способностями, ранее доступными только гигантам индустрии.

продолжить чтение

Мультимодальная модель Qwen2.5-VL-32B: успехи в понимании медиа и математических задачах

Компания Alibaba представила свою новейшую мультимодальную модель искусственного интеллекта Qwen2.5-VL-32B, выпущенную под лицензией Apache 2.0. Предварительные тесты показывают, что эта модель превосходит более крупных конкурентов, таких как Gemma 3-27B и Mistral Small 3.1 24B. В некоторых тестах он даже превосходит собственный Qwen2-VL-72B от Alibaba и более старые версии 

продолжить чтение