Microsoft выпустила мультимодальную версию Phi-4. microsoft research.. microsoft research. Phi-4-Vision-Reasoning.. microsoft research. Phi-4-Vision-Reasoning. VL-задачи.. microsoft research. Phi-4-Vision-Reasoning. VL-задачи. Блог компании BotHub.. microsoft research. Phi-4-Vision-Reasoning. VL-задачи. Блог компании BotHub. ИИ.. microsoft research. Phi-4-Vision-Reasoning. VL-задачи. Блог компании BotHub. ИИ. ии и машинное обучение.. microsoft research. Phi-4-Vision-Reasoning. VL-задачи. Блог компании BotHub. ИИ. ии и машинное обучение. ии-агенты.. microsoft research. Phi-4-Vision-Reasoning. VL-задачи. Блог компании BotHub. ИИ. ии и машинное обучение. ии-агенты. искусственный интеллект.. microsoft research. Phi-4-Vision-Reasoning. VL-задачи. Блог компании BotHub. ИИ. ии и машинное обучение. ии-агенты. искусственный интеллект. Машинное обучение.. microsoft research. Phi-4-Vision-Reasoning. VL-задачи. Блог компании BotHub. ИИ. ии и машинное обучение. ии-агенты. искусственный интеллект. Машинное обучение. мультимодальная модель.

Microsoft Research анонсировала новую модель в своей линейке компактных языковых моделей — Phi-4-Vision-Reasoning. Это мультимодальная модель, которая не просто распознает изображения, но и способна проводить сложные рассуждения на основе визуальных данных. Главная цель разработчиков заключалась в том, чтобы преодолеть типичные недостатки крупных мультимодальных систем — их медлительность, высокую стоимость использования и сложности при внедрении. Новая модель стремится объединить эффективность небольших моделей с аналитическими способностями, ранее доступными только гигантам индустрии.

Microsoft выпустила мультимодальную версию Phi-4 - 1

Индустрия искусственного интеллекта движется в двух, казалось бы, противоположных направлениях. С одной стороны, мы видим гонку за созданием всё более огромных моделей (как GPT-4 или Gemini Ultra), которые требуют колоссальных вычислительных мощностей. С другой стороны, растет спрос на «малые языковые модели», которые можно запускать локально на устройствах пользователей или с минимальными затратами в облаке.

Семейство моделей Phi от Microsoft зарекомендовало себя как лидер в нише компактных решений. Предыдущие версии (Phi-1, Phi-2, Phi-3) показывали удивительно высокие результаты на бенчмарках, несмотря на скромное количество параметров, благодаря использованию синтетических данных высокого качества для обучения. Теперь Microsoft делает следующий шаг, добавляя к этому «визуальный интеллект» и способность к пошаговым рассуждениям.

Performance charts comparing Phi-4-Reasoning-Vision-15B against other models (Kimi-VL, Qwen-3, Gemma-3) on accuracy vs. response time and accuracy vs. completion tokens. Phi-4 stands out as being fast and token-efficient while achieving ~75% accuracy.

Performance charts comparing Phi-4-Reasoning-Vision-15B against other models (Kimi-VL, Qwen-3, Gemma-3) on accuracy vs. response time and accuracy vs. completion tokens. Phi-4 stands out as being fast and token-efficient while achieving ~75% accuracy.

Детали

Ключевая особенность Phi-4-Vision-Reasoning заключается в интеграции двух важных компонентов:

  1. Мультимодальность. Способность модели воспринимать и обрабатывать не только текст, но и изображения. Это критически важно для задач, где требуется анализ графиков, диаграмм, пользовательских интерфейсов или сцен из реального мира.

  2. Рассуждение. Модель обучена выстраивать логические цепочки. Это не просто выдача наиболее вероятного следующего слова, а попытка имитировать процесс мышления, разбивая сложную задачу на подзадачи.

Разработчики подчеркивают, что объединение этих навыков в компактной архитектуре позволяет снизить задержку (latency) при генерации ответов и сделать передовые технологии доступнее для широкого круга разработчиков и компаний.

Анализ

A physics problem about spring-mass systems, with two diagrams. The model correctly works through the spring constant relationships and arrives at answer B (0.433s).
A physics problem about spring-mass systems, with two diagrams. The model correctly works through the spring constant relationships and arrives at answer B (0.433s).

Появление Phi-4-Vision-Reasoning сигнализирует о важном сдвиге в приоритетах крупных игроков. Если раньше фокус был смещен на «сырую мощь» и объем знаний модели, то теперь на первый план выходят эффективность и специализация. Компактные модели с навыками рассуждения открывают дорогу для создания действительно умных агентов, работающих на периферийных устройствах (edge devices) — от смартфонов до промышленных роботов.

Это также решает проблему стоимости. Запуск огромной модели для каждой задачи часто экономически нецелесообразен. Небольшая, но «умная» модель, способная видеть и думать, может стать идеальным решением для автоматизации рутинных бизнес-процессов, где требуется анализ документов или визуальный контроль качества.

Перспектива

В ближайшем будущем мы увидим усиление конкуренции в сегменте малых мультимодальных моделей. Успех Phi-4 может подтолкнуть другие лаборатории (например, Google с их Gemma или Meta с Llama) к выпуску аналогичных специализированных версий.

Главный вопрос, который предстоит решить индустрии, — насколько надежными могут быть рассуждения в моделях с ограниченным числом параметров. Если Microsoft удастся доказать, что «маленький мозг» может рассуждать так же логично, как и большой, это кардинально изменит архитектуру будущих AI-систем, сместив баланс от облачных вычислений к локальной обработке данных.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Автор: mefdayy

Источник

Rambler's Top100