Тестируем особенности искусственного интеллекта: o3, GPT-4.1 и o4-mini

Искусственный интеллект ^[1] в последнее время постоянно радует нас разными новостями и новыми моделями. Команда VK Tech перевела статью со сравнением трех новых моделей — это поможет понять, какую же использовать для каких задач и чем модели по-настоящему отличаются друг от друга. Дальше передаем слово авторам оригинальной статьи.

o3: самая мощная рассуждающая модель OpenAI

o3 — первая модель, которой директор Every Дан Шиппер так восхищался ^[2] со времен GPT‑4 ^[3] в 2023 году. Она не просто использует инструменты, как GPT-4o ^[4], или видит картинки — она осмысливает увиденное.

Основные преимущества

Использование инструментов. o3 знает, как работать с инструментами, сочетать их друг с другом и жонглировать ими. Допустим, вы загрузили график продаж за месяц. Модель может извлечь данные с помощью OCR, написать на Python расчет динамики от года к году и найти отраслевые бенчмарки, чтобы добавить в результаты контекст, одним махом. Ей по силам вызвать до 600 инструментов за один ответ, по ходу дела исправить недостатки и переориентироваться, если что-то пойдет не так. Это самоуправляемый аналитик со швейцарским армейским ножом, и он точно знает, какое лезвие для чего.

Рассуждение по визуальным данным. Она изучает реальный контекст изображений. Другие модели говорят: «Это картина женщины». А o3 разглядывает изображение крупным планом, считывает подпись художника, ищет музей, в котором выставлена картина, и выдает вам историю художественного направления, к которому она относится.

GPT-4.1: максимум точности без самовольных настроений

Пока что модель 4.1 доступна только разработчикам через API. Она предназначена для выполнения подробных инструкций с неотвратимой точностью. Она не столь мечтательная, как ее предшественники, например 4.5 ^[5], зато она более структурированная, надежная и системная. Эдакая рабочая лошадка OpenAI для программистских задач, а не творческих изысканий.

Основные преимущества:

Выполняет сложные инструкции. GPT-4.1 справляется с указаниями как бывалый штурман. Допустим, вы пишете код для кулинарного приложения. За один промпт можно попросить ее отформатировать ответ в Markdown, избегать определенных тем, выдать последовательность приготовления блюд в указанном порядке и всегда показывать ключевые метрики, например содержание натрия. Предыдущие модели периодические спотыкались или пропускали этапы. Но 4.1 строго придерживается плана местности — даже если ей предстоит длинная извилистая дорога с кочками и оврагами.

Она не сбивается с пути. В предыдущих моделях память ^[6] поддерживала 128 000 токенов. В этой память увеличилась до 1 миллиона токенов, так что можно один раз настроить тон или структуру и эти настройки будут сохраняться на протяжении нескольких ответов. И не нужно каждый раз начинать с нуля.

Акцент на структуре. GPT-4.1 — как друг, вместе с которым прикольно путешествовать и смотреть окрестности, но только если у вас есть план. Выдайте ему понятный путеводитель, и он пройдет по маршруту максимально точно. Но если промпт будет ни о чем, нечто вроде «А можешь сделать так, чтобы это кулинарное приложение по своей ауре напоминало подпольный бар?» — ваш приятель развернется и поедет домой. Чем точнее карта, тем лучше поездка.

o4-mini: маленькая, проницательная и на удивление способная

Модель o4-mini — пока что последняя в o-series, линейке рассуждающих моделей OpenAI, которые сначала долго думают, а потом отвечают. Ее доработали и с количественной, и с качественной точки зрения ^[7]. У o3 лимит сообщений для пользователя составлял 50 сообщений в неделю, у o4-mini — 150 сообщений в день. При этом ее производительность практически соответствует уровню o3, особенно в области математики ^[8], программирования и интенсивной работы с изображениями. Работает она быстро и в разы дешевле. o3 — самая мощная рассуждающая модель OpenAI. А o4-mini — ваш походный вариант, когда нужно использовать большинство плюшек o3, но в девять раз дешевле. Это совсем не мини-разница.

Тестируем особенности искусственного интеллекта: o3, GPT-4.1 и o4-mini - 2

Основные преимущества

Очень мощная для своих размеров. Нужно проанализировать тонны расшифровок или сделать конспект захламленных таблиц с материалами исследований? o4-mini влегкую справляется с запросами на обработку больших объемов информации: отфильтрует самое важное, напишет на языке структурированных запросов, найдет данные и нанесет результаты на интерактивный график. Там, где o3 истратит с десяток этапов рассуждения — и выставит соответствующий счет в потраченных токенах, o4-mini берется за дело и выдает четкий, годный ответ, основанный на адекватных рассуждениях.

Тестируем особенности искусственного интеллекта: o3, GPT-4.1 и o4-mini - 3

Тестируем особенности искусственного интеллекта: o3, GPT-4.1 и o4-mini - 4

Инструменты те же, результаты лучше. o4-mini поддерживает полный набор инструментов модели o3, включая Python, поиск в интернете, анализ и генерацию изображений и еще много чего. Она отлично справляется с задачами вроде подготовки еженедельной аналитической сводки: найти CSV, запустить Python, чтобы очистить и упорядочить данные, найти в интернете обобщенную отраслевую информацию для полноты картины и подготовить отчет в Markdown. Все это она делает одним махом и тратит гораздо меньше ресурсов по сравнению с o3.

Что все мы в Every думаем о…

o3

o3 думает, как промпт-инженер. «o3 — отличный ИИ-помощник. Похоже, она хорошо представляет себе, как работают LLM и разные инструменты и приемы, которые сегодня в ходу. Другие модели обычно применяют для ответов традиционные приемы обработки естественного языка — o3 отвечает приемами, которые вы используете для работы с LLM», — Дэнни Азиз ^[9], генеральный менеджер Spiral ^[10].

o3 — пока что лучшая модель-учитель. «o3 написала для меня просто изумительные руководства по Rails — это однозначно лучшая модель-учитель. Я впервые почувствовал, что модель на самом деле понимает мой уровень понимания и может написать статью конкретно для меня», — Нитиш Агарвал ^[11], разработчик в Cora ^[12].

4.1

Только дела, никакого «вайба». «Вот почему она мне так нравится. Это модель для разработчиков, без понтов. Как GPT-4, только лучше», — Киран Клаассен ^[13], генеральный менеджер Cora.

Точные данные на входе — достойный результат на выходе. «4.1 качественно работает, когда получает по-настоящему конкретные инструкции. Ей не очень хорошо даются допущения, зато она отлично пишет код. Для одних подходит, для других — не очень», — Алекс Даффи ^[14], руководитель отдела консалтинга и штатный обозреватель.

Структура получше, элегантность похуже. «По сравнению с другими моделями, которые я пробовал, 4.1 OpenAI — большой шаг вперед. От предыдущих моделей веяло ленцой, как будто им не хотелось писать код. Теперь все работает. Но результат все еще не идеальный: в плане удобочитаемости и структуры качество ниже, чем у Claude», — Андрей Галко, разработчик.

Наконец-то модель 4.1 может потеснить Sonnet на пьедестале взаимодействия с пользователями. «Обожаю 4.1 за UI-задачи. Вполне возможно, моей дружбе с Sonnet 3.5 настал конец. За один раз сделал UI с помощью 4.1», — Яш Пуджари ^[15], генеральный менеджер Sparkle ^[16].

Но в Cursor Gemini все еще в лидерах. «По мне, в Cursor Gemini 2.5 Pro гораздо лучше 4.1. Правда, в Windsurf я ее еще не пробовал», — Дэнни Азиз.

… o4-mini

o4-mini — это виртуоз обработки визуальных данных. «В Windsurf o4-mini-high приходит на смену 3.7 Sonnet для решения thinking tasks. Она точнее генерирует код, и, хотя работает помедленнее, в конечном счете она выдает результаты быстрее, потому что успевает сделать больше за один раз», — Нитиш Агарвал.

«Я выяснил, что o4-mini хорошо справляется с преобразованием в текст изображения судоку. Ни одна другая модель с этим не справилась», — Дэн.

Что все остальные думают о…

o3

o3 OpenAI: AGI подкрался незаметно? Экономист Тайлер Коувен спросил прямо ^[17]: «Это AGI?» Его выводы: «Если o3 не AGI, то чего вообще ждать?» В то же время он не ожидает какого-то перевозбуждения на рынках в ответ на это заявление. «Мы еще очень нескоро научимся правильно его использовать».

o3 правильно ловит корпоративные нюансы. Как говорит президент Box Аарон Леви, o3 великолепно справилась с многоэтапной задачей финансового моделирования, для решения которой требовались математика, логика ^[18] и понимание нюансов бизнес-контекста ^[19] — еще год назад это не было по силам ни одной модели.

4.1

Дело не только в решении задач, но и во взаимодействии с людьми. Рио Лу, глава дизайнерского подразделения Cursor, сравнивает LLM ^[20] с сотрудниками: Gemini — это старший разработчик, которого надо время от времени поторапливать, Claude 3.7 — ботаник-тугодум, а GPT-4.1/o3 «начинает понимать, что суть программирования не в бенчмарках».

O3 поднимает планку Agentic Reasoning. Президент Scale AI Александр Ванг назвал o3 ^[21] значительным шагом вперед в развитии отрасли, подчеркнув, что беспроблемное самоуправляемое использование инструментов — это большой прорыв.

Рассуждает меньше, выполняет инструкции лучше, пишет код быстрее. По мнению Клива Чена, технического специалиста OpenAI, 4.1 пишет код гораздо быстрее, чем o3-mini ^[22], потому что она меньше рассуждает ^[23]: «4.1 практически заменила мне o3-mini во всех рабочих процессах (Cursor и т. п.)».

o4-mini

o4-mini превосходит 4.1 по долгосрочной памяти. Даниэль Чалеф, основатель компании Zep, поставщика памяти для ИИ-агентов, протестировал обе модели ^[24] с помощью бенчмарка LongMemEval ^[25], предназначенного для оценки долгосрочной памяти чат-ассистентов. Он обнаружил, что по точности рассуждений o4-mini вышла на первые позиции, а GPT-4.1 спотыкалась, несмотря на массивное контекстное окно: «Не все сводится к размеру необработанного контекста».

Она превосходит o3 в Vision. Инсайдер из OpenAI говорит ^[26], что как модель технического зрения o4-mini намного лучше, чем o3. Это заявление совпадает с результатами судоку-теста, который проводил Дэн: «Я работаю в OpenAI. На самом деле как модель технического зрения o4-mini значительно превосходит o3, несмотря на бенчмарки».

Она очень быстро справляется со сложными математическими вычислениями. Скотт Свингл, основатель компании-разработчика Abante AI, а еще ранее Deepmind, задал o4-mini одну из новых задач из проекта Эйлера ^[27] (сложные задачи по математике и компьютерному программированию ^[28], которые решают люди со всего мира). Она справилась с задачей за 2 минуты и 55 секунд. А каков рекорд человека? 5 минут и 15 секунд: «Я поражен. Я знал, что рано или поздно этот день настанет, но все же. Я время от времени решал эти задачи и иногда даже входил в десятку лидеров, так что я знаю, насколько это трудно».

o3 рассуждает тяжеловесно, а o4-mini — быстро и однозначно. Анонимный разработчик задал o4-mini и o3 задачу по математике ^[29]. И выяснил, что o4-mini выдает более удобочитаемое и элегантное решение, а o3 — более сложное решение с таблицами. По-видимому, она вообще неравнодушна ^[30] к таблицам.

Как новые инструменты смотрятся на фоне конкурентов

4.1 vs Claude 3.7 Sonnet

По результатам нашего тестирования, Claude все еще впереди по элегантности и структуре кода, особенно когда речь идет о согласованности стиля и UI. Но у нас был пробел с моделями для выполнения инструкций, и 4.1 заполнила эту лакуну. Она отлично справляется с этой задачей, особенно если ей дать конкретный промпт адекватного объема.

o4-mini vs GPT-3.5

Исходя из того, что мы успели увидеть, o4-mini становится новой «бюджетной моделью» на все случаи жизни для разработчиков, которым нужна скорость, надежность и обработка видео за небольшую плату. Модель GPT-3.5, которую выпустили в ноябре 2022 года, уже начинает казаться технологией далекого прошлого.

————————————————————————————————————————–

Подписывайтесь на канал Данные на стероидах ^[31]. Дайджесты мира Data и ML, а также практики и подходы для извлечения максимальной пользы из работы с данными.

Автор: levashove

Источник ^[32]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/15184

URLs in this post:

[1] интеллект: http://www.braintools.ru/article/7605

[2] так восхищался: https://every.to/chain-of-thought/vibe-check-o3-is-out-and-it-s-great

[3] GPT‑4: https://every.to/chain-of-thought/gpt-4-is-a-reasoning-engine

[4] GPT-4o: https://every.to/chain-of-thought/gpt-4o-and-openai-s-race-to-win-consumers

[5] например 4.5: https://every.to/chain-of-thought/gpt-4-5-won-t-blow-your-mind-it-might-befriend-it-instead

[6] память: http://www.braintools.ru/article/4140

[7] зрения: http://www.braintools.ru/article/6238

[8] математики: http://www.braintools.ru/article/7620

[9] Дэнни Азиз: https://every.to/source-code/i-left-my-job-to-run-an-ai-wrapper-at-every

[10] Spiral: https://spiral.computer/

[11] Нитиш Агарвал: https://x.com/nityeshaga

[12] Cora: https://cora.computer/

[13] Киран Клаассен: https://x.com/kieranklaassen

[14] Алекс Даффи: https://every.to/@AlxAi

[15] Яш Пуджари: https://x.com/poojary_yash

[16] Sparkle: https://makeitsparkle.co/

[17] спросил прямо: https://marginalrevolution.com/marginalrevolution/2025/04/o3-and-agi-is-april-16th-agi-day.html

[18] логика: http://www.braintools.ru/article/7640

[19] нюансов бизнес-контекста: https://x.com/levie/status/1912928672581038290

[20] сравнивает LLM: https://x.com/ryolu_/status/1912601322651807864

[21] назвал o3: https://x.com/alexandr_wang/status/1913095522304532573

[22] o3-mini: https://every.to/context-window/high-agency-and-great-ai-expectations

[23] меньше рассуждает: https://x.com/itsclivetime/status/1911897656089301185

[24] протестировал обе модели: https://x.com/danielchalef/status/1912880985412161588

[25] LongMemEval: https://xiaowu0162.github.io/long-mem-eval/

[26] Инсайдер из OpenAI говорит: https://news.ycombinator.com/item?id=43707719%2343711155

[27] задал o4-mini одну из новых задач из проекта Эйлера: https://x.com/bio_bootloader/status/1912566454823870801

[28] задачи по математике и компьютерному программированию: https://projecteuler.net/

[29] задал o4-mini и o3 задачу по математике: https://x.com/bantg/status/1912907894690824246

[30] неравнодушна: https://x.com/NickADobos/status/1912931939579007352

[31] Данные на стероидах: https://t.me/+MVwyEOCOi6pkY2My

[32] Источник: https://habr.com/ru/companies/vktech/articles/909326/?utm_source=habrahabr&utm_medium=rss&utm_campaign=909326

Нажмите здесь для печати.