- BrainTools - https://www.braintools.ru -

Искусственный интеллект [1] в последнее время постоянно радует нас разными новостями и новыми моделями. Команда VK Tech перевела статью со сравнением трех новых моделей — это поможет понять, какую же использовать для каких задач и чем модели по-настоящему отличаются друг от друга. Дальше передаем слово авторам оригинальной статьи.
o3 — первая модель, которой директор Every Дан Шиппер так восхищался [2] со времен GPT‑4 [3] в 2023 году. Она не просто использует инструменты, как GPT-4o [4], или видит картинки — она осмысливает увиденное.
Использование инструментов. o3 знает, как работать с инструментами, сочетать их друг с другом и жонглировать ими. Допустим, вы загрузили график продаж за месяц. Модель может извлечь данные с помощью OCR, написать на Python расчет динамики от года к году и найти отраслевые бенчмарки, чтобы добавить в результаты контекст, одним махом. Ей по силам вызвать до 600 инструментов за один ответ, по ходу дела исправить недостатки и переориентироваться, если что-то пойдет не так. Это самоуправляемый аналитик со швейцарским армейским ножом, и он точно знает, какое лезвие для чего.
Рассуждение по визуальным данным. Она изучает реальный контекст изображений. Другие модели говорят: «Это картина женщины». А o3 разглядывает изображение крупным планом, считывает подпись художника, ищет музей, в котором выставлена картина, и выдает вам историю художественного направления, к которому она относится.
Пока что модель 4.1 доступна только разработчикам через API. Она предназначена для выполнения подробных инструкций с неотвратимой точностью. Она не столь мечтательная, как ее предшественники, например 4.5 [5], зато она более структурированная, надежная и системная. Эдакая рабочая лошадка OpenAI для программистских задач, а не творческих изысканий.
Выполняет сложные инструкции. GPT-4.1 справляется с указаниями как бывалый штурман. Допустим, вы пишете код для кулинарного приложения. За один промпт можно попросить ее отформатировать ответ в Markdown, избегать определенных тем, выдать последовательность приготовления блюд в указанном порядке и всегда показывать ключевые метрики, например содержание натрия. Предыдущие модели периодические спотыкались или пропускали этапы. Но 4.1 строго придерживается плана местности — даже если ей предстоит длинная извилистая дорога с кочками и оврагами.
Она не сбивается с пути. В предыдущих моделях память [6] поддерживала 128 000 токенов. В этой память увеличилась до 1 миллиона токенов, так что можно один раз настроить тон или структуру и эти настройки будут сохраняться на протяжении нескольких ответов. И не нужно каждый раз начинать с нуля.
Акцент на структуре. GPT-4.1 — как друг, вместе с которым прикольно путешествовать и смотреть окрестности, но только если у вас есть план. Выдайте ему понятный путеводитель, и он пройдет по маршруту максимально точно. Но если промпт будет ни о чем, нечто вроде «А можешь сделать так, чтобы это кулинарное приложение по своей ауре напоминало подпольный бар?» — ваш приятель развернется и поедет домой. Чем точнее карта, тем лучше поездка.
Модель o4-mini — пока что последняя в o-series, линейке рассуждающих моделей OpenAI, которые сначала долго думают, а потом отвечают. Ее доработали и с количественной, и с качественной точки зрения [7]. У o3 лимит сообщений для пользователя составлял 50 сообщений в неделю, у o4-mini — 150 сообщений в день. При этом ее производительность практически соответствует уровню o3, особенно в области математики [8], программирования и интенсивной работы с изображениями. Работает она быстро и в разы дешевле. o3 — самая мощная рассуждающая модель OpenAI. А o4-mini — ваш походный вариант, когда нужно использовать большинство плюшек o3, но в девять раз дешевле. Это совсем не мини-разница.

Очень мощная для своих размеров. Нужно проанализировать тонны расшифровок или сделать конспект захламленных таблиц с материалами исследований? o4-mini влегкую справляется с запросами на обработку больших объемов информации: отфильтрует самое важное, напишет на языке структурированных запросов, найдет данные и нанесет результаты на интерактивный график. Там, где o3 истратит с десяток этапов рассуждения — и выставит соответствующий счет в потраченных токенах, o4-mini берется за дело и выдает четкий, годный ответ, основанный на адекватных рассуждениях.


Инструменты те же, результаты лучше. o4-mini поддерживает полный набор инструментов модели o3, включая Python, поиск в интернете, анализ и генерацию изображений и еще много чего. Она отлично справляется с задачами вроде подготовки еженедельной аналитической сводки: найти CSV, запустить Python, чтобы очистить и упорядочить данные, найти в интернете обобщенную отраслевую информацию для полноты картины и подготовить отчет в Markdown. Все это она делает одним махом и тратит гораздо меньше ресурсов по сравнению с o3.
o3 думает, как промпт-инженер. «o3 — отличный ИИ-помощник. Похоже, она хорошо представляет себе, как работают LLM и разные инструменты и приемы, которые сегодня в ходу. Другие модели обычно применяют для ответов традиционные приемы обработки естественного языка — o3 отвечает приемами, которые вы используете для работы с LLM», — Дэнни Азиз [9], генеральный менеджер Spiral [10].
o3 — пока что лучшая модель-учитель. «o3 написала для меня просто изумительные руководства по Rails — это однозначно лучшая модель-учитель. Я впервые почувствовал, что модель на самом деле понимает мой уровень понимания и может написать статью конкретно для меня», — Нитиш Агарвал [11], разработчик в Cora [12].
Только дела, никакого «вайба». «Вот почему она мне так нравится. Это модель для разработчиков, без понтов. Как GPT-4, только лучше», — Киран Клаассен [13], генеральный менеджер Cora.
Точные данные на входе — достойный результат на выходе. «4.1 качественно работает, когда получает по-настоящему конкретные инструкции. Ей не очень хорошо даются допущения, зато она отлично пишет код. Для одних подходит, для других — не очень», — Алекс Даффи [14], руководитель отдела консалтинга и штатный обозреватель.
Структура получше, элегантность похуже. «По сравнению с другими моделями, которые я пробовал, 4.1 OpenAI — большой шаг вперед. От предыдущих моделей веяло ленцой, как будто им не хотелось писать код. Теперь все работает. Но результат все еще не идеальный: в плане удобочитаемости и структуры качество ниже, чем у Claude», — Андрей Галко, разработчик.
Наконец-то модель 4.1 может потеснить Sonnet на пьедестале взаимодействия с пользователями. «Обожаю 4.1 за UI-задачи. Вполне возможно, моей дружбе с Sonnet 3.5 настал конец. За один раз сделал UI с помощью 4.1», — Яш Пуджари [15], генеральный менеджер Sparkle [16].

Но в Cursor Gemini все еще в лидерах. «По мне, в Cursor Gemini 2.5 Pro гораздо лучше 4.1. Правда, в Windsurf я ее еще не пробовал», — Дэнни Азиз.
o4-mini — это виртуоз обработки визуальных данных. «В Windsurf o4-mini-high приходит на смену 3.7 Sonnet для решения thinking tasks. Она точнее генерирует код, и, хотя работает помедленнее, в конечном счете она выдает результаты быстрее, потому что успевает сделать больше за один раз», — Нитиш Агарвал.
«Я выяснил, что o4-mini хорошо справляется с преобразованием в текст изображения судоку. Ни одна другая модель с этим не справилась», — Дэн.
o3 OpenAI: AGI подкрался незаметно? Экономист Тайлер Коувен спросил прямо [17]: «Это AGI?» Его выводы: «Если o3 не AGI, то чего вообще ждать?» В то же время он не ожидает какого-то перевозбуждения на рынках в ответ на это заявление. «Мы еще очень нескоро научимся правильно его использовать».
o3 правильно ловит корпоративные нюансы. Как говорит президент Box Аарон Леви, o3 великолепно справилась с многоэтапной задачей финансового моделирования, для решения которой требовались математика, логика [18] и понимание нюансов бизнес-контекста [19] — еще год назад это не было по силам ни одной модели.
Дело не только в решении задач, но и во взаимодействии с людьми. Рио Лу, глава дизайнерского подразделения Cursor, сравнивает LLM [20] с сотрудниками: Gemini — это старший разработчик, которого надо время от времени поторапливать, Claude 3.7 — ботаник-тугодум, а GPT-4.1/o3 «начинает понимать, что суть программирования не в бенчмарках».
O3 поднимает планку Agentic Reasoning. Президент Scale AI Александр Ванг назвал o3 [21] значительным шагом вперед в развитии отрасли, подчеркнув, что беспроблемное самоуправляемое использование инструментов — это большой прорыв.
Рассуждает меньше, выполняет инструкции лучше, пишет код быстрее. По мнению Клива Чена, технического специалиста OpenAI, 4.1 пишет код гораздо быстрее, чем o3-mini [22], потому что она меньше рассуждает [23]: «4.1 практически заменила мне o3-mini во всех рабочих процессах (Cursor и т. п.)».
o4-mini превосходит 4.1 по долгосрочной памяти. Даниэль Чалеф, основатель компании Zep, поставщика памяти для ИИ-агентов, протестировал обе модели [24] с помощью бенчмарка LongMemEval [25], предназначенного для оценки долгосрочной памяти чат-ассистентов. Он обнаружил, что по точности рассуждений o4-mini вышла на первые позиции, а GPT-4.1 спотыкалась, несмотря на массивное контекстное окно: «Не все сводится к размеру необработанного контекста».
Она превосходит o3 в Vision. Инсайдер из OpenAI говорит [26], что как модель технического зрения o4-mini намного лучше, чем o3. Это заявление совпадает с результатами судоку-теста, который проводил Дэн: «Я работаю в OpenAI. На самом деле как модель технического зрения o4-mini значительно превосходит o3, несмотря на бенчмарки».
Она очень быстро справляется со сложными математическими вычислениями. Скотт Свингл, основатель компании-разработчика Abante AI, а еще ранее Deepmind, задал o4-mini одну из новых задач из проекта Эйлера [27] (сложные задачи по математике и компьютерному программированию [28], которые решают люди со всего мира). Она справилась с задачей за 2 минуты и 55 секунд. А каков рекорд человека? 5 минут и 15 секунд: «Я поражен. Я знал, что рано или поздно этот день настанет, но все же. Я время от времени решал эти задачи и иногда даже входил в десятку лидеров, так что я знаю, насколько это трудно».
o3 рассуждает тяжеловесно, а o4-mini — быстро и однозначно. Анонимный разработчик задал o4-mini и o3 задачу по математике [29]. И выяснил, что o4-mini выдает более удобочитаемое и элегантное решение, а o3 — более сложное решение с таблицами. По-видимому, она вообще неравнодушна [30] к таблицам.
По результатам нашего тестирования, Claude все еще впереди по элегантности и структуре кода, особенно когда речь идет о согласованности стиля и UI. Но у нас был пробел с моделями для выполнения инструкций, и 4.1 заполнила эту лакуну. Она отлично справляется с этой задачей, особенно если ей дать конкретный промпт адекватного объема.
Исходя из того, что мы успели увидеть, o4-mini становится новой «бюджетной моделью» на все случаи жизни для разработчиков, которым нужна скорость, надежность и обработка видео за небольшую плату. Модель GPT-3.5, которую выпустили в ноябре 2022 года, уже начинает казаться технологией далекого прошлого.
————————————————————————————————————————–
Подписывайтесь на канал Данные на стероидах [31]. Дайджесты мира Data и ML, а также практики и подходы для извлечения максимальной пользы из работы с данными.
Автор: levashove
Источник [32]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/15184
URLs in this post:
[1] интеллект: http://www.braintools.ru/article/7605
[2] так восхищался: https://every.to/chain-of-thought/vibe-check-o3-is-out-and-it-s-great
[3] GPT‑4: https://every.to/chain-of-thought/gpt-4-is-a-reasoning-engine
[4] GPT-4o: https://every.to/chain-of-thought/gpt-4o-and-openai-s-race-to-win-consumers
[5] например 4.5: https://every.to/chain-of-thought/gpt-4-5-won-t-blow-your-mind-it-might-befriend-it-instead
[6] память: http://www.braintools.ru/article/4140
[7] зрения: http://www.braintools.ru/article/6238
[8] математики: http://www.braintools.ru/article/7620
[9] Дэнни Азиз: https://every.to/source-code/i-left-my-job-to-run-an-ai-wrapper-at-every
[10] Spiral: https://spiral.computer/
[11] Нитиш Агарвал: https://x.com/nityeshaga
[12] Cora: https://cora.computer/
[13] Киран Клаассен: https://x.com/kieranklaassen
[14] Алекс Даффи: https://every.to/@AlxAi
[15] Яш Пуджари: https://x.com/poojary_yash
[16] Sparkle: https://makeitsparkle.co/
[17] спросил прямо: https://marginalrevolution.com/marginalrevolution/2025/04/o3-and-agi-is-april-16th-agi-day.html
[18] логика: http://www.braintools.ru/article/7640
[19] нюансов бизнес-контекста: https://x.com/levie/status/1912928672581038290
[20] сравнивает LLM: https://x.com/ryolu_/status/1912601322651807864
[21] назвал o3: https://x.com/alexandr_wang/status/1913095522304532573
[22] o3-mini: https://every.to/context-window/high-agency-and-great-ai-expectations
[23] меньше рассуждает: https://x.com/itsclivetime/status/1911897656089301185
[24] протестировал обе модели: https://x.com/danielchalef/status/1912880985412161588
[25] LongMemEval: https://xiaowu0162.github.io/long-mem-eval/
[26] Инсайдер из OpenAI говорит: https://news.ycombinator.com/item?id=43707719%2343711155
[27] задал o4-mini одну из новых задач из проекта Эйлера: https://x.com/bio_bootloader/status/1912566454823870801
[28] задачи по математике и компьютерному программированию: https://projecteuler.net/
[29] задал o4-mini и o3 задачу по математике: https://x.com/bantg/status/1912907894690824246
[30] неравнодушна: https://x.com/NickADobos/status/1912931939579007352
[31] Данные на стероидах: https://t.me/+MVwyEOCOi6pkY2My
[32] Источник: https://habr.com/ru/companies/vktech/articles/909326/?utm_source=habrahabr&utm_medium=rss&utm_campaign=909326
Нажмите здесь для печати.