- BrainTools - https://www.braintools.ru -

ChatGPT o3 Pro: новый флагман OpenAI или маркетинговый ход? Разбираемся

ChatGPT o3 Pro: новый флагман OpenAI или маркетинговый ход? Разбираемся - 1

OpenAI снова удивляет: новая модель ChatGPT o3 Pro обещает революцию в аналитике, науке [1] и разработке. Но так ли она хороша? Читайте разбор архитектуры, тестов и подводных камней «самого вдумчивого ИИ» 2025 года.

В этом обзоре: бенчмарки (93% точности в математике [2], 84% в прочих областях), генерация 3D‑шейдеров, сравнение с DeepSeek R1-0528, Gemini 2.5 Pro, Claude Opus 4. А ещё мы проверили, как o3 Pro справляется с написанием рефератов и кодингом. Узнайте, стоит ли подписка за 200 $/мес своих денег и кому o3 Pro реально нужен.


OpenAI представила o3 Pro — расширенную версию своего наиболее мощного разумного чат‑бота. o3 Pro не просто апгрейд, а целый скачок: модель способна дольше думать и выдавать максимально обоснованные ответы. По замыслу OpenAI, она должна продолжить эволюцию [3] успешных моделей o1-Pro и o3, решая более крупные задачи и выдавая более исчерпывающие ответы. Модель уже доступна пользователям пакетов ChatGPT Pro (200 $/мес) и Team.

Кстати, o3 Pro уже сейчас можно потестить в агрегаторе BotHub (оплата pay as you go, за фактическое применение). Регистрируйся по спецссылке [4] и получи 100 000 бонусных токенов для доступа к любым ИИ без VPN. Идеально для сравнений!

Что внутри ChatGPT o3-Pro? Архитектурные новинки

ChatGPT o3 Pro основана на той же базовой архитектуре, что и o3 — мощная модель с генерацией по цепочке рассуждений и усиленным RLHF. При этом o3 Pro умеет обращаться ко всем встроенным инструментам ChatGPT (веб‑поиск, анализ файлов, Python, память [5] и даже зрение [6]), что даёт ей агентные возможности. Как и o3, o3 Pro обучена на данных до июня 2024 года (o1 Pro — до октября 2023-го).

Контекстное окно модели идентично o1 Pro и o3, но по‑прежнему огромно — целых 200 тыс. токенов, к тому же у модели те же 100 тыс. токенов на выход. Это означает, что o3 Pro может одновременно обрабатывать месяцы переписки или книгу, сохраняя всю информацию в памяти одной сессии.

При всех возможностях o3 Pro отвечает дольше [7], чем её предшественница o1 Pro, и OpenAI прямо предупреждает: модель может думать минутами. Самое забавное, что поначалу нейросеть затрачивала по несколько минут, чтобы просто черкнуть ответное «Привет!» [8], но это, судя по всему, уже пофиксили. Технический директор Hyperbolic Labs Ючен Цзин в X пошутил, что о3-Pro «самая медленная и слишком думающая [9]» модель — на его простой запрос «Привет, я Сэм Альтман» тоже ушло несколько минут работы. Лично мне не удалось воссоздать ситуацию: теперь к модели, предположительно, прикрутили стартовую проверялку, является ли вопрос совсем уж простым и действительно ли нужно исследование через o3 Pro, а если нет — ответ генерируется через упрощённую имплементацию.

Зато качество рассуждений возрастает: во всех опросах эксперты признают o3 Pro предпочтительнее o3 (наука, обучение [10], кодинг, бизнес, редактирование) за чёткость, полноту, логичность и соответствие инструкциям.

Стоимость API отражает эту мощь: 20 $ за миллион входящих токенов и 80 $ за миллион исходящих. Для сравнения, обычный o3 теперь стоит всего 2 $/8 $, после недавней 80%‑й «распродажи». Конечно, o3 Pro предназначена для профессионалов — она уже доступна в пакетах Pro и Team (Enterprise/Edu выйдут позже).

Официальные бенчмарки и сравнение с другими моделями

OpenAI заявляет, что o3 Pro ставит новые рекорды на ключевых бенчмарках. Например, в апрельском релизе отмечалось, что o3 (младшая версия o3 Pro) установила показатель state‑of‑the‑art на Codeforces, MMMU и SWE‑bench. По опубликованным данным, o3 Pro ещё сильнее: на олимпиадной задаче AIME (2024) он набирает 93% pass@1, тогда как o3 — ~90%, o1 Pro — 86%. На тесте PhD‑уровня GPQA Diamond — 84% против 81% у o3 и 79% у o1 Pro. В кодинговых соревнованиях Codeforces Elo‑показатель o3 Pro (2748) значительно опережает o3 (2517) и o1 Pro (1707).

ChatGPT o3 Pro: новый флагман OpenAI или маркетинговый ход? Разбираемся - 2

Кроме цифр, OpenAI приводит данные экспертов: в слепом тестировании «свой — чужой» респонденты на ~64% чаще выбирают ответы o3 Pro, чем o3. Это подтверждает прирост качества по многим задачам: «Учёные, программисты, бизнесмены и учителя особенно заметили улучшения в ясности и точности ответов».

Независимые бенчмарки: сильные и слабые стороны

Независимые исследователи и площадки тоже оценивали o3 Pro.

На платформе Chatbot Arena, она же OpenLM, с краудсорсинговыми батлами ботов o3 Pro пока не успела появиться, но o3 сейчас занимает в рейтинге второе место [11], набрав 1425 Elo, против 1478 у расположившегося на вершине Gemini 2.5 Pro. Логично [12] предположить, что o3 Pro уготована судьба занять если уж не первое, то не ниже второго места (т. к. расположиться после o3 модель физически не сможет).

o3 Pro уже отметился в бенчмарке NYT Connections [13]. Суть теста — проверить нейромодели на 651 головоломке. Чтобы исключить подвох (а вдруг модель уже видела ответы в обучающих данных?), отдельно протестировали только 100 свежих пазлов. Итог: o3 Pro рулит и там, заняв первое место!

ChatGPT o3 Pro: новый флагман OpenAI или маркетинговый ход? Разбираемся - 3

Лаборатория Superficial подкинула любопытных данных [14] о «фантазёрстве» o3 Pro. Они запустили Superfacts [15] — бенчмарк, который оценивает утверждения ИИ‑моделей на бредовость. Метрика: сначала ответы моделей проверяются через датасет FACTS от Google DeepMind, а если FACTS находит неточность — Superficial дорабатывает запрос (чтобы попробовать вывести модель на правильный ответ) и перепроверяет.

Цифры из твита:

  • o3 Pro, как и другие модели OpenAI, склонен к галлюцинациям — 9-е место из 12.

  • На уровне утверждений он привирает в 18% случаев. Для сравнения: Gemini 2.5 Pro — 8,5%, Claude Opus 4 — 9,5%.

  • Зато o3 Pro отлично реагирует на доработки Superficial: после них точность взлетает до 99,02% (у всех моделей OpenAI так — после доработки промтов они дают выверенные ответы).

  • По точности o3 Pro примерно равен o3 (82,08% vs 84,14%).

В топах всё чаще мелькает Gemini — и в Superfacts тоже: Gemini 2.5 Pro занял здесь 1-е место, допуская наименьшее количество галлюцинаций.

Зоркий глаз: анализ изображений

o3 Pro, как и многие собратья, умеет не только читать, но и видеть. Насколько хорошо? Джеймс Галлахер из Roboflow (эксперты по компьютерному зрению) протестировал модель [16]: она набрала 76,83% (63 из 82 тестов [17]), тратя в среднем 39,5 секунды на ответ. Сильные стороны: распознавание текста/штрих‑кодов, определение частей изображения и связей между ними, анализ свойств объектов (например, пуст ящик или нет).

How many parts are missing? Return only a number.
Сколько деталей отсутствует? Верни только число.

ChatGPT o3 Pro: новый флагман OpenAI или маркетинговый ход? Разбираемся - 4

Ответ o3 Pro:(правильный).

Are all six bolts screwed in? Return only yes or no.
Все ли шесть болтов закручены? Верни только «да» или «нет».

ChatGPT o3 Pro: новый флагман OpenAI или маркетинговый ход? Разбираемся - 5

Ответ o3 Pro: да (правильный).

Where is the defect in the product: top, left, bottom, right, or center? Return only the location, like left center.
Где дефект на изделии: верх, низ, лево, право, центр? Верни только расположение, например «слева в центре».

ChatGPT o3 Pro: новый флагман OpenAI или маркетинговый ход? Разбираемся - 6

Ответ o3 Pro: сверху в центре (правильный).

How many vertices (marked as red or orange dots) are visible in this diagram? Present your answer as an integer
Сколько вершин (красные/оранжевые точки) видно на схеме? Ответ — целое число.

ChatGPT o3 Pro: новый флагман OpenAI или маркетинговый ход? Разбираемся - 7

Ответ o3 Pro: 120. А вот промах! На самом деле 127.

Подробный отчёт здесь [18]. Кстати, в тройке лидеров [19] этого теста — o4 mini, 4o и o3.

Реакция сообщества: ожидания vs реальность

После анонса публика и разработчики потоком делятся впечатлениями [20]. На Hacker News отмечают [21], что новая модели приносит реальные преимущества: «o3 Pro — шаг вперёд: я могу решать задачи, которые раньше не удавалось. Сложность проектов выросла». Некоторые отмечают значительный скачок продуктивности: даже если формальные метрики улучшаются слегка, практическая польза чувствуется сильнее.

Однако встречается и критика. Некоторые вспоминают, что и у предыдущих моделей не было чудес — сначала всё кажется крутым, потом выявляются галлюцинации: «Галлюцинация — фундаментально не решённая проблема». Вместе с тем часть комментаторов подчёркивает, что уровень «глюков» у o3 Pro вполне сопоставим с человеческим и их надо просто проверять как обычно, — процент «взрывных галлюцинаций» у модели ниже и отслеживать достоверность требуется реже.

В соцсетях пользователи делятся комментариями. Кроме отзывов о долгих ответах [22] (что вызвано, очевидно, более тщательной их проработкой), замечают, что o3 Pro при сложных запросах с десятками файлов возвращает грамотный план действий [23] — с метриками и дедлайнами.

Один разработчик с восторгом описал на Hacker News, как ChatGPT o3 Pro с первого раза сгенерил рабочий код для интеграции нескольких веб‑сервисов:

Пару дней назад завайбкодил небольшое приложение, оно тянуло данные из трёх сервисов и делало валидацию. Само по себе — ничего сверхъестественного, но мой запрос был буквально таким: «Вот как выглядят ответы от эндпойнтов A, B и C. Вот это поле из A должно быть в ответе B, а в ответе C должно фигурировать вот это из A и вот то из B. Если в ответах есть ссылки — проверь, что они рабочие». И, о чудо, он выдал ВСЁ целиком! Ни перегенераций, ни танцев с Agent Mode. Раньше такое требовало кучи мелких шагов и тестов, чтобы Agent Mode не накосячил.

Другие тоже делятся вау‑кейсами: X‑пользователь заставил модель [24] за 13 минут и 682 шагов решить задачу о 10 дисках Ханойской башни [25]:

ChatGPT o3 Pro: новый флагман OpenAI или маркетинговый ход? Разбираемся - 8

А вот загадка, где o3 Pro уделал вообще всех: он единственный смог построить «лесенку» [26] от слова space до earth, меняя за шаг всего одну букву так, чтобы каждое промежуточное слово было настоящим. Комментаторы подтверждают: другие модели либо вставляли в цепочку выдуманные слова, либо нарушали правила игры. Видимо, лингвистическая интуиция [27] у o3 Pro — огонь!

ChatGPT o3 Pro: новый флагман OpenAI или маркетинговый ход? Разбираемся - 9

Профессор Итан Моллик из Уортона [28] (тот самый, что экспериментирует с нейрографикой) выяснил, что o3 Pro выдал лучший на сегодня результат в генерации шейдера [29]. Промт был лаконичен:

create a visually interesting shader that can run in twigl app make it like the ocean in a storm
Создай завораживающий шейдер для twigl.app, похожий на океан во время шторма.

o3 Pro думал над этим 21 минуту, плюс ещё 19 минут исправлял мелкую ошибку [30] в коде шейдера — но результат того стоил!

ChatGPT o3 Pro: новый флагман OpenAI или маркетинговый ход? Разбираемся - 10

Для контекста — вот что выдавали другие модели (январь — май 2025-го):

10,4 МБ GIF‑изображений

ChatGPT o3 mini high (https://x.com/emollick/status/1885412470061158650 [31]):

ChatGPT o3 Pro: новый флагман OpenAI или маркетинговый ход? Разбираемся - 11

Grok 3 (https://x.com/emollick/status/1891956902575104259 [32]):

ChatGPT o3 Pro: новый флагман OpenAI или маркетинговый ход? Разбираемся - 12

Gemini 2.5 Pro — экспериментальный, март 2025-го (https://x.com/emollick/status/1904700257822540076 [33]):

ChatGPT o3 Pro: новый флагман OpenAI или маркетинговый ход? Разбираемся - 13

Gemini 2.5 Pro — новый, май 2025-го (https://x.com/emollick/status/1919938304822124979 [34]):

ChatGPT o3 Pro: новый флагман OpenAI или маркетинговый ход? Разбираемся - 14

P. S.: гифки были сконверчены «Твиттером» в MP4, но я вернул их в родной GIF‑формат. Не благодарите😉

В общем, к o3 Pro отношение амбивалентное. Хотя Сэм Альтман анонсировал o3 Pro как «ужасно умный» [35], сообщество пока держит удар. В повседневной работе o3 Pro воспринимается как драгоценный, но капризный инструмент. Скорость — пожалуй, главный минус: она ощутимо уступает обычным повседневным нейросетям, вроде ChatGPT-4o, поэтому модель неоптимальна для быстрых вопросов. Пользователи учатся заранее планировать запросы, чтобы не потерять время. Зато интеллект [36] оказался на высоте: если сформулировать задачу предельно чётко, o3 Pro часто отвечает творчеством [37] или анализом, о котором с прежними моделями можно было только мечтать.

Кому и зачем нужен o3 Pro

Кто же реально получит от o3 Pro выгоду? Это — научные коллективы и бизнесы с задачами большой сложности. Например:

  • Исследователи и аналитики. В научных и прикладных задачах модели нужны не банальные выводы, а глубокий анализ. o3 Pro прожуёт гигантские документы, научные статьи и эмпирические данные, а затем сделает логичный обзор с гипотезами и формулами. Это ценно в R&D, образовании или помощи в прогнозах, основанных на больших текстовых отчётах.

  • Бизнес‑аналитики и консультанты. Из больших неструктурированных данных — транскриптов совещаний, отчётов, трендов — o3 Pro может выжать дорожную карту или план действий. Пример с Raindrop [23] (материалы встреч + план с метриками) — именно такой.

Словом, o3 Pro нужен там, где надо думать очень долго и очень глубоко, а цена вопроса — вторична.

Подводные камни и ограничения

С этической точки зрения o3 Pro ничем не отличается от прочих крупных LLM: вопросы приватности, авторских прав на обучающие данные и потенциальных предубеждений модели сохраняются. OpenAI подчёркивает, что o3 Pro унаследовал ту же «системную карту» и меры безопасности, что и o3.


Подведём итоги: o3 Pro впечатляет мощью — он для тех, кому нужно не просто «ответить», а «продумать». Учёным и аналитикам он сэкономит часы работы, но для регулярных задач будет избыточен. А для повседневных вопросов выбирайте ChatGPT 4o, Grok 3 или DeepSeek R1-0528 — они быстрее и дешевле.

Автор: dmitrifriend

Источник [38]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/16251

URLs in this post:

[1] науке: http://www.braintools.ru/article/7634

[2] математике: http://www.braintools.ru/article/7620

[3] эволюцию: http://www.braintools.ru/article/7702

[4] Регистрируйся по спецссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[5] память: http://www.braintools.ru/article/4140

[6] зрение: http://www.braintools.ru/article/6238

[7] отвечает дольше: https://help.openai.com/en/articles/9624314-model-release-notes

[8] ответное «Привет!»: https://www.reddit.com/r/OpenAI/comments/1l9df7l/o3pro_takes_6_minutes_to_answer_hi/

[9] самая медленная и слишком думающая: https://the-decoder.com/openais-o3-pro-may-be-too-smart-for-small-talk/

[10] обучение: http://www.braintools.ru/article/5125

[11] занимает в рейтинге второе место: https://openlm.ai/chatbot-arena/

[12] Логично: http://www.braintools.ru/article/7640

[13] NYT Connections: https://github.com/lechmazur/nyt-connections/

[14] любопытных данных: https://x.com/asksuperficial/status/1932652097750905340

[15] Superfacts: https://live.superficial.app/

[16] протестировал модель: https://blog.roboflow.com/openai-o3-pro-review/

[17] тестов: https://visioncheckup.com/prompts/

[18] Подробный отчёт здесь: https://visioncheckup.com/openai-o3-pro/

[19] в тройке лидеров: https://visioncheckup.com/

[20] впечатлениями: http://www.braintools.ru/article/2012

[21] На Hacker News отмечают: https://news.ycombinator.com/item?id=44240999

[22] отзывов о долгих ответах: https://www.reddit.com/r/ChatGPTPro/comments/1l89zic/got_access_to_o3pro/

[23] грамотный план действий: https://www.latent.space/p/o3-pro

[24] X‑пользователь заставил модель: https://x.com/krishnanrohit/status/1932586055993364881

[25] Ханойской башни: https://ru.wikipedia.org/wiki/%D0%A5%D0%B0%D0%BD%D0%BE%D0%B9%D1%81%D0%BA%D0%B0%D1%8F_%D0%B1%D0%B0%D1%88%D0%BD%D1%8F

[26] смог построить «лесенку»: https://x.com/emollick/status/1932533635984355792

[27] интуиция: http://www.braintools.ru/article/6929

[28] Итан Моллик из Уортона: https://x.com/emollick/status/1932995067091800066

[29] шейдера: https://habr.com/ru/articles/453692/

[30] ошибку: http://www.braintools.ru/article/4192

[31] https://x.com/emollick/status/1885412470061158650: https://x.com/emollick/status/1885412470061158650

[32] https://x.com/emollick/status/1891956902575104259: https://x.com/emollick/status/1891956902575104259

[33] https://x.com/emollick/status/1904700257822540076: https://x.com/emollick/status/1904700257822540076

[34] https://x.com/emollick/status/1919938304822124979: https://x.com/emollick/status/1919938304822124979

[35] как «ужасно умный»: https://x.com/sama/status/1932532561080975797

[36] интеллект: http://www.braintools.ru/article/7605

[37] творчеством: http://www.braintools.ru/creation

[38] Источник: https://habr.com/ru/companies/bothub/articles/918690/?utm_campaign=918690&utm_source=habrahabr&utm_medium=rss

www.BrainTools.ru

Rambler's Top100