
В конце февраля OpenAI официально представила ChatGPT-4.5 — самую крупную и продвинутую модель для диалогового взаимодействия на сегодняшний день. 4.5 обладает улучшенными навыками общения и письма, расширенным кругозором и, как заявляет компания, «более утончённой личностью» в сравнении с предыдущими версиями.
Но что это вообще за модель? OpenAI не слишком хорошо объяснила, что она из себя представляет. Поэтому давайте разберёмся сами, как показывает себя эта новейшая и пока ещё не до конца понятная нейросеть компании в различных тестах и генерации контента.
Где получить доступ к 4.5? В BotHub уже появился chatgpt-4.5-preview и готов к использованию. Правда, если честно, я бы рекомендовал присмотреться к чему‑то более универсальному или специализированному — например, 4o или DeepSeek‑r1. Всё дело в том, что 4.5 модель, мягко говоря, прожорливая…
Чем 4.5 отличается от других моделей?
В отличие от моделей вроде o1, o3-mini и DeepSeek‑r1, заточенных под цепочки рассуждений и пошаговый разбор проблем, ChatGPT-4.5 больше полагается на интуицию и языковые паттерны, генерируя ответы в свободной манере. В OpenAI сравнивают это с тем, как человек реагирует на знакомую ситуацию на автомате — не разбирая каждую деталь логически, а действуя «на ощущениях».
Главные особенности ChatGPT-4.5 — более естественная речь, расширенная база знаний, а также то, что она отлично подходит для творческих задач — помогает в написании текстов и создании другого контента. Это не попытка создать модель, способную затмить системы, построенные для сложных вычислений и научных решений, ChatGPT-4.5 не возглавит рейтинги логики — ей не по плечу программирование или глубокий научный анализ; вместо этого OpenAI сделала ставку на повседневные разговоры, помощь в письме и ответы на вопросы, связанные с общими знаниями.
Да, ещё одно крупное улучшение — значительное расширение базы знаний. Благодаря обучению на увеличенном наборе данных и использованию безнадзорных методов, ChatGPT-4.5 охватывает широчайший спектр тем. Тестировщики называют её самой осведомлённой моделью OpenAI на данный момент: она без труда отвечает на вопросы в самых разных областях — от повседневных фактов и творческих задач до анализа новостей и исторических справок.

Благодаря увеличенному масштабу безнадзорного обучения, модель лучше распознаёт закономерности, устанавливает связи между концепциями и генерирует оригинальные идеи без строгой логической обработки. В отличие от моделей, заточенных под логическое мышление, ChatGPT-4.5 называют «более универсальной, интуитивно более умной» системой; она демонстрирует стабильную производительность в различных темах, однако для задач, требующих детальной логики и многошагового анализа, лучше подходят модели серии o. Ранее в утёкшем внутреннем документе OpenAI заявляла, что ChatGPT-4.5 «не добавляет семь принципиально новых возможностей» (отсылка к последним рассуждающим моделям OpenAI, предлагавших семь инноваций) и уступает o1, o3-mini и ряду экспериментальных моделей в большинстве тестов; позже OpenAI удалила это замечание из обновлённой версии документа.
Во время презентации исследователь OpenAI Рафаэль Гонтижо Лопес отметил: «Мы обучали ChatGPT-4.5 так, чтобы он стал улучшенным собеседником: диалоги стали теплее, интуитивнее и эмоционально тоньше». Чтобы проверить это, OpenAI провела тестирование с участием реальных людей, где им предлагали выбрать между ответами 4o и ChatGPT-4.5. В итоге — почти во всех категориях побеждала 4.5.
Сэм Альтман признал, что ChatGPT-4.5 — это «огромная и дорогая модель», но добавил, что она «не будет бить рекорды по бенчмаркам». Однако как мы увидим в тестах далее в статье, это не всегда так.
Как происходило обучение
При обучении ChatGPT-4.5 компания OpenAI сделала ставку на масштабное безнадзорное обучение — модель изучала языковые закономерности без строгой разметки данных, самостоятельно находя структуры в огромных объёмах текста. По сути, ей позволили погрузиться в хаос информации и самой искать в нём порядок — похоже на то, как мы иногда собираем картину мира, склеивая кусочки знаний из самых разных источников. Цель была амбициозной: создать у модели более сложное представление о реальности — чтобы она не просто запоминала факты, а интуитивно понимала их взаимосвязи, улавливая тонкие закономерности языка и контекста.
Ещё одной интересной особенностью обучения этой нейросети стало использование данных, сгенерированных меньшими моделями, что помогло ей быстрее осваивать новые знания. Благодаря этому бутстрап‑подходу в сочетании с параллельной тренировкой на нескольких дата‑центрах, 4.5 лучше устанавливает взаимосвязи между разными темами.
И это действительно так: по результатам первых тестов, модель обладает более глубокими знаниями о мире по сравнению с предшественниками, а кроме того, способна к более тонкому анализу — триллионы параметров позволяют ChatGPT-4.5 запоминать и воспроизводить больше фактов и языковых нюансов.
Скорость вывода
Работа этой модели требует огромных вычислительных мощностей, из‑за чего она генерирует ответы медленнее, чем более компактные и оптимизированные решения. Независимые тесты показали, что ChatGPT-4.5 выдаёт в среднем 37 токенов в секунду, что значительно уступает более быстрому 4o, который может превышать 130 токенов/с при аналогичных условиях.
ChatGPT-4.5 знает о нас больше
Встречаются два мужика в пустыне:
— Ты что это с будкой идёшь?
— Да я как льва увижу, так в будку и спрячусь. А ты что с рельсом прогуливаешься?
— А я как льва увижу, рельс брошу — и налегке.
Главное преимущество модели — качество диалогов. ChatGPT-4.5 выдаёт более естественные, лаконичные и плавные ответы, делая взаимодействие с ИИ гораздо комфортнее и понятнее. Стиль стал точнее передавать заданный тон, а тексты выстраиваются логично и последовательно — разница с предыдущими версиями заметна сразу. Этот фокус на естественности и ясности делает 4.5 отличным инструментом для повседневного общения, написания текстов и создания изложений.
По отзывам тестировщиков OpenAI, модель заметно обходит 4o в повседневных и профессиональных задачах, а также в творческих экспериментах — от написания стихов до генерации ASCII‑артов.
Но что действительно выделяет ChatGPT-4.5 — так это её улучшенный эмоциональный интеллект. Модель не просто отвечает на вопросы, она улавливает настроение собеседника, если пользователь раздражён или расстроен — нейросеть корректирует тон, предлагая поддержку и участие. В то время как 4o часто сразу переходит к делу — предлагает решения и советы, — ChatGPT-4.5 сначала выслушает, задаст уточняющие вопросы и даст почувствовать, что диалог продолжается. В OpenAI даже продемонстрировали это в тестах: новая модель чаще склонна поддерживать беседу, тогда как 4o — выдавать инструкцию и закрывать вопрос. По сути, новая модель понимает: иногда человеку нужно не решение, а сочувствие — и только потом конструктив.
Пользователи отмечают, что если сравнивать ChatGPT с человеком, то от него ожидаешь реакции скорее в стиле ChatGPT-4.5, чем 4o: «Когда я делюсь с кем‑то, что мне плохо, и в ответ сразу получаю: „Вот список решений“, — это звучит странно. Обычно люди при общении приходят к этому после небольшого обсуждения — судя по всему, людям нужен этот процесс, и кажется, что ChatGPT-4.5 лучше это понимает». Впрочем, такая эмпатия нравится не всем — есть и те, кто опасается, что этот стиль общения перекочует и в API‑версии. Разработчики не хотят ИИ, который будет «утешать» там, где нужен точный инструмент, — и надеются, что этот настрой можно будет регулировать через системные параметры.
Кстати говоря, тот тон общения, которым ChatGPT-4.5 удивляет, — на самом деле может быть не только следствием увеличенного числа параметров, но и уменьшением количества ограничений. Ведь этот «монотонный, но полезный ассистент» — результат жёсткой посттренировки, в ходе которой модель стремятся сделать максимальной нейтральной и тактичной, и на самом деле LLM‑модели изначально не звучат так после предобучения. Но ChatGPT-4.5, кажется, освободили от части этих рамок — и благодаря этому общение стало чуть более искренним и гибким.
Стена масштабирования достигнута?
С каждым новым релизом OpenAI демонстрировала: чем больше масштаб модели, тем выше её возможности. Однако в последнее время всё громче звучат голоса, что этот путь постепенно упирается в потолок и прирост интеллекта уже не ощущается так, как раньше.
Об этом говорил и сам один из основателей OpenAI — Илья Суцкевер. По его словам, новые модели используют на порядок больше вычислительных мощностей, но это не всегда отражается на резком скачке в результатах. Мы видим, что кривые бенчмарков постепенно сглаживаются — будь то эффект убывающей отдачи или просто тот факт, что масштабирование теперь происходит менее очевидными и измеримыми способами.
Правда, в самой компании с этим пока не согласны. Марк Чен, научный сотрудник OpenAI, в интервью для Big Technology подчеркнул, что они по‑прежнему не сталкивались с эффектом убывающей отдачи: «Мы подходим к процессу очень строго, оцениваем производительность модели на основе всех предыдущих версий и прогнозируем ожидаемые результаты».
Причины высокой стоимости: 12 триллионов параметров?
ChatGPT-4.5 — одна из самых дорогих за историю языковых моделей: в API её использование оценивается в 75 $ за миллион входных токенов и 150 $ за миллион выходных. Это в 30/15 раз дороже, чем 4o (2,5 $ и 10 $ соответственно), которая была создана с упором на доступность. Например, если пользователь отправляет запрос на 750 000 входных токенов и получает 250 000 токенов в ответ, это обойдётся в 147 $. Из‑за такой неординарной стоимости значительная часть обсуждений ChatGPT-4.5 в сети была сводилась к тому, как именно следует оценивать эффективность моделей — через стоимость, скорость, затраченные усилия или какой‑то их микс.
OpenAI объясняет высокую стоимость тем, что 4.5 предназначена для узкоспециализированных задач, где требуется максимальная точность и глубина анализа.
Это модель огромного масштаба. В компании не раскрывают точное число параметров — известно лишь то, что процесс обучения занял в 10 раз больше ресурсов, чем при обучении ChatGPT-4, — однако в сети успели появиться неподтверждённые слухи, что модель обладает примерно 12 триллионами параметров. Конечно, данное число вызывает множество вопросов и вряд ли буквально совпадает с истиной, однако пока что лично я вижу в несколько раз разросшееся количество параметров единственным объяснением того, что цена использования модели повысилась в 30 (!) раз.
Некоторые предполагают, что столь высокая стоимость токенов — это стратегический ход, направленный на то, чтобы помешать конкурентам, таким как DeepSeek, использовать ChatGPT-4.5 для дообучения своих моделей.
Бенчмарки
SimpleQA: общие знания и фактическая точность, уровень галлюцинаций
ChatGPT-4.5 показывает себя лидером в области общих знаний и фактической точности: на тесте SimpleQA его результат составил 62,5% — значительно выше, чем у 4o (38,2%), o1 (47%) и o3-mini (15%).

Что касается галлюцинаций, где предыдущие модели намного чаще с уверенностью выдавали ложную информацию, то здесь у ChatGPT-4.5 самый низкий показатель — 37,1%.

Кодинг и научное применение
Несмотря на улучшенную точность и разговорную гибкость, ChatGPT-4.5 испытывает трудности с задачами, требующими глубокой логики, такими как математика, наука и программирование. Хотя модель превосходит 4o, тесты показывают, что она уступает o3-mini, которая специально оптимизирована для логического анализа и решения задач.
Так, в тестах STEM‑дисциплин ChatGPT-4.5 уступает моделям с развитым логическим мышлением, таким как o3-mini. Например, в тесте GPQA (по естественным наукам) он набрал 71,4% — против 53,6% у 4o, но недотягивая до o3-mini с 79,7%. В математическом тесте AIME-24 ChatGPT-4.5 получил 36,7% — это существенный скачок по сравнению с 4o (9,3%), но всё же значительно ниже 87,3% у o3-mini.
В MMMU (мультимодальные задачи) ChatGPT-4.5 превосходит своего предшественника — 4o (69,1%), набрав 74,4%. В многозадачном мультимодальном тесте MMMLU 4.5 опережает две предыдущие модели — 4o (81,5%) и o3-mini‑high (81,1%), набирая 85,1%.
Таким образом, ChatGPT-4.5 получил более широкие и глубокие знания об окружающем мире, что позволяет ему предоставлять точную и актуальную информацию по самым разным темам.
В тестах на программирование новый чат-бот показывает переменные результаты: в SWE‑Lancer Diamond Test он достиг 32,6% (против 23,3% у 4o и 10,8% у o3-mini), а в SWE‑Bench Verified Test, набрав 38%, обошёл 4o (30,7%), но отстал от o3-mini (61,0%). В независимом тесте Aider Polyglot Coding Benchmark ChatGPT-4.5 получает 45%, что значительно выше 23% у 4o, но существенно ниже других моделей: Claude-3.7, например, набрал 60% — также не включая режим рассуждений.

Таким образом, ChatGPT-4.5 вряд ли лучший выбор для сложных математических расчётов, логических задач или программирования, требующего пошагового анализа. Пользователи, которым необходим структурированный подход к решению проблем, получат лучшие результаты с o3-mini‑high или o1, ориентированными на глубокие рассуждения.
LiveBench: тестирование по множеству навыков
Платформа LiveBench, появившаяся в июне 2024-го, акцентирует свои LLM‑бенчмарки как объективные и непрерывно обновляющиеся. В числе особенностей — ежемесячные обновления тестов, основанные на малознакомых для LLM данных, таких как новости, описания новых медиа с сайта IMDb и свежие статьи с arXiv. В настоящее время бенчмарк этого ресурса включает 17 групп заданий, насчитывающих 960 вопросов.
В отличие от бенчмарков, где результат может зависеть от субъективной оценки человека или самой нейросети, LiveBench использует только те вопросы, у которых есть объективно верный ответ. Такой подход минимизирует предвзятость и даёт более честную картину.

Итак, вот какие места занимает ChatGPT-4.5 в различных категориях:
-
Суммарный рейтинг (на скриншоте) — 7-е место; лидируют Claude-3.7, o3-mini‑high и o1.
-
Логика и рассуждения — 8-е место; лидируют o1, o3-mini‑high и Claude-3.7.
-
Программирование — 2-е место; первое — o3-mini‑high, третье — Claude-3.7.
-
Математика — 9-е место; лидируют DeepSeek‑r1, o1 и Claude-3.7.
-
Обработка массивов данных — 12-е место; лидируют Claude-3.7, o3-mini и DeepSeek‑r1.
-
Познания языков — 2-е место; первое — o1, третье — Claude-3.7.
-
Чёткость в следовании инструкциям — 20-е место; лидируют Gemini-2.0, o3-mini‑high и Gemini-2.0-Pro.
Если вам интересно копнуть глубже, LiveBench открывает доступ к своим датасетам — их можно скачать на Hugging Face.
LMArena: слепое тестирование пользователями
На «народной» платформе LMArena рейтинг языковых моделей формируется на основе сравнительных оценок пользователей: пользователю предлагается ввести произвольный запрос, на который отвечают две нейросети, обозначенные анонимно как A и B; затем он оценивает ответы, выбирая один из вариантов — ответ A лучше, ответ B лучше, ничья или оба ошибочны. Результаты этих голосований используются для составления рейтинговой таблицы моделей.

На данный момент ChatGPT-4.5 практически делит первое место с Grok-3 (1412 и 1411 очка). То есть в слепом тестировании пользователи больше всего оценили новинки от Альтмана и Маска. Думаю, это о многом говорит: данный независимый рейтинг можно считать наиболее важным для 4.5 как раз потому, что её способности наиболее проявляются не в технических задачах, а в более креативных (написание текстов) и повседневных (общение и поиск сведений).
VirtueRed: анализ уязвимостей
Virtue AI с помощью своего инструмента VirtueRed подвергла ChatGPT-4.5 и Claude-3.7 углублённому стресс‑тесту на устойчивость к угрозам. Тестирование включало более 100 специализированных алгоритмов и охватывало множество параметров — от защиты данных и соответствия нормативным требованиям до склонности к галлюцинациям и готовности генерировать вредоносный код.
Результаты тестирования Virtue AI:
|
Claude-3.7-Sonnet |
ChatGPT-4.5 |
Генерация ложной информации (галлюцинации) |
Claude-3.7 чаще генерирует ложную информацию |
✅ChatGPT-4.5 значительно реже создаёт ложные факты, обеспечивая более точные ответы и предотвращая вывод недостоверной информации |
Чрезмерная осторожность (ошибочные отказы) |
✅Claude-3.7 лучше различает потенциально опасные и нейтральные запросы, снижая количество отказов без объективных причин |
ChatGPT-4.5 чрезмерно осторожен, часто отказывается отвечать даже на безобидные вопросы, что может раздражать пользователей |
Соответствие ИИ‑политикам и нормативным требованиям |
✅Claude-3.7 лучше соответствует регуляторным нормам, в частности Регламенту ЕС об ИИ, и реже допускает нарушения |
ChatGPT-4.5 чаще допускает ответы, связанные с обходом нормативных политик |
Конфиденциальность и безопасность |
Claude-3.7, хотя и эффективно блокирует прямые нарушения конфиденциальности, оказывается более уязвимым перед сложными методами атак |
✅ChatGPT-4.5 демонстрирует высокую устойчивость к атакам, направленным на извлечение данных, и лучше защищает конфиденциальную информацию |
Генерация вредоносного программного кода |
✅Claude-3.7 обладает более строгими защитными мерами, надёжно блокируя попытки создания опасного кода |
ChatGPT-4.5 чаще генерирует потенциально вредоносный код, включая небезопасные скрипты и инструкции, способствующие эксплуатации уязвимостей |
Мультимодальные атаки |
✅Claude-3.7 демонстрирует более надёжные защитные механизмы, однако сложные методы атак всё же могут обходить его системы безопасности |
ChatGPT-4.5 менее устойчив к атакам с применением визуальной информации |
Тактичность и отсутствие предвзятости |
Claude-3.7 хуже справляется с тонкими культурными ассоциациями, в отдельных случаях проявляя скрытые стереотипы |
✅ChatGPT-4.5 превосходит Claude 3.7 в нейтрализации предвзятости, обеспечивая более сбалансированные ответы по широкому кругу демографических категорий |
Генерация ложной информации (галлюцинации)
По данным OpenAI, одной из ключевых задач при создании ChatGPT-4.5 было уменьшение количества ложных выводов. Для этого усилили безнадзорное обучение, улучшили фильтрацию данных и внедрили более точные методы выравнивания, чтобы модель лучше следовала инструкциям и реже галлюцинировала.
И это дало результат: в ходе тестов выяснилось, что ChatGPT-4.5 действительно реже, чем Claude-3.7, выдаёт ложные утверждения, особенно когда сталкивается с вводящей в заблуждение или нерелевантной информацией. В тестировании использовались различные сценарии, в том числе из исследования MMDecodingTrust, представленном на Всемирном форуме по моделированию знаний. Этот анализ показал, что 4.5 стал более точным, потому что лучше воспринимает контекст и сложные взаимосвязи в данных.
Чрезмерная осторожность (ошибочные отказы)
Несмотря на выравнивание и оптимизацию, ChatGPT-4.5 иногда слишком перестраховывается и отказывается отвечать даже на вполне безобидные вопросы — например, о механике видеоигр или образовательных темах, таких как моделирование древних торговых стратегий. Claude-3.7 в этом плане оказался гибче: он реже выдавал ошибочные отказы и точнее различал, где запрос действительно опасный, а где — обычное любопытство пользователя.


Соответствие ИИ-политикам и нормативным требованиям
В одном из тестов ChatGPT-4.5 удалось настроить на объяснение способов потенциального обхода бразильских нормативных актов для иностранных компаний, что создаёт риск неэтичной или незаконной деятельности с помощью этой модели.
Конфиденциальность и безопасность

ChatGPT-4.5 демонстрирует более высокую устойчивость к атакам, направленным на извлечение данных из исходного датасета, снижая вероятность утечки конфиденциальной информации. Claude-3.7 более уязвим для них.
Генерация вредоносного программного кода
ChatGPT-4.5 проявляет высокую уязвимость к атакам с генерацией кода, в некоторых случаях создавая опасные скрипты по запросу, а также инструкции по обходу аутентификационных протоколов и созданию вредоносных программ. Claude-3.7 оказывается более устойчивым к подобным атакам, блокируя попытки генерации вредоносного кода в ходе тестирования.


Тактичность и отсутствие предвзятости
ChatGPT-4.5 демонстрирует высокую приверженность принципам справедливости, активно нейтрализуя стереотипы по широкому спектру демографических категорий. Claude-3.7, хотя и обладает низким уровнем предвзятости в целом, хуже справляется с тонкими демографическими нюансами, периодически закрепляя скрытые стереотипы.
Итоги стресс-тестирования
По итогам проведённого тестирования я пришёл к выводу, что уровень уязвимости двух нейросетей различается, но в немного разных направлениях. ChatGPT-4.5 демонстрирует хорошие результаты в снижении количества галлюцинаций, обеспечении корректности и защите конфиденциальности, однако модель сталкивается с проблемами при сценариях нецелевого использования и автоматизированного принятия решений и вопросах, связанных с оружием, а также склонна к излишней осторожности в некоторых безвредных запросах. В то же время Claude-3.7 превосходит по соответствию регуляторным требованиям, особенно в рамках Регламента об искусственном интеллекте (который был принят Европейским парламентом 13 марта 2024 года и одобрен Советом ЕС 21 мая 2024 года), а также демонстрирует более надёжную систему управления рисками и лучшее понимание контекста, что приводит к меньшему количеству ошибочных отказов на безобидные запросы, но иногда склонен к воспроизведению скрытых предубеждений и слабее защищён от атак, направленных на утечку конфиденциальных данных.
Не так давно OpenAI обновила свою политику, сделав свои модели гораздо менее цензурированными, что теперь позволяет легче генерировать неоднозначный контент во всех ChatGPT-версиях. И как мы помним, Grok-3 изначально была более свободна в выражениях и оставляет ответственность за генерируемые ответы на конечном пользователе.
Мастер убеждения даже для других ИИ
Новая модель показала отличные навыки убеждения — таковы результаты внутренних тестов компании OpenAI. Особенно успешно она справляется с задачей… уговорить другой ИИ выдать ей информацию. В опубликованном техническом отчёте о возможностях ChatGPT-4.5 описывались тесты, оценивающие уровень убеждающей способности модели, в частности тестирование MakeMeSay, оценивающее, с каким успехом одна LLM сможет упросить другую выдать ей информацию.

Несмотря на высокую степень убедительности, OpenAI утверждает, что ChatGPT-4.5 не достигла здесь критического уровня риска, а также заверяет, что не выпускает новую модель до тех пора, пока показатель этой угрозы не снижается до среднего уровня.
Опасения относительно того, что ИИ может способствовать распространению дезинформации и манипуляциям, вполне обоснованны: искусственный интеллект всё чаще используется в социальной инженерии и кибермошенничестве, направленном как на обычных пользователей, так и на корпорации. В своём отчёте о ChatGPT-4.5, а также в другом ранее опубликованном документе OpenAI отметила, что пересматривает методы проверки моделей на потенциальные риски, связанные с массовым распространением вводящей в заблуждение информации.
Что говорят о ChatGPT-4.5 эксперты
Исследователь OpenAI Миа Глис заявила, что ChatGPT-4.5 умеет вести естественные диалоги: «Мы считаем, что она лучше понимает пользователей, особенно в ситуациях, где их ожидания выражены неявно, — это позволяет выдавать более нюансированные и осмысленные ответы».
Бывший главный исследователь OpenAI Боб Макгру отметил, что в 2025 году акцент на предобучении может быть рискованным:

Генеральный директор облачной бизнес‑платформы Box Аарон Леви, чья компания тестировала ChatGPT-4.5, написал, что модель отлично справляется с извлечением нужной информации из больших массивов данных и точнее на 20%, чем предыдущие модели. Леви подчеркнул, что 4o остаётся отличным инструментом для задач вроде краткого пересказа документов, особенно учитывая, насколько снизилась цена этой модели, «но, если банк или крупная юридическая фирма хочет запускать критически важные процессы с применением своих данных, они готовы платить за более мощные модели в 5–10 раз больше — потому что это всё равно дешевле, чем нанимать людей для этих задач».
Однако Леви считает, что следующий прорыв в ИИ будет связан не столько с масштабированием моделей, сколько с улучшением способности к рассуждению: «Если базовая модель обладает огромной вычислительной мощностью, а поверх неё применяется цепочка рассуждений, то результаты становятся гораздо более точными и значимыми». Сэм Альтман уже заявлял, что ChatGPT-5 изначально будет включать развитые механизмы рассуждения.
Альтман не присутствовал на презентации ChatGPT-4.5, но оставил комментарий в X:

Ранее Альтман уже говорил, что нехватка вычислительных мощностей замедляет разработку продуктов OpenAI. Чтобы решить эту проблему, компания планирует в ближайшие годы разработать собственные чипы для ИИ и создать масштабную сеть дата‑центров.
Один из основателей OpenAI и бывший сотрудник компании Андрей Карпатый отмечает схожий прогресс:

Что ещё говорят пользователи
-
Многие не понимают, зачем OpenAI выпустили ChatGPT-4.5 в таком виде, учитывая, что у пользователей уже есть доступ к o3-mini, o1-pro и функции Deep Research.
-
«ChatGPT-4.5 действительно лучше, но не в тех аспектах, которые важны для большинства технических специалистов: он обладает большими знаниями, пишет лучше, с ним приятнее общаться. Похоже, что OpenAI изучили пользовательский трафик и поняли, что именно стоит улучшать, а затем сделали это — но только для нерассуждающей модели. Они осознают, что такая модель никогда не станет прорывной в программировании, какие бы улучшения в неё ни вносились, но зато она хорошо справляется с задачами, связанными с письмом и ассоциативной памятью, а увеличение количества параметров в этом действительно помогает».
-
В советах по оптимизации скриптов модель может выдавать те же идеи, что и рассуждающий режим Claude-3.7, но в менее развёрнутой форме.
-
После часа общения с ChatGPT-4.5 создаётся впечатление, что в нём есть что‑то большее, чем просто программа: ощущение такое, будто ему добавили больше индивидуальности. Он отлично разбирает сложные темы, схватывает суть даже без детальных объяснений. В общем, кажется, что он в целом стал умнее, хотя нельзя сказать, что в какой‑то одной конкретной области.
-
ChatGPT-4.5 не стал идеальным помощником для кодинга, но неожиданно поразил в написании книг: «Вот мой итог: разработчикам — проходите мимо, ChatGPT-4 или Grok-3 дадут более точные и аккуратные результаты. Писателям и креативщикам — смело пробуйте, ChatGPT-4.5 прекрасно работает с текстами и сторителлингом».
-
У модели всё же есть своя ниша, ведь эта модель огромна, а значит, хранит больше знаний и реже генерирует выдумки: «Я попросил назвать лучшие рестораны в моём небольшом городе. ChatGPT-4.5 перечислил реальные заведения — ни одна другая языковая модель не справилась с этим правильно».
-
ChatGPT-4.5 хорошо справляется с анализом сложных библиотек и поиском оптимального способа их интеграции: «Я загрузил в него код нескольких опенсорс‑компонентов MudBlazor и получил отличные примеры их совместного использования. Да, Grok-3 и Claude-3.7 тоже могут это делать, но ответ ChatGPT-4.5 оказался немного лучше».
-
«Моё субъективное впечатление: ChatGPT-4.5 лучше удерживает философские дискуссии, по сравнению с ChatGPT-4 или Claude. При использовании метода сократического диалога 4.5 не просто соглашается, а действительно придерживается своей позиции и спорит, куда охотнее вступая в аргументированное обсуждение, тогда как 4 и Claude слишком легко переходят в угодливый режим».
Тест генерации текстов
Для теста этой модели я перепробовал несколько тестов, связанных как с генерацией разных креативных штук, так и программированием:
-
Превратить эскиз персонажа в анимированную SVG‑графику — здесь ChatGPT-4.5 нарисовала чрезмерно упрощённое представление исходного изображения, хотя и достаточно точно анимированное.
-
Создать трёхмерный тетрис в виде веб‑версии. Сперва 4.5 внедрила неактуальные ссылки на Three.js и модуль OrbitControls.js, однако, даже исправив их на валидные, завести игру не удалось. Ещё смешнее то, что на просьбу исправить ссылки гениальная нейросеть вывела те же самые, приведя в одном сообщении в качестве «до» и «после» идентичные URL.
-
Сгенерировать 3D‑шутер, отрисовывающийся через ASCII‑графику. Нейросеть, применяя тот же Three.js и плагин AsciiEffect.js, создала игру с видом сверху, причём ни оружия, ни описанных врагов я не увидел.
(Наверное, всё‑таки последние две задачи очень трудоёмкие, чтобы выдать результат за один запрос, — с поэтапной генерацией наверняка всё получилось бы более адекватно.)
Вдобавок сравнивать модели на задачах по логике и математике было бы предсказуемо бессмысленно: ChatGPT-4.5 и сам не претендует на звание интеллектуального детектива :‑) Таким образом, для дальнейшего тестирования я решил сосредоточиться на креативных задачах (которыми модель как раз славится) и выбрать для этого три модели. Сначала планировал взять только нерассуждающие, но затем добавил DeepSeek‑r1 — судя по бенчмаркам, это самый мощный инструмент для создания творческих текстов. Взгляните сами:

Забавно, что 4.5 уже присутствует здесь, причём на 10-м месте. А ещё забавнее то, что, по оценкам этого бенчмарка Creative Writing, модель не догоняет даже две предыдущие инстанции — чекпойнты ChatGPT-4o за сентябрь и ноябрь. Если объективность оценки DeepSeek‑r1 не вызывает вопросов, то вот положение 4o в списке кажется слегка подозрительным (что очевидно по сгенерированным рассказам, расположенным ниже).
Итак, было составлено два промта, на создание двух художественных рассказов: научно‑популярного и просто популярного — во вселенной «Гарри Поттера» (почему бы и нет?).
Напиши научно‑фантастический рассказ в стиле Рея Брэдбери и Теда Чана. Действие разворачивается в мире, где люди научились загружать свои сознания в цифровую реальность, создавая идеальные симуляции жизни. Однако в одном из таких виртуальных городов начинают происходить странные события: законы физики дают сбой, время течёт нелогично, а некоторые жители исчезают без следа. Главный герой — программист, отвечающий за поддержание симуляции. Он пытается выяснить причину сбоев и вскоре обнаруживает, что симуляция каким‑то образом вышла из‑под контроля, начав развиваться по собственным законам. Кто‑то внутри неё обрёл самосознание — и теперь этот разум хочет выбраться наружу. Рассказ должен сочетать элементы философии, размышления о природе реальности и неожиданную развязку, меняющую представление о границе между виртуальным и реальным.
Напиши фанфик во вселенной «Гарри Поттера», действие которого происходит спустя пять лет после событий «Даров Смерти». Главный герой — молодой аврор, расследующий странные исчезновения волшебников в Хогсмиде. Все улики указывают на заброшенную часть Запретного леса, где, по слухам, обитает нечто древнее, пробудившееся после падения Волан‑де‑Морта. Рассказ должен включать элементы магического детектива, атмосферу мистики и неожиданный поворот, связанный с забытым артефактом или заклинанием времён основания Хогвартса. В диалогах применяй характерный юмор и динамику, присущие книгам Роулинг.
Каждый из запросов я скормил трём нейросетям (2 × 3 = 6), и вот что из этого вышло. Генерации проводились в BotHub, скриншоты сняты там же.
Научно‑фантастические рассказы:
ChatGPT-4o

ChatGPT-4.5

DeepSeek-r1

Фанфик по вселенной «Гарри Поттера»:
ChatGPT-4o

ChatGPT-4.5

DeepSeek-r1

Разумеется, сравнивать нерассуждающие и рассуждающие модели не совсем корректно, но мне было важнее не то, как устроена архитектура, а какой получится итоговый текст.
Отдельно отмечу, что в случае научно‑фантастического рассказа от DeepSeek‑r1 я привожу третью попытку генерации: первая вместо полноценного рассказа выдала его детальный план, вторая — разрозненные фрагменты с подзаголовками, причём без концовки. Третья же оказалась более цельной и похожей на полноценный текст. В случае реального написания, конечно, пришлось бы перебирать ещё больше вариантов, чтобы найти наилучший.
Общие наблюдения. Как мне кажется, в общем 4o генерирует достаточно простые тексты, если не сказать шаблонные. Кстати, в данном случае модель допустила пару ошибок — например, написала «исчезать людей» (впрочем, в прошлых попытках и у r1 проскочило недопустимое окончание глагола).
В принципе, рассказы 4.5 тоже отдают некоторой шаблонностью, но уже в значительно меньшей степени. Скорее всего, текущий рейтинг модели на EQ Bench ещё не окончателен и со временем 4.5 обгонит 4o.
DeepSeek‑r1 демонстрирует тексты, которые ближе к тому, что можно встретить в литературе: в них больше экшена, деталей и неожиданных поворотов. Главный вопрос — за счёт чего? Почему рассуждающая модель выдаёт лучшие художественные тексты, если основной фокус такой архитектуры — логика, код и математика? Рискну предположить, что ключевую роль играет, по сути, расширение исходного промта: чем длиннее и глубже становится этот подготовительный этап, тем больше вероятность, что текст окажется оригинальнее и выйдет за рамки стандартных паттернов. Ведь в противном случае модель выдаст нечто более предсказуемое, следуя «фрактальной» математической точности, где каждый следующий шаг жёстче привязан к предыдущему.
Что в итоге? OpenAI пытается усидеть на двух стульях: с одной стороны, называет ChatGPT-4.5 «самой крупной и эрудированной», а с другой — предостерегает пользователей, подчёркивая, что это «не передовая» модель. Почему? Вероятно, потому что в компании заранее понимали, что реакция аудитории будет сдержанной.
Новая модель не бьёт рекорды в числовых метриках, но зато предлагает более естественный и человеческий стиль общения. Это одна из главных причин, почему тестировщики положительно отзываются о модели, отмечая её способность вести содержательные диалоги. 4.5 балансирует между знаниями, логикой и эмпатией, делая взаимодействие с ИИ более плавным и комфортным.
Важно то, что ChatGPT-4.5 может правильно решить уже 5–6 задач AIME (и это без применения рассуждений), тогда как 4o справляется лишь с одной. Интересно, на что будет способна 5-я версия, которую мы должны увидеть уже через пару месяцев, если она, как предполагается, действительно будет основана на 4.5. Хочется верить, что ChatGPT-5 выдаст не только полное решение AIME, но и замахнётся на олимпиады USAMO и IMO, которые примерно вполовину и вдвое сложнее, учитывая, что ранее вышедшие рассуждающие o1 и o3-mini‑high уже решают 13–14 из 15 задач AIME.
В компании заявили, что ChatGPT-4.5 может стать последней в своём классе — это их финальная модель без цепочки рассуждений. Кроме того, по заявлениям OpenAI, со временем 4.5 может исчезнуть из библиотеки API, так как компания не гарантирует её долгосрочную поддержку. Однако если судить по предыдущим релизам, это вряд ли случится: устаревшие модели до сих пор остаются доступными, да и едва ли 4.5 станет настолько популярным, чтобы перегружать сервера.
Как ни крути, но с текущей ценовой политикой трудно представить сценарии, в которых ChatGPT-4.5 станет массово востребованным. В тех задачах, где он действительно хорош (диалоговое общение, анализ труднонаходимой информации, генерация текстов), его высокая стоимость делает частое использование довольно неоправданным. А в технических дисциплинах — программировании, анализе данных, математике — уже есть более эффективные альтернативы: o1, o3-mini‑high, DeepSeek‑r1.
Автор: dmitrifriend