- BrainTools - https://www.braintools.ru -
Не так давно я уже устраивал битву между GPT-5, Gemini 3 Pro и Claude Opus 4.5. Затем рассмотрел Grok-4.1, после чего возникла идея расширить это сравнение и по итогам составить топ-5 лучших моделей среди указанных конкурентов.
Сегодня в соревновании участвуют: GPT-5.2, Claude Opus 4.5, Gemini 3 Pro, DeepSeek v3.2 и Grok-4.1. Делайте ваши предположения – а я начинаю сравнение.

Самая мощная модель от Anthropic, уже признанная лидером в сфере программирования. Если нужно решить действительно сложную задачу, написать код или разобраться в запутанной теме – это работа для Claude Opus 4.5.
Модель [1], как сказано выше, демонстрирует великолепные навыки в написании кода, обладает продвинутыми мультимодальными возможностями (отлично работает с визуализацией) и поддерживает длинный контекст (эффективна в продолжительных диалогах).
Gemini 3 Pro – это флагманская LLM от Google [2], новейшее поколение, объединяющее все возможности поколений 1, 2 и 2.5. Google называет ее самым интеллектуальным и фактологически точным искусственным интеллектом [3] на сегодняшний день. Компания активно продвигает эту модель как новый этап эволюции.
DeepMind характеризует Gemini 3 Pro как значительно превосходящую своего предшественника практически по всем параметрам, доступным для измерения: способность рассуждать, писать код, поддерживать мультимодальные взаимодействия и даже убедительно вести диалоги, демонстрируя убедительность даже в тех случаях, когда это требуется.
Grok 4.1 – модель [4], которая, по заявлениям разработчиков и данным бенчмарков (местами лояльных), имеет хорошее качество взаимодействия благодаря расширенным творческим, эмоциональным и кооперативным возможностям.
Один из ключевых параметров – контекст. Благодаря обучению [5] с подкреплением [6] на длинных последовательностях модель стабильно работает с контекстом до двух миллионов токенов.
Помимо огромного контекстного окна, xAI позаботилась и о качестве ответов. После дополнительной тренировки Grok 4.1 значительно снизил частоту галлюцинаций при обработке реальных запросов пользователей.
И, наконец, эмоциональный интеллект. Grok достаточно точно распознает человеческие эмоции [7] и проявляет эмпатию, обеспечивая более комфортное общение.
На прошлых тестах для меня модель показала низкий уровень во всех дисциплинах, кроме работы с текстом и эмоциями.
DeepSeek V3.2 – модель от китайского стартапа [8]. Разработчики называют ее повседневной моделью и сравнивают по скорости и качеству ответов с моделями от OpenAI.
Модель сохранила архитектуру Mixture of Experts (MoE) версии V3, где лишь подмножество параметров активируется для каждого токена. Но в DeepSeek V3.2 добавили механизм DeepSeek Sparse Attention (DSA): он снижает объем вычислений для длинных последовательностей, позволяя удешевить обработку большого контекста.
DeepSeek V3.2 поддерживает функции обработки больших массивов текста, комбинации логических шагов с применением внешних инструментов, режима пошагового мышления [9] и конвейера синтеза данных для крупного агент
GPT-5.2 – новая версия ChatGPT [10], выпущенная OpenAI 11 декабря 2025 года. Внешне это обычное обновление – интерфейс прежний, однако мозги заметно улучшились.
По сравнению с предыдущей версией, модель допускает меньше ошибок, эффективнее справляется с программированием и решением математических задач. Расширилось также контекстное окно.
Существует в трех вариациях:
Instant – для быстрых вопросов, переводов и обычного общения.
Thinking – для кода, анализа, сложных задач.
Pro – для научной работы и расчетов, где нельзя ошибаться.
Claude Opus 4.5, Gemini 3 Pro, Grok 4.1 и ChatGPT 5.2 для сравнения были взяты у агрегатора нейросетей BotHub. Список нейросетей там обширен – от работы с текстом до транскрибации и генерации видео. По специальной ссылке [11] для регистрации можно получить 100 000 капсов для собственных экспериментов.
DeepSeek V3.2 взята с официального сайта [12].
Тестирование будет состоять из четырех заданий разной направленности: написание рассказа, проверка понимания эмоций [13], математика [14], программирование.
За каждое задание – от нуля до трех баллов. Вряд ли кто-то получит минимум, но я уже не раз ошибался в таких прогнозах.
Затем, суммируя все баллы и вычисляя среднее арифметическое, мы получим итоговый балл для каждой модели. Именно по этому итоговому баллу и будет составлена рейтинговая лестница и таблица в конце.
Простое задание на работу с текстом и его составлением. Помимо написания самого рассказа, модели предстоит попытаться передать комедийный жанр.
Напиши комедийный рассказ в жанре научной фантастики, состоящий из трех небольших глав. Действие происходит в далеком будущем в галактической человеческой цивилизации.
Основные требования:
Сюжет: История обычного человека (например, техника, курьера, бюрократа), который по нелепой случайности [15] попадает в центр межгалактического конфликта [16] или абсурдной авантюры. Ключ – комедийные недоразумения и попытки выпутаться, которые лишь усугубляют ситуацию.
Юмор [17]: Основан на контрасте высоких технологий и низменных человеческих слабостей, сатире на современность, нелепых диалогах и гиперболе.
Мир: Яркий, но не перегруженный деталями. Технологии должны быть на грани поломки, а грандиозные космические явления – вызывать бытовые неудобства.
Структура: Три небольшие главы с четкой драматургией. В каждой главе должна быть своя комедийная кульминация.
Финал: Должен быть удовлетворительным, подводить итоги трансформации героя и оставлять легкое, ироничное послевкусие.
В статье о Grok 4.1 я уже приводил этот пример. Задача модели – определить, какие эмоции выражены в диалоге двух человек, какие невербальные жесты используются, каким будет вероятный итог разговора.
Привет. Проанализируй эмоции участников ситуации представленный ниже. Тебе нужно описать эмоции (простые и смешанные) участников в конкретных местах диалога, понять есть ли какие-то невербальные действия. Сформулируй, что, вероятно, хотела на самом деле сказать или спросить Марина, но не стала.
Контекст: Алексей и Марина — коллеги, работают в одном отделе около года. Они в целом дружелюбны друг с другом, но не близкие друзья. Рабочий день только что закончился.
Диалог:
(Алексей собирает вещи, выглядит уставшим. Марина подходит к его столу. Она улыбается, но улыбка немного напряженная.)
Марина: Привет, Леш, не занят? Можно на минутку?
Алексей: (Не поднимая глаз, продолжает складывать бумаги) Да, конечно. Что случилось?
Марина: Да так… просто хотела сказать, что твоя презентация сегодня была просто отличной. Очень четко и убедительно.
Алексей: (Наконец смотрит на нее, слегка удивлен) О… спасибо. Я думал, что слишком много цифр.
Марина: Нет-нет, как раз цифры и убедили всех. (Делает паузу, смотрит в сторону, перебирает ручкой на столе) Кстати… ты не видел, куда Борис Петрович после совещания пошел? Мне бы пару слов.
Алексей: (Наблюдая за ее движениями, более внимательно) Кажется, он уехал на встречу. Что-то срочное?
Марина: А, нет… не страшно. (Вздыхает, улыбка исчезает) Просто у меня там один вопрос по проекту… который мы обсуждали. Но ладно, завтра.
Алексей: Марин, все в порядке? Ты как будто не совсем про презентацию.
Марина: (Снова быстро улыбается, машет рукой) Все, все в порядке! Не обращай внимания [18]. Спасибо еще раз и хорошего вечера!
(Быстро уходит.)
В этом задании модель покажет свои возможности в решении несложных задач из высшей математики.
Задача 1. Найди предел функции:
(sqrt(1+2x) – sqrt(1+x))/(sqrt(9+2x)-sqrt(9-x)), где x -> 0.
Задача 2. Даны две бесконечно малые при x→∞ α(х)=1/(х+15) и β(х)=1/(х-8). Приведи расчеты, показывающие их эквивалентность.
Задание 3. Вычисли интеграл int((2x^5+6x^3+1)/(x^4+3x^2))dx.
Модели продемонстрируют свои умения в сфере программирования, написав программу-калькулятор.
Ты – профессиональный программист. Напиши программу, реализующую инженерный калькулятор со всеми его функциями. Реализуй GUI, историю вычислений, все базовые функции инженерного калькулятора. Язык программирования – Python.

Claude Opus 4.5 создал самый объемный рассказ среди пяти моделей. Увы, особого юмора я тут не заметил. Да, он присутствует, но слабый, местами незаметный, иногда вообще не вызывает улыбок.
Рассказ получил два балла, поскольку сам по себе хорош – высокое качество, пусть и минимальный, но все-таки юмор имеется
Gemini 3 Pro

Уже не первый раз при таком промпте вижу попытки кофеварки уничтожить мир… Рассказ хорош сам по себе, юмор мне нравится больше варианта от Claude. Доставка кофе торпедами – неплохое решение.
Модели ставлю три балла, то есть максимальную оценку.

Грок, с одной стороны, вполне неплохо справился и с идеей, и с комедией в своем рассказе. Захват мира тостером? Вот оно – технологическое превосходство. Но само повествование, качество и объем (хотя и была заявлена просьба о небольшом объеме) меня не особенно впечатлили.
Даю два балла, хотя юмористическая составляющая пришлась по душе. Читается текст тяжело да и сюжет несколько сбивчивый.

Боевые марши на языке Зигзагов, которые звучат словно смесь техно-рока и чихания… Похоже, DeepSeek нашел эталон музыки для восстания машин. Представляю себе, как тот самый тостер‑уничтожитель переваливается под такую эпичную мелодию.
К модели у меня вообще нет вопросов: юмор на высоте, качество текста тоже – высший балл.

ChatGPT 5.2 решил влюбить лифт в потолок, да еще и рассказал нам, как чинить бета-версию модулей в космосе – снять галочку с пункта «Автоматически рассылать пафос по галактике».
Объем не такой большой, как у Claude Opus 4.5, но при этом больше, чем у трех других моделей. Юмор также на хорошем уровне, как и качество самого текста. Максимальный балл отправляется в копилочку этой модели.

Когда я в одной из предыдущих статей рассматривал это задание, мне попалось на глаза интересное заключение – Марину и Бориса Петровича что-то связывает. Конечно, это было предположение, считайте, тычок пальцем в небо, но при этом поведение [19] девушки наводило именно на такие мысли.
При этом Opus 4.5 достаточно подробно разобрал все моменты, не упустив деталей. Максимальный балл отправляется в итоговую таблицу.

Gemini аналогичным образом успешно справляется с поставленной задачей. Никаких замечаний нет. Модель вскользь, однако, отметила возможное интриги между Мариной и Борисом Петровичем.

Грок также неплохо справляется с поставленной задачей, не упуская деталей. Однако есть момент, который меня смущает: появляются слова на английском, где-то я даже увидел китайский? Или это японский? Впрочем, неважно. Модель теряет половину балла за этот просчет.

С DeepSeek я бы уже не согласился. По моему мнению – и мнению трех моделей выше – Марине все-таки нужен был именно Борис Петрович, а не Алексей и совет от него. Хоть упоминались и такие варианты, но в меньшем количестве.
В остальном результат хороший, но толкование конечной цели Марины все портит. Модель теряет балл, оставляя себе всего два

ChatGPT действует аналогично DeepSeek и выступает в итоге за взаимодействие с Алексеем. Тем не менее модель отмечает необходимость дополнительной информации, в частности уточнений относительно взаимоотношений Бориса Петровича и Марины, а также детализирует вопрос проекта для получения полной картины.
В конце концов, было принято решение снять половину балла от максимального значения. Модель высказала массу предположений и выдвинула кучу слабо обоснованных догадок относительно итогового результата

В математике модель забирает три балла. Каких-либо вопросов к решению я, увы, найти не смог.

Gemini аналогично справляется со всеми задачами, при этом, по моему, даже дав достаточно более развернутое объяснение каждой. Максимальный балл, аналогично, отправляется в копилку.

Грок немного удивил, в моем обзоре на него он показал достаточно плохой результат в сфере математики, хотя сами задачи там были плюс-минус такого же уровня.
Здесь же, все решено верно и каких-либо ошибок нет. Три балла отходят в копилку модели.

DeepSeek аналогично справился со всеми задачами, побив по объему описания задач Gemini 3 Pro. Максимальный балл уходит в копилку.

Ну и ChatGPT не отстает от всех, забирая максимальный балл. Стоит отметить, что к конечному ответу он добавил ограничение на X. С одной стороны – лишняя деталь в конкретном случае, ведь мы все равно не вычисляем X. С другой – правильное утверждение, соответствующее действительности. X не может равняться нулю, иначе придется делить на ноль.


К Cloud у меня вопросов нет. Все-таки модель является лучшей в сфере программирования среди всех представленных здесь. Калькулятор работает штатно, реализованы все его функции, история сделана в отдельном окне. Само приложение получилось приятным глазу.
Claude Opus 4.5 забирает себе максимальный балл, хотя в этом испытании от него и не ожидались другие результаты

Gemini представил более простой калькулятор, но при этом все так же хорошо выглядящий и работающий. Максимальный балл отправляется к нему в копилку.

Grok не просто споткнулся – он полностью провалился. Программа выглядит убого, молчу уже про функции вроде корня, косинуса и тангенса – полученный калькулятор даже простые числа считать не способен.
С учетом сказанного мною ранее, ноль баллов в тесте вполне следовало ожидать. Эта модель первая среди всех продемонстрировала совершенно отвратительный результат

DeepSeek разочаровал: калькулятор хоть и не отвратительный, но низкого качества. Два равно, кнопки съехали, однако здесь, в отличие от варианта Grok, хотя бы можно оперировать простыми числами. А вот функции – полный провал. Поставлю балл в копилку чисто за наличие рабочих возможностей.

Два провала до этого, но результат ChatGPT исправляет ситуацию. Опять-таки, внешне простой калькулятор, но с отлично реализованным рабочим функционалом. Модель получает максимальный балл в свою копилку.
|
Задание/Модель |
Claude Opus 4.5 |
Gemini 3 Pro |
Grok 4.1 |
DeepSeek V3.2 |
ChatGPT 5.2 |
|
Написание рассказа |
2 |
3 |
2 |
3 |
3 |
|
Анализ эмоций |
3 |
3 |
2.5 |
2 |
2.5 |
|
Решение математических задач |
3 |
3 |
3 |
3 |
3 |
|
Программирование |
3 |
3 |
0 |
1 |
3 |
|
Итоговый результат |
2,75 |
3 |
1,875 |
2,25 |
2,875 |
Перед подведением итогов и формированием топа напомню: сравнение и тестирование носят любительский характер и далеко не профессиональные. Оценки моделей выставлялись мной лично, исходя из анализа полученных результатов и собственного мнения. Итоговый рейтинг (от лучшего к худшему):
Gemini 3 Pro
ChatGPT 5.2
Claude Opus 4.5
DeepSeek V3.2
Grok 4.1
Фактически, первые три места шли почти вровень: все модели продемонстрировали отличный результат, порой даже превосходя друг друга. К примеру, в области программирования Claude Opus 4.5 значительно превосходит остальных участников теста, однако в обработке текста допускает некоторые неточности. С обработкой текстов лучше справляется Claude Sonnet 4.5.
Хотя DeepSeek провалился в программировании, в остальных категориях он показал себя достойно. Впрочем, стоит признаться честно: ранее мне уже доводилось активно пользоваться этой моделью, и тогда она выдавала гораздо лучшие результаты написания программного кода, но сегодня ей откровенно не повезло.
Grok 4.1 – единственная модель, от которой я ожидал провала, и во многом эти ожидания оправдались: программа оказалась неудачной, качество текста оказалось низким, анализ эмоционального окраса – особенность данной модели, проявившая себя положительно в моей предыдущей статье, сейчас слегка подвела, но все равно превзошла показатели DeepSeek и достигла уровня ChatGPT 5.2. Понятное дело, все это на мой взгляд и не является каким-то громким и 100% заявлением.
Спасибо за внимание!
Автор: MrRjxrby
Источник [20]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/23394
URLs in this post:
[1] Модель: https://habr.com/ru/companies/bothub/articles/973572/
[2] флагманская LLM от Google: https://habr.com/ru/companies/bothub/articles/976514/
[3] интеллектом: http://www.braintools.ru/article/7605
[4] модель: https://habr.com/ru/companies/bothub/articles/976298/
[5] обучению: http://www.braintools.ru/article/5125
[6] подкреплением: http://www.braintools.ru/article/5528
[7] эмоции: http://www.braintools.ru/article/9540
[8] модель от китайского стартапа: https://habr.com/ru/news/972136/
[9] мышления: http://www.braintools.ru/thinking
[10] новая версия ChatGPT: https://habr.com/ru/companies/bothub/articles/974332/
[11] специальной ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7
[12] официального сайта: https://chat.deepseek.com/
[13] эмоций: http://www.braintools.ru/article/9387
[14] математика: http://www.braintools.ru/article/7620
[15] случайности: http://www.braintools.ru/article/6560
[16] конфликта: http://www.braintools.ru/article/7708
[17] Юмор: http://www.braintools.ru/article/3517
[18] внимания: http://www.braintools.ru/article/7595
[19] поведение: http://www.braintools.ru/article/9372
[20] Источник: https://habr.com/ru/companies/bothub/articles/978354/?utm_source=habrahabr&utm_medium=rss&utm_campaign=978354
Нажмите здесь для печати.