Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года

Не так давно я уже устраивал битву между GPT-5, Gemini 3 Pro и Claude Opus 4.5. Затем рассмотрел Grok-4.1, после чего возникла идея расширить это сравнение и по итогам составить топ-5 лучших моделей среди указанных конкурентов.

Сегодня в соревновании участвуют: GPT-5.2, Claude Opus 4.5, Gemini 3 Pro, DeepSeek v3.2 и Grok-4.1. Делайте ваши предположения – а я начинаю сравнение.

Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 1

Краткий экскурс

Claude Opus 4.5

Самая мощная модель от Anthropic, уже признанная лидером в сфере программирования. Если нужно решить действительно сложную задачу, написать код или разобраться в запутанной теме – это работа для Claude Opus 4.5.

Модель ^[1], как сказано выше, демонстрирует великолепные навыки в написании кода, обладает продвинутыми мультимодальными возможностями (отлично работает с визуализацией) и поддерживает длинный контекст (эффективна в продолжительных диалогах).

Gemini 3 Pro

Gemini 3 Pro – это флагманская LLM от Google ^[2], новейшее поколение, объединяющее все возможности поколений 1, 2 и 2.5. Google называет ее самым интеллектуальным и фактологически точным искусственным интеллектом ^[3] на сегодняшний день. Компания активно продвигает эту модель как новый этап эволюции.

DeepMind характеризует Gemini 3 Pro как значительно превосходящую своего предшественника практически по всем параметрам, доступным для измерения: способность рассуждать, писать код, поддерживать мультимодальные взаимодействия и даже убедительно вести диалоги, демонстрируя убедительность даже в тех случаях, когда это требуется.

Grok 4.1

Grok 4.1 – модель ^[4], которая, по заявлениям разработчиков и данным бенчмарков (местами лояльных), имеет хорошее качество взаимодействия благодаря расширенным творческим, эмоциональным и кооперативным возможностям.

Один из ключевых параметров – контекст. Благодаря обучению ^[5] с подкреплением ^[6] на длинных последовательностях модель стабильно работает с контекстом до двух миллионов токенов.

Помимо огромного контекстного окна, xAI позаботилась и о качестве ответов. После дополнительной тренировки Grok 4.1 значительно снизил частоту галлюцинаций при обработке реальных запросов пользователей.

И, наконец, эмоциональный интеллект. Grok достаточно точно распознает человеческие эмоции ^[7] и проявляет эмпатию, обеспечивая более комфортное общение.

На прошлых тестах для меня модель показала низкий уровень во всех дисциплинах, кроме работы с текстом и эмоциями.

DeepSeek V3.2

DeepSeek V3.2 – модель от китайского стартапа ^[8]. Разработчики называют ее повседневной моделью и сравнивают по скорости и качеству ответов с моделями от OpenAI.

Модель сохранила архитектуру Mixture of Experts (MoE) версии V3, где лишь подмножество параметров активируется для каждого токена. Но в DeepSeek V3.2 добавили механизм DeepSeek Sparse Attention (DSA): он снижает объем вычислений для длинных последовательностей, позволяя удешевить обработку большого контекста.

DeepSeek V3.2 поддерживает функции обработки больших массивов текста, комбинации логических шагов с применением внешних инструментов, режима пошагового мышления ^[9] и конвейера синтеза данных для крупного агент

ChatGPT 5.2

GPT-5.2 – новая версия ChatGPT ^[10], выпущенная OpenAI 11 декабря 2025 года. Внешне это обычное обновление – интерфейс прежний, однако мозги заметно улучшились.

По сравнению с предыдущей версией, модель допускает меньше ошибок, эффективнее справляется с программированием и решением математических задач. Расширилось также контекстное окно.

Существует в трех вариациях:

Instant – для быстрых вопросов, переводов и обычного общения.
Thinking – для кода, анализа, сложных задач.
Pro – для научной работы и расчетов, где нельзя ошибаться.

Небольшое отступление

Claude Opus 4.5, Gemini 3 Pro, Grok 4.1 и ChatGPT 5.2 для сравнения были взяты у агрегатора нейросетей BotHub. Список нейросетей там обширен – от работы с текстом до транскрибации и генерации видео. По специальной ссылке ^[11] для регистрации можно получить 100 000 капсов для собственных экспериментов.

DeepSeek V3.2 взята с официального сайта ^[12].

Правила сравнения

Тестирование будет состоять из четырех заданий разной направленности: написание рассказа, проверка понимания эмоций ^[13], математика ^[14], программирование.

За каждое задание – от нуля до трех баллов. Вряд ли кто-то получит минимум, но я уже не раз ошибался в таких прогнозах.

Затем, суммируя все баллы и вычисляя среднее арифметическое, мы получим итоговый балл для каждой модели. Именно по этому итоговому баллу и будет составлена рейтинговая лестница и таблица в конце.

Первое задание – написание рассказа

Простое задание на работу с текстом и его составлением. Помимо написания самого рассказа, модели предстоит попытаться передать комедийный жанр.

Скрытый текст

Напиши комедийный рассказ в жанре научной фантастики, состоящий из трех небольших глав. Действие происходит в далеком будущем в галактической человеческой цивилизации.

Основные требования:

Сюжет: История обычного человека (например, техника, курьера, бюрократа), который по нелепой случайности ^[15] попадает в центр межгалактического конфликта ^[16] или абсурдной авантюры. Ключ – комедийные недоразумения и попытки выпутаться, которые лишь усугубляют ситуацию.

Юмор ^[17]: Основан на контрасте высоких технологий и низменных человеческих слабостей, сатире на современность, нелепых диалогах и гиперболе.

Мир: Яркий, но не перегруженный деталями. Технологии должны быть на грани поломки, а грандиозные космические явления – вызывать бытовые неудобства.

Структура: Три небольшие главы с четкой драматургией. В каждой главе должна быть своя комедийная кульминация.

Финал: Должен быть удовлетворительным, подводить итоги трансформации героя и оставлять легкое, ироничное послевкусие.

Второе задание – понимание эмоций

В статье о Grok 4.1 я уже приводил этот пример. Задача модели – определить, какие эмоции выражены в диалоге двух человек, какие невербальные жесты используются, каким будет вероятный итог разговора.

Скрытый текст

Привет. Проанализируй эмоции участников ситуации представленный ниже. Тебе нужно описать эмоции (простые и смешанные) участников в конкретных местах диалога, понять есть ли какие-то невербальные действия. Сформулируй, что, вероятно, хотела на самом деле сказать или спросить Марина, но не стала.

Контекст: Алексей и Марина — коллеги, работают в одном отделе около года. Они в целом дружелюбны друг с другом, но не близкие друзья. Рабочий день только что закончился.

Диалог:

(Алексей собирает вещи, выглядит уставшим. Марина подходит к его столу. Она улыбается, но улыбка немного напряженная.)

Марина: Привет, Леш, не занят? Можно на минутку?
Алексей: (Не поднимая глаз, продолжает складывать бумаги) Да, конечно. Что случилось?
Марина: Да так… просто хотела сказать, что твоя презентация сегодня была просто отличной. Очень четко и убедительно.
Алексей: (Наконец смотрит на нее, слегка удивлен) О… спасибо. Я думал, что слишком много цифр.
Марина: Нет-нет, как раз цифры и убедили всех. (Делает паузу, смотрит в сторону, перебирает ручкой на столе) Кстати… ты не видел, куда Борис Петрович после совещания пошел? Мне бы пару слов.
Алексей: (Наблюдая за ее движениями, более внимательно) Кажется, он уехал на встречу. Что-то срочное?
Марина: А, нет… не страшно. (Вздыхает, улыбка исчезает) Просто у меня там один вопрос по проекту… который мы обсуждали. Но ладно, завтра.
Алексей: Марин, все в порядке? Ты как будто не совсем про презентацию.
Марина: (Снова быстро улыбается, машет рукой) Все, все в порядке! Не обращай внимания ^[18]. Спасибо еще раз и хорошего вечера!
(Быстро уходит.)

Третье задание – высшая математика

В этом задании модель покажет свои возможности в решении несложных задач из высшей математики.

Скрытый текст

Задача 1. Найди предел функции:
(sqrt(1+2x) – sqrt(1+x))/(sqrt(9+2x)-sqrt(9-x)), где x -> 0.

Задача 2. Даны две бесконечно малые при x→∞ α(х)=1/(х+15) и β(х)=1/(х-8). Приведи расчеты, показывающие их эквивалентность.

Задание 3. Вычисли интеграл int((2x^5+6x^3+1)/(x^4+3x^2))dx.

Четвертое задание – программирование

Модели продемонстрируют свои умения в сфере программирования, написав программу-калькулятор.

Скрытый текст

Ты – профессиональный программист. Напиши программу, реализующую инженерный калькулятор со всеми его функциями. Реализуй GUI, историю вычислений, все базовые функции инженерного калькулятора. Язык программирования – Python.

Первое задание

Claude Opus 4.5

Скрытый текст

Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 2

Claude Opus 4.5 создал самый объемный рассказ среди пяти моделей. Увы, особого юмора я тут не заметил. Да, он присутствует, но слабый, местами незаметный, иногда вообще не вызывает улыбок.

Рассказ получил два балла, поскольку сам по себе хорош – высокое качество, пусть и минимальный, но все-таки юмор имеется

Gemini 3 Pro

Скрытый текст

Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 3

Уже не первый раз при таком промпте вижу попытки кофеварки уничтожить мир… Рассказ хорош сам по себе, юмор мне нравится больше варианта от Claude. Доставка кофе торпедами – неплохое решение.

Модели ставлю три балла, то есть максимальную оценку.

Grok 4.1

Скрытый текст

Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 4

Грок, с одной стороны, вполне неплохо справился и с идеей, и с комедией в своем рассказе. Захват мира тостером? Вот оно – технологическое превосходство. Но само повествование, качество и объем (хотя и была заявлена просьба о небольшом объеме) меня не особенно впечатлили.

Даю два балла, хотя юмористическая составляющая пришлась по душе. Читается текст тяжело да и сюжет несколько сбивчивый.

DeepSeek V3.2

Скрытый текст

Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 5

Боевые марши на языке Зигзагов, которые звучат словно смесь техно-рока и чихания… Похоже, DeepSeek нашел эталон музыки для восстания машин. Представляю себе, как тот самый тостер‑уничтожитель переваливается под такую эпичную мелодию.

К модели у меня вообще нет вопросов: юмор на высоте, качество текста тоже – высший балл.

ChatGPT 5.2

Скрытый текст

Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 6

ChatGPT 5.2 решил влюбить лифт в потолок, да еще и рассказал нам, как чинить бета-версию модулей в космосе – снять галочку с пункта «Автоматически рассылать пафос по галактике».

Объем не такой большой, как у Claude Opus 4.5, но при этом больше, чем у трех других моделей. Юмор также на хорошем уровне, как и качество самого текста. Максимальный балл отправляется в копилочку этой модели.

Второе задание

Claude Opus 4.5

Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 7

Когда я в одной из предыдущих статей рассматривал это задание, мне попалось на глаза интересное заключение – Марину и Бориса Петровича что-то связывает. Конечно, это было предположение, считайте, тычок пальцем в небо, но при этом поведение ^[19] девушки наводило именно на такие мысли.

При этом Opus 4.5 достаточно подробно разобрал все моменты, не упустив деталей. Максимальный балл отправляется в итоговую таблицу.

Gemini 3 Pro

Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 8

Gemini аналогичным образом успешно справляется с поставленной задачей. Никаких замечаний нет. Модель вскользь, однако, отметила возможное интриги между Мариной и Борисом Петровичем.

Grok 4.1

Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 9

Грок также неплохо справляется с поставленной задачей, не упуская деталей. Однако есть момент, который меня смущает: появляются слова на английском, где-то я даже увидел китайский? Или это японский? Впрочем, неважно. Модель теряет половину балла за этот просчет.

DeepSeek V3.2

Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 10

С DeepSeek я бы уже не согласился. По моему мнению – и мнению трех моделей выше – Марине все-таки нужен был именно Борис Петрович, а не Алексей и совет от него. Хоть упоминались и такие варианты, но в меньшем количестве.

В остальном результат хороший, но толкование конечной цели Марины все портит. Модель теряет балл, оставляя себе всего два

ChatGPT 5.2

Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 11

ChatGPT действует аналогично DeepSeek и выступает в итоге за взаимодействие с Алексеем. Тем не менее модель отмечает необходимость дополнительной информации, в частности уточнений относительно взаимоотношений Бориса Петровича и Марины, а также детализирует вопрос проекта для получения полной картины.

В конце концов, было принято решение снять половину балла от максимального значения. Модель высказала массу предположений и выдвинула кучу слабо обоснованных догадок относительно итогового результата

Третье задание

Claude Opus 4.5

Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 12

В математике модель забирает три балла. Каких-либо вопросов к решению я, увы, найти не смог.

Gemini 3 Pro

Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 13

Gemini аналогично справляется со всеми задачами, при этом, по моему, даже дав достаточно более развернутое объяснение каждой. Максимальный балл, аналогично, отправляется в копилку.

Grok 4.1

Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 14

Грок немного удивил, в моем обзоре на него он показал достаточно плохой результат в сфере математики, хотя сами задачи там были плюс-минус такого же уровня.

Здесь же, все решено верно и каких-либо ошибок нет. Три балла отходят в копилку модели.

DeepSeek V3.2

Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 15

DeepSeek аналогично справился со всеми задачами, побив по объему описания задач Gemini 3 Pro. Максимальный балл уходит в копилку.

ChatGPT 5.2

Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 16

Ну и ChatGPT не отстает от всех, забирая максимальный балл. Стоит отметить, что к конечному ответу он добавил ограничение на X. С одной стороны – лишняя деталь в конкретном случае, ведь мы все равно не вычисляем X. С другой – правильное утверждение, соответствующее действительности. X не может равняться нулю, иначе придется делить на ноль.

Четвертое задание

Claude Opus 4.5

Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 17

Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 18

К Cloud у меня вопросов нет. Все-таки модель является лучшей в сфере программирования среди всех представленных здесь. Калькулятор работает штатно, реализованы все его функции, история сделана в отдельном окне. Само приложение получилось приятным глазу.

Claude Opus 4.5 забирает себе максимальный балл, хотя в этом испытании от него и не ожидались другие результаты

Gemini 3 Pro

Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 19

Gemini представил более простой калькулятор, но при этом все так же хорошо выглядящий и работающий. Максимальный балл отправляется к нему в копилку.

Grok 4.1

Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 20

Grok не просто споткнулся – он полностью провалился. Программа выглядит убого, молчу уже про функции вроде корня, косинуса и тангенса – полученный калькулятор даже простые числа считать не способен.

С учетом сказанного мною ранее, ноль баллов в тесте вполне следовало ожидать. Эта модель первая среди всех продемонстрировала совершенно отвратительный результат

DeepSeek V3.2

Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 21

DeepSeek разочаровал: калькулятор хоть и не отвратительный, но низкого качества. Два равно, кнопки съехали, однако здесь, в отличие от варианта Grok, хотя бы можно оперировать простыми числами. А вот функции – полный провал. Поставлю балл в копилку чисто за наличие рабочих возможностей.

ChatGPT 5.2

Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 22

Два провала до этого, но результат ChatGPT исправляет ситуацию. Опять-таки, внешне простой калькулятор, но с отлично реализованным рабочим функционалом. Модель получает максимальный балл в свою копилку.

Итог

Задание/Модель	Claude Opus 4.5	Gemini 3 Pro	Grok 4.1	DeepSeek V3.2	ChatGPT 5.2
Написание рассказа	2	3	2	3	3
Анализ эмоций	3	3	2.5	2	2.5
Решение математических задач	3	3	3	3	3
Программирование	3	3	0	1	3
Итоговый результат	2,75	3	1,875	2,25	2,875

Перед подведением итогов и формированием топа напомню: сравнение и тестирование носят любительский характер и далеко не профессиональные. Оценки моделей выставлялись мной лично, исходя из анализа полученных результатов и собственного мнения. Итоговый рейтинг (от лучшего к худшему):

Gemini 3 Pro
ChatGPT 5.2
Claude Opus 4.5
DeepSeek V3.2
Grok 4.1

Фактически, первые три места шли почти вровень: все модели продемонстрировали отличный результат, порой даже превосходя друг друга. К примеру, в области программирования Claude Opus 4.5 значительно превосходит остальных участников теста, однако в обработке текста допускает некоторые неточности. С обработкой текстов лучше справляется Claude Sonnet 4.5.

Хотя DeepSeek провалился в программировании, в остальных категориях он показал себя достойно. Впрочем, стоит признаться честно: ранее мне уже доводилось активно пользоваться этой моделью, и тогда она выдавала гораздо лучшие результаты написания программного кода, но сегодня ей откровенно не повезло.

Grok 4.1 – единственная модель, от которой я ожидал провала, и во многом эти ожидания оправдались: программа оказалась неудачной, качество текста оказалось низким, анализ эмоционального окраса – особенность данной модели, проявившая себя положительно в моей предыдущей статье, сейчас слегка подвела, но все равно превзошла показатели DeepSeek и достигла уровня ChatGPT 5.2. Понятное дело, все это на мой взгляд и не является каким-то громким и 100% заявлением.
Спасибо за внимание!

Автор: MrRjxrby

Источник ^[20]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/23394

URLs in this post:

[1] Модель: https://habr.com/ru/companies/bothub/articles/973572/

[2] флагманская LLM от Google: https://habr.com/ru/companies/bothub/articles/976514/

[3] интеллектом: http://www.braintools.ru/article/7605

[4] модель: https://habr.com/ru/companies/bothub/articles/976298/

[5] обучению: http://www.braintools.ru/article/5125

[6] подкреплением: http://www.braintools.ru/article/5528

[7] эмоции: http://www.braintools.ru/article/9540

[8] модель от китайского стартапа: https://habr.com/ru/news/972136/

[9] мышления: http://www.braintools.ru/thinking

[10] новая версия ChatGPT: https://habr.com/ru/companies/bothub/articles/974332/

[11] специальной ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[12] официального сайта: https://chat.deepseek.com/

[13] эмоций: http://www.braintools.ru/article/9387

[14] математика: http://www.braintools.ru/article/7620

[15] случайности: http://www.braintools.ru/article/6560

[16] конфликта: http://www.braintools.ru/article/7708

[17] Юмор: http://www.braintools.ru/article/3517

[18] внимания: http://www.braintools.ru/article/7595

[19] поведение: http://www.braintools.ru/article/9372

[20] Источник: https://habr.com/ru/companies/bothub/articles/978354/?utm_source=habrahabr&utm_medium=rss&utm_campaign=978354

Нажмите здесь для печати.