Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года. ai.. ai. chatgpt.. ai. chatgpt. Claude.. ai. chatgpt. Claude. deepseek.. ai. chatgpt. Claude. deepseek. gemini.. ai. chatgpt. Claude. deepseek. gemini. gpt.. ai. chatgpt. Claude. deepseek. gemini. gpt. grok.. ai. chatgpt. Claude. deepseek. gemini. gpt. grok. Блог компании BotHub.. ai. chatgpt. Claude. deepseek. gemini. gpt. grok. Блог компании BotHub. Будущее здесь.. ai. chatgpt. Claude. deepseek. gemini. gpt. grok. Блог компании BotHub. Будущее здесь. ИИ.. ai. chatgpt. Claude. deepseek. gemini. gpt. grok. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект.. ai. chatgpt. Claude. deepseek. gemini. gpt. grok. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Контент и копирайтинг.. ai. chatgpt. Claude. deepseek. gemini. gpt. grok. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Контент и копирайтинг. научно-популярное.. ai. chatgpt. Claude. deepseek. gemini. gpt. grok. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Контент и копирайтинг. научно-популярное. нейросеть.. ai. chatgpt. Claude. deepseek. gemini. gpt. grok. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Контент и копирайтинг. научно-популярное. нейросеть. сравнение.

Не так давно я уже устраивал битву между GPT-5, Gemini 3 Pro и Claude Opus 4.5. Затем рассмотрел Grok-4.1, после чего возникла идея расширить это сравнение и по итогам составить топ-5 лучших моделей среди указанных конкурентов.

Сегодня в соревновании участвуют: GPT-5.2, Claude Opus 4.5, Gemini 3 Pro, DeepSeek v3.2 и Grok-4.1. Делайте ваши предположения – а я начинаю сравнение.

Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 1

Краткий экскурс

Claude Opus 4.5

Самая мощная модель от Anthropic, уже признанная лидером в сфере программирования. Если нужно решить действительно сложную задачу, написать код или разобраться в запутанной теме – это работа для Claude Opus 4.5.

Модель, как сказано выше, демонстрирует великолепные навыки в написании кода, обладает продвинутыми мультимодальными возможностями (отлично работает с визуализацией) и поддерживает длинный контекст (эффективна в продолжительных диалогах).

Gemini 3 Pro

Gemini 3 Pro – это флагманская LLM от Google, новейшее поколение, объединяющее все возможности поколений 1, 2 и 2.5. Google называет ее самым интеллектуальным и фактологически точным искусственным интеллектом на сегодняшний день. Компания активно продвигает эту модель как новый этап эволюции.

DeepMind характеризует Gemini 3 Pro как значительно превосходящую своего предшественника практически по всем параметрам, доступным для измерения: способность рассуждать, писать код, поддерживать мультимодальные взаимодействия и даже убедительно вести диалоги, демонстрируя убедительность даже в тех случаях, когда это требуется.

Grok 4.1

Grok 4.1 – модель, которая, по заявлениям разработчиков и данным бенчмарков (местами лояльных), имеет хорошее качество взаимодействия благодаря расширенным творческим, эмоциональным и кооперативным возможностям.

Один из ключевых параметров – контекст. Благодаря обучению с подкреплением на длинных последовательностях модель стабильно работает с контекстом до двух миллионов токенов.

Помимо огромного контекстного окна, xAI позаботилась и о качестве ответов. После дополнительной тренировки Grok 4.1 значительно снизил частоту галлюцинаций при обработке реальных запросов пользователей.

И, наконец, эмоциональный интеллект. Grok достаточно точно распознает человеческие эмоции и проявляет эмпатию, обеспечивая более комфортное общение.

На прошлых тестах для меня модель показала низкий уровень во всех дисциплинах, кроме работы с текстом и эмоциями. 

DeepSeek V3.2

DeepSeek V3.2 – модель от китайского стартапа. Разработчики называют ее повседневной моделью и сравнивают по скорости и качеству ответов с моделями от OpenAI.

Модель сохранила архитектуру Mixture of Experts (MoE) версии V3, где лишь подмножество параметров активируется для каждого токена. Но в DeepSeek V3.2 добавили механизм DeepSeek Sparse Attention (DSA): он снижает объем вычислений для длинных последовательностей, позволяя удешевить обработку большого контекста.

DeepSeek V3.2 поддерживает функции обработки больших массивов текста, комбинации логических шагов с применением внешних инструментов, режима пошагового мышления и конвейера синтеза данных для крупного агент

ChatGPT 5.2

GPT-5.2 – новая версия ChatGPT, выпущенная OpenAI 11 декабря 2025 года. Внешне это обычное обновление – интерфейс прежний, однако мозги заметно улучшились.

По сравнению с предыдущей версией, модель допускает меньше ошибок, эффективнее справляется с программированием и решением математических задач. Расширилось также контекстное окно.

Существует в трех вариациях:

  • Instant – для быстрых вопросов, переводов и обычного общения.

  • Thinking – для кода, анализа, сложных задач.

  • Pro – для научной работы и расчетов, где нельзя ошибаться.


Небольшое отступление

Claude Opus 4.5, Gemini 3 Pro, Grok 4.1 и ChatGPT 5.2 для сравнения были взяты у агрегатора нейросетей BotHub. Список нейросетей там обширен – от работы с текстом до транскрибации и генерации видео. По специальной ссылке для регистрации можно получить 100 000 капсов для собственных экспериментов.

DeepSeek V3.2 взята с официального сайта.


Правила сравнения

Тестирование будет состоять из четырех заданий разной направленности: написание рассказа, проверка понимания эмоций, математика, программирование.

За каждое задание – от нуля до трех баллов. Вряд ли кто-то получит минимум, но я уже не раз ошибался в таких прогнозах.

Затем, суммируя все баллы и вычисляя среднее арифметическое, мы получим итоговый балл для каждой модели. Именно по этому итоговому баллу и будет составлена рейтинговая лестница и таблица в конце.

Первое задание – написание рассказа

Простое задание на работу с текстом и его составлением. Помимо написания самого рассказа, модели предстоит попытаться передать комедийный жанр.

Скрытый текст

Напиши комедийный рассказ в жанре научной фантастики, состоящий из трех небольших глав. Действие происходит в далеком будущем в галактической человеческой цивилизации.

Основные требования:

Сюжет: История обычного человека (например, техника, курьера, бюрократа), который по нелепой случайности попадает в центр межгалактического конфликта или абсурдной авантюры. Ключ – комедийные недоразумения и попытки выпутаться, которые лишь усугубляют ситуацию.

Юмор: Основан на контрасте высоких технологий и низменных человеческих слабостей, сатире на современность, нелепых диалогах и гиперболе.

Мир: Яркий, но не перегруженный деталями. Технологии должны быть на грани поломки, а грандиозные космические явления – вызывать бытовые неудобства.

Структура: Три небольшие главы с четкой драматургией. В каждой главе должна быть своя комедийная кульминация.

Финал: Должен быть удовлетворительным, подводить итоги трансформации героя и оставлять легкое, ироничное послевкусие.

Второе задание – понимание эмоций

В статье о Grok 4.1 я уже приводил этот пример. Задача модели – определить, какие эмоции выражены в диалоге двух человек, какие невербальные жесты используются, каким будет вероятный итог разговора.

Скрытый текст

Привет. Проанализируй эмоции участников ситуации представленный ниже. Тебе нужно описать эмоции (простые и смешанные) участников в конкретных местах диалога, понять есть ли какие-то невербальные действия. Сформулируй, что, вероятно, хотела на самом деле сказать или спросить Марина, но не стала.

Контекст: Алексей и Марина — коллеги, работают в одном отделе около года. Они в целом дружелюбны друг с другом, но не близкие друзья. Рабочий день только что закончился.

Диалог:

(Алексей собирает вещи, выглядит уставшим. Марина подходит к его столу. Она улыбается, но улыбка немного напряженная.)

Марина: Привет, Леш, не занят? Можно на минутку?
Алексей: (Не поднимая глаз, продолжает складывать бумаги) Да, конечно. Что случилось?
Марина: Да так… просто хотела сказать, что твоя презентация сегодня была просто отличной. Очень четко и убедительно.
Алексей: (Наконец смотрит на нее, слегка удивлен) О… спасибо. Я думал, что слишком много цифр.
Марина: Нет-нет, как раз цифры и убедили всех. (Делает паузу, смотрит в сторону, перебирает ручкой на столе) Кстати… ты не видел, куда Борис Петрович после совещания пошел? Мне бы пару слов.
Алексей: (Наблюдая за ее движениями, более внимательно) Кажется, он уехал на встречу. Что-то срочное?
Марина: А, нет… не страшно. (Вздыхает, улыбка исчезает) Просто у меня там один вопрос по проекту… который мы обсуждали. Но ладно, завтра.
Алексей: Марин, все в порядке? Ты как будто не совсем про презентацию.
Марина: (Снова быстро улыбается, машет рукой) Все, все в порядке! Не обращай внимания. Спасибо еще раз и хорошего вечера!
(Быстро уходит.)

Третье задание – высшая математика

В этом задании модель покажет свои возможности в решении несложных задач из высшей математики.

Скрытый текст

Задача 1. Найди предел функции:
(sqrt(1+2x) – sqrt(1+x))/(sqrt(9+2x)-sqrt(9-x)), где x -> 0.

Задача 2. Даны две бесконечно малые при x→∞ α(х)=1/(х+15) и β(х)=1/(х-8). Приведи расчеты, показывающие их эквивалентность.

Задание 3. Вычисли интеграл int((2x^5+6x^3+1)/(x^4+3x^2))dx.

Четвертое задание – программирование

Модели продемонстрируют свои умения в сфере программирования, написав программу-калькулятор.

Скрытый текст

Ты – профессиональный программист. Напиши программу, реализующую инженерный калькулятор со всеми его функциями. Реализуй GUI, историю вычислений, все базовые функции инженерного калькулятора. Язык программирования – Python.


Первое задание

Claude Opus 4.5

Скрытый текст
Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 2

Claude Opus 4.5 создал самый объемный рассказ среди пяти моделей. Увы, особого юмора я тут не заметил. Да, он присутствует, но слабый, местами незаметный, иногда вообще не вызывает улыбок.

Рассказ получил два балла, поскольку сам по себе хорош – высокое качество, пусть и минимальный, но все-таки юмор имеется

Gemini 3 Pro

Скрытый текст
Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 3

Уже не первый раз при таком промпте вижу попытки кофеварки уничтожить мир… Рассказ хорош сам по себе, юмор мне нравится больше варианта от Claude. Доставка кофе торпедами – неплохое решение.

Модели ставлю три балла, то есть максимальную оценку.

Grok 4.1

Скрытый текст
Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 4

Грок, с одной стороны, вполне неплохо справился и с идеей, и с комедией в своем рассказе. Захват мира тостером? Вот оно – технологическое превосходство. Но само повествование, качество и объем (хотя и была заявлена просьба о небольшом объеме) меня не особенно впечатлили.

Даю два балла, хотя юмористическая составляющая пришлась по душе. Читается текст тяжело да и сюжет несколько сбивчивый.

DeepSeek V3.2

Скрытый текст
Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 5

Боевые марши на языке Зигзагов, которые звучат словно смесь техно-рока и чихания… Похоже, DeepSeek нашел эталон музыки для восстания машин. Представляю себе, как тот самый тостер‑уничтожитель переваливается под такую эпичную мелодию.

К модели у меня вообще нет вопросов: юмор на высоте, качество текста тоже – высший балл.

ChatGPT 5.2

Скрытый текст
Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 6

ChatGPT 5.2 решил влюбить лифт в потолок, да еще и рассказал нам, как чинить бета-версию модулей в космосе – снять галочку с пункта «Автоматически рассылать пафос по галактике».

Объем не такой большой, как у Claude Opus 4.5, но при этом больше, чем у трех других моделей. Юмор также на хорошем уровне, как и качество самого текста. Максимальный балл отправляется в копилочку этой модели.


Второе задание

Claude Opus 4.5

Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 7

Когда я в одной из предыдущих статей рассматривал это задание, мне попалось на глаза интересное заключение – Марину и Бориса Петровича что-то связывает. Конечно, это было предположение, считайте, тычок пальцем в небо, но при этом поведение девушки наводило именно на такие мысли.

При этом Opus 4.5 достаточно подробно разобрал все моменты, не упустив деталей. Максимальный балл отправляется в итоговую таблицу.

Gemini 3 Pro

Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 8

Gemini аналогичным образом успешно справляется с поставленной задачей. Никаких замечаний нет. Модель вскользь, однако, отметила возможное интриги между Мариной и Борисом Петровичем.

Grok 4.1

Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 9

Грок также неплохо справляется с поставленной задачей, не упуская деталей. Однако есть момент, который меня смущает: появляются слова на английском, где-то я даже увидел китайский? Или это японский? Впрочем, неважно. Модель теряет половину балла за этот просчет.

DeepSeek V3.2

Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 10

С DeepSeek я бы уже не согласился. По моему мнению – и мнению трех моделей выше – Марине все-таки нужен был именно Борис Петрович, а не Алексей и совет от него. Хоть упоминались и такие варианты, но в меньшем количестве.

В остальном результат хороший, но толкование конечной цели Марины все портит. Модель теряет балл, оставляя себе всего два

ChatGPT 5.2

Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 11

ChatGPT действует аналогично DeepSeek и выступает в итоге за взаимодействие с Алексеем. Тем не менее модель отмечает необходимость дополнительной информации, в частности уточнений относительно взаимоотношений Бориса Петровича и Марины, а также детализирует вопрос проекта для получения полной картины.

В конце концов, было принято решение снять половину балла от максимального значения. Модель высказала массу предположений и выдвинула кучу слабо обоснованных догадок относительно итогового результата


Третье задание

Claude Opus 4.5

Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 12

В математике модель забирает три балла. Каких-либо вопросов к решению я, увы, найти не смог.

Gemini 3 Pro

Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 13

Gemini аналогично справляется со всеми задачами, при этом, по моему, даже дав достаточно более развернутое объяснение каждой. Максимальный балл, аналогично, отправляется в копилку. 

Grok 4.1

Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 14

Грок немного удивил, в моем обзоре на него он показал достаточно плохой результат в сфере математики, хотя сами задачи там были плюс-минус такого же уровня.

Здесь же, все решено верно и каких-либо ошибок нет. Три балла отходят в копилку модели. 

DeepSeek V3.2

Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 15

DeepSeek аналогично справился со всеми задачами, побив по объему описания задач Gemini 3 Pro. Максимальный балл уходит в копилку.

ChatGPT 5.2

Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 16

Ну и ChatGPT не отстает от всех, забирая максимальный балл. Стоит отметить, что к конечному ответу он добавил ограничение на X. С одной стороны – лишняя деталь в конкретном случае, ведь мы все равно не вычисляем X. С другой – правильное утверждение, соответствующее действительности. X не может равняться нулю, иначе придется делить на ноль.


Четвертое задание

Claude Opus 4.5

Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 17
Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 18

К Cloud у меня вопросов нет. Все-таки модель является лучшей в сфере программирования среди всех представленных здесь. Калькулятор работает штатно, реализованы все его функции, история сделана в отдельном окне. Само приложение получилось приятным глазу.

Claude Opus 4.5 забирает себе максимальный балл, хотя в этом испытании от него и не ожидались другие результаты

Gemini 3 Pro

Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 19

Gemini представил более простой калькулятор, но при этом все так же хорошо выглядящий и работающий. Максимальный балл отправляется к нему в копилку.

Grok 4.1

Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 20

Grok не просто споткнулся – он полностью провалился. Программа выглядит убого, молчу уже про функции вроде корня, косинуса и тангенса – полученный калькулятор даже простые числа считать не способен.

С учетом сказанного мною ранее, ноль баллов в тесте вполне следовало ожидать. Эта модель первая среди всех продемонстрировала совершенно отвратительный результат

DeepSeek V3.2

Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 21

DeepSeek разочаровал: калькулятор хоть и не отвратительный, но низкого качества. Два равно, кнопки съехали, однако здесь, в отличие от варианта Grok, хотя бы можно оперировать простыми числами. А вот функции – полный провал. Поставлю балл в копилку чисто за наличие рабочих возможностей.

ChatGPT 5.2

Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года - 22

Два провала до этого, но результат ChatGPT исправляет ситуацию. Опять-таки, внешне простой калькулятор, но с отлично реализованным рабочим функционалом. Модель получает максимальный балл в свою копилку.

Итог

Задание/Модель

Claude Opus 4.5

Gemini 3 Pro

Grok 4.1

DeepSeek V3.2 

ChatGPT 5.2

Написание рассказа

2

3

2

3

3

Анализ эмоций

3

3

2.5

2

2.5

Решение математических задач

3

3

3

3

3

Программирование

3

3

0

1

3

Итоговый результат

2,75

3

1,875

2,25

2,875

Перед подведением итогов и формированием топа напомню: сравнение и тестирование носят любительский характер и далеко не профессиональные. Оценки моделей выставлялись мной лично, исходя из анализа полученных результатов и собственного мнения. Итоговый рейтинг (от лучшего к худшему):

  • Gemini 3 Pro

  • ChatGPT 5.2

  • Claude Opus 4.5

  • DeepSeek V3.2

  • Grok 4.1

Фактически, первые три места шли почти вровень: все модели продемонстрировали отличный результат, порой даже превосходя друг друга. К примеру, в области программирования Claude Opus 4.5 значительно превосходит остальных участников теста, однако в обработке текста допускает некоторые неточности. С обработкой текстов лучше справляется Claude Sonnet 4.5.

Хотя DeepSeek провалился в программировании, в остальных категориях он показал себя достойно. Впрочем, стоит признаться честно: ранее мне уже доводилось активно пользоваться этой моделью, и тогда она выдавала гораздо лучшие результаты написания программного кода, но сегодня ей откровенно не повезло.

Grok 4.1 – единственная модель, от которой я ожидал провала, и во многом эти ожидания оправдались: программа оказалась неудачной, качество текста оказалось низким, анализ эмоционального окраса – особенность данной модели, проявившая себя положительно в моей предыдущей статье, сейчас слегка подвела, но все равно превзошла показатели DeepSeek и достигла уровня ChatGPT 5.2. Понятное дело, все это на мой взгляд и не является каким-то громким и 100% заявлением.
Спасибо за внимание!

Автор: MrRjxrby

Источник

Rambler's Top100