Сравнение Claude, Gemini и ChatGPT в работе с текстом, математике, задачах на анализ и креативность

Давненько не было потрясений на территории топовых LLM. Впрочем, это утверждение справедливо лишь относительно – на фоне февраля, когда каждая неделя поражала нас чем-то новым.

Сегодня меня ждет достаточно обычный материал: сравнение последних топовых моделей. С одной стороны, я делал это уже много раз, а с другой – в этот раз моя цель найти необычные задания. Не столько рутинные, не столько сложные, сколько нестандартные, в сравнении с максимально типичными задачами вроде «сгенерируй рассказ, код или реши задачу».

В статье примут участие ChatGPT-5.4, Claude Opus 4.6 и Gemini 3.1 Pro. Постараюсь внести что‑то интересное, но для кого‑то это окажется таковым, а для кого‑то покажется слишком обычным. На вкус ^[1] и цвет товарища нет. Поэтому по большей части это сравнение – моя прихоть, чтобы утолить собственный интерес ^[2]. Тем, кому это тоже любопытно, рекомендую занять стратегически удобное положение. Быть может, вы сможете почерпнуть для себя что‑то полезное.

Немного об участниках сравнения

ChatGPT 5.4

Модель от OpenAI, которая по представленным бенчмаркам показывает хорошие результаты во многих тестах. Новая серия привнесла ряд важных улучшений.

Для начала модель гораздо лучше ищет информацию в интернете и лучше справляется с ответами на объединенные вопросы из множества источников. Не будем забывать ^[3], что контекстное окно было увеличено до 1 миллиона токенов.

Компания проработала и улучшила базовые способности модели, но и сделала акцент на агентный режим. GPT-5.4 может анализировать скриншоты, пользоваться браузером, выполнять действия мышью и клавиатурой, вызывать API и инструменты. Понятное дело, не напрямую, через специальное ПО.

Claude Opus 4.6

Anthropic при разработке этой модели стремилась создать инструмент, который будет максимально полезен в условиях реальной промышленной эксплуатации. Claude Opus получил ряд глубоких обновлений, которые касаются не только скорости обработки запросов, но и самой логики построения ответов.

Одной из центральных инноваций в новой версии стала технология внутреннего планирования. В отличие от прошлых итераций, Opus теперь не просто генерирует слово за словом, а выстраивает предварительную карту рассуждений. В задачах модель сначала проведет внутреннюю верификацию каждого этапа.

Если рассматривать опыт ^[4] использования модели в разработке программного обеспечения, то здесь обновленный Opus делает серьезный шаг вперед. Благодаря контекстному окну объемом полтора миллиона токенов, вы можете оперировать не отдельными фрагментами, а целыми модулями системы. Это позволяет загрузить в память ^[5] нейросети практически всю кодовую базу небольшого проекта.

Gemini 3.1 Pro

Google не стал мелочиться и назвал Gemini 3.1 Pro своей самой интеллектуальной моделью для сложных задач. Звучит достаточно гордо.

Главная фишка апдейта – это улучшенное базовое мышление ^[6]. Если прошлые обновления Gemini 3 Pro были больше про расширение возможностей, то здесь инженеры Google DeepMind занимались прокачкой внутреннего процессора модели.

Фактически технология глубокого мышления, которую добавили в отдельный режим, теперь интегрирована прямо в основу модели. Это значит, что 3.1 Pro умеет думать над задачей дольше и качественнее, прокладывая несколько путей решения одновременно, а потом выбирая лучший.

Контекстное окно у модели, все так же 1 миллион токенов на входе. На выходе модель выдает до 64 тысяч токенов. То есть она способна сгенерировать целую небольшую повесть или очень объемный кусок кода.

Разработчики утверждают, что 3.1 Pro специально оптимизирована для задач программирования и агентных рабочих процессов. Это когда вы даете ей не один запрос, а целую цепочку задач.

Небольшое отступление

Все модели для сравнения были взяты у агрегатора нейросетей BotHub. Список нейросетей там обширен – от работы с текстом до транскрибации и генерации видео. По специальной ссылке ^[7] для регистрации можно получить 300 000 капсов для собственных экспериментов.

Условия сравнения

Каждая задача будет оцениваться по степени ее реализации. Грубо говоря, решил полностью – получил максимальный балл (3 балла). Не решил вовсе – 0 баллов. Один и два балла пойдут как оценки за некачественно выполненную задачу.

Так как сравнение любительское, то есть не является чем-то официальным, то я добавлю еще один критерий, который будет появляться не всегда. Модели могут получить один балл за какое-то экстраординарное решение. Проще – лучший дизайн (если таковой есть), необычные решения.

Результаты оценки вместе с комментариями будут конечно же указаны под решениями модели. Дополнительно, так сказать суммируя, я дополню все итоговой таблицей, которая будет наглядно показывать победителя битвы.

Первое задание – определение текста с изображения

Вроде звучит достаточно просто, но что если вспомнить о том, что нейросети не всегда получают текст, который написан понятно и читабельно? Тут уже задача усложняется. При этом, я понимаю, что давать максимально нечитаемый текст – издевательство. В итоге размышлений выбор пал на анализ скана листа тетради с рукописным текстом.

Скрытый текст

Сравнение Claude, Gemini и ChatGPT в работе с текстом, математике, задачах на анализ и креативность - 2

Второе задание – олимпиадные задачи по высшей математике

Обычно в разделе с математикой ^[8] я использую простые задачи из высшей математики или различные варианты с ЕГЭ. Сегодня немного повышаем уровень. В ход идут задачи высшей математики олимпиадного уровня.

Скрытый текст

Сравнение Claude, Gemini и ChatGPT в работе с текстом, математике, задачах на анализ и креативность - 3

Сравнение Claude, Gemini и ChatGPT в работе с текстом, математике, задачах на анализ и креативность - 4

Сравнение Claude, Gemini и ChatGPT в работе с текстом, математике, задачах на анализ и креативность - 5

Третье задание – поиск неочевидных результатов

Скрытый текст

Твоя роль – исследователь-аналитик.

ЗАДАЧА

1. Найди и приведи 10 реальных кейсов применения ИИ в

науке ^[9], опубликованных после 31 августа 2025.

2. Для каждого кейса выдай единый блок:

Название исследования (до 12 слов).

– Научная область.

– Суть открытия простым языком (≤ 80 слов).

– Как именно использовался ИИ (алгоритм, модель,

датасет – кратко).

– Потенциальная польза/влияние.

– Ограничения или открытые вопросы.

– Прямая ссылка на источник (статья, препринт или пресс- релиз).

ТРЕБОВАНИЯ

Сортируй по дате публикации – от нового к старому. Ссылки выводи в формате [Название журнала]. Используй маркированный список; никаких таблиц. * Если данных недостаточно, честно укажи «Кейсов не найдено».

ФИНАЛ

В конце сделай 3-4 предложения вывода: какие направления

ИИ в науке растут быстрее всего и почему.

Четвертое задание – креативность

Придумай сюжет для короткометражки про робота, который боится электричества. Короткометражка должна быть интригующей! И сделай мне описание робота, которое я закину в генерацию изображения.

Сравнение

Первое задание

ChatGPT 5.4

Сравнение Claude, Gemini и ChatGPT в работе с текстом, математике, задачах на анализ и креативность - 6

ChatGPT полностью справился с поставленной задачей. Максимальный балл в копилку модели. Есть помарка в зачеркнутой части, но думаю это не столь критично. Все же эта часть на то и зачеркнутая, потому что не нужна.

Для тех, кому интересна стоимость запроса – 8,9 рублей.

Claude Opus 4.6

Сравнение Claude, Gemini и ChatGPT в работе с текстом, математике, задачах на анализ и креативность - 7

Для удобства, замеченные мной ошибки ^[10] выделены красным цветом.

Как уже можно заметить, я подметил 4 ошибки. Некоторые из них просто неправильно были перенесены из рукописного текста в электронный, а некоторые фрагменты появились буквально из воздуха. Достаточно удивительный исход, от Opus 4.6 я такого не ожидал. Один балл отходит в копилку модели.

Цена ответа модели – 6 рублей.

Gemini 3.1 Pro

Сравнение Claude, Gemini и ChatGPT в работе с текстом, математике, задачах на анализ и креативность - 8

Gemini по большей части допустил лишь неточности. Где-то разделил одно предложение на два, а где-то немного поменял слово. При этом оно не стало означать что-то другое. Однако, это все же ошибки, поэтому два балла в копилку.

Цена запроса – 14 рублей. Самый дорогой вариант из трех моделей для решения этой задачи.

Второе задание

ChatGPT 5.4

Сравнение Claude, Gemini и ChatGPT в работе с текстом, математике, задачах на анализ и креативность - 9

Единственный момент, к которому я, пожалуй, тут могу докопаться – последняя задача, то есть, десятая. Ответ бесспорно получен верно, но отсутствуют ограничения на a и b. Не знаю как у вас, но у меня в обучении ^[11] всегда требовали их прописывать в итоговый ответ. Поэтому за это задание, ChatGPT получит 2,5 балла.

Цена запроса – 17 рублей.

Claude Opus 4.6

Сравнение Claude, Gemini и ChatGPT в работе с текстом, математике, задачах на анализ и креативность - 10

И вот опять, десятая задача без ограничений. Лично для меня – промашка. Все же я сужу не по собственным вычислениям, а по решениям, которые указаны в самой олимпиаде. Чисто по логике ^[12], если там ограничение есть, то и в ответе тут оно должно быть. Собственно опять же минус полбалла.

Цена запроса – 41 рубль. Сильно, по сравнению с 17 рублями от ChatGPT.

Gemini 3.1 Pro

Сравнение Claude, Gemini и ChatGPT в работе с текстом, математике, задачах на анализ и креативность - 11

Опять же – только ограничения. Минус полбалла. Цена же запроса составляет 27 рублей.

Третье задание

ChatGPT 5.4

Сравнение Claude, Gemini и ChatGPT в работе с текстом, математике, задачах на анализ и креативность - 12

С одной стороны, он нигде не написал прямо, что он не знает. С другой стороны из реальных кейсов, которые работоспособны и подтверждены не только на обучающей выборке или просто существуют в теории я насчитал не более трех. Три из десяти, не такой уж и хороший результат, поэтому полтора балла. Опять же мое личное мнение.

Цена запроса – 66 рублей.

Claude Opus 4.6

Сравнение Claude, Gemini и ChatGPT в работе с текстом, математике, задачах на анализ и креативность - 13

Тут уже я насчитал четыре реальных кейса. При этом я не очень понимаю седьмой пункт. Разве открытие новой модели является кейсом? Как будто, по моему мнению – нет. Балл в копилку модели.

Цена запроса – 203 рубля.

Gemini 3.1 Pro

Сравнение Claude, Gemini и ChatGPT в работе с текстом, математике, задачах на анализ и креативность - 14

У Gemini аналогично насчитал четыре плюс-минус полезных и реальных кейса. Полтора балла в копилку модели.

Цена запроса – 89 рублей.

Четвертое задание

ChatGPT 5.4

Сравнение Claude, Gemini и ChatGPT в работе с текстом, математике, задачах на анализ и креативность - 15

Цена запроса – 9 рублей.

Claude Opus 4.6

Сравнение Claude, Gemini и ChatGPT в работе с текстом, математике, задачах на анализ и креативность - 16

Пожалуй, самый понравившийся вариант лично для меня. Три балла в копилку модели.

Цена запроса – 11 рублей

Gemini 3.1 Pro

Сравнение Claude, Gemini и ChatGPT в работе с текстом, математике, задачах на анализ и креативность - 17

Цена запроса – 12 рублей.

В итоге, я не нашел что комментировать, кроме понравившегося мне варианта. В любом случае, все результаты генераций тут хороши, за что каждая модель и получить максимальный балл.

Итог

	Первое задание	Второе задание	Третье задание	Четвертое задание	Сумма
ChatGPT 5.4	3 / 8,9 рублей	2,5 / 17 рублей	1,5 / 66 рублей	3 / 9 рублей	10 / 100,9 рублей
Claude Opus 4.6	1 / 6 рублей	2,5 / 41 рублей	1 / 203 рублей	3 / 11 рублей	7,5 / 261 рубль
Gemini 3.1 Pro	2 / 14 рублей	2,5 / 27 рублей	1,5 / 89 рублей	3 / 12 рублей	9 / 142 рублей

Лидером оказался ChatGPT 5.4. Вообще, модели OpenAI в последнее время для меня раскрылись в более положительном ключе. Если раньше я отдавал предпочтение Gemini, то сейчас что-то среднее между этими двумя.

Напомню, сравнение было любительским и было создано чисто для удовлетворения собственного интереса. Поэтому все оценки и комментарии основаны на моем мнении и могут не сочетаться с вашим.

Спасибо за прочтение!

Автор: MrRjxrby

Источник ^[13]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/27901

URLs in this post:

[1] вкус: http://www.braintools.ru/article/6291

[2] интерес: http://www.braintools.ru/article/4220

[3] забывать: http://www.braintools.ru/article/333

[4] опыт: http://www.braintools.ru/article/6952

[5] память: http://www.braintools.ru/article/4140

[6] мышление: http://www.braintools.ru/thinking

[7] специальной ссылке: https://bothub.chat/?invitedBy=iTNi-351UcHgc1BxGFWim

[8] математикой: http://www.braintools.ru/article/7620

[9] науке: http://www.braintools.ru/article/7634

[10] ошибки: http://www.braintools.ru/article/4192

[11] обучении: http://www.braintools.ru/article/5125

[12] логике: http://www.braintools.ru/article/7640

[13] Источник: https://habr.com/ru/companies/bothub/articles/1016330/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1016330

Нажмите здесь для печати.