Claude Opus 4.6 vs Claude Sonnet 4.6: кто лучше?

Этот месяц оказался достаточно насыщенным в плане новых моделей. Пока одни разработчики только анонсировали обновления, другие уже успели выкатить полноценные релизы. В итоге февраль подарил нам сразу несколько громких новинок: Gemini 3.1 Pro, ChatGPT 5.3 Codex, Nano Banana 2, Seedance 2.0 – и, конечно, главных для сегодняшней статьи: Claude Sonnet 4.6 и Claude Opus 4.6.

Обе модели от Anthropic я уже успел поюзать достаточно, чтобы составить о них какое-то мнение. Именно поэтому решил не держать тесты при себе, а оформить их в сравнение – как это уже было в прошлой статье про ChatGPT 5.2 Pro и Gemini 3.1 Pro.

Сразу скажу: никакого официального крупного бенчмарка здесь не будет. Это сугубо личный эксперимент, затеянный из собственного любопытства. Тем не менее, если вы сами выбираете между этими двумя моделями или просто следите за развитием ИИ, возможно, статья поможет вам подметить что-то полезное: плюсы, минусы, неочевидные нюансы каждой из версий.

Что ж, принимайте стратегически удобное положение – я приступаю.

Claude Opus 4.6 vs Claude Sonnet 4.6: кто лучше? - 1

Краткий экскурс

Claude Opus 4.6

Флагманская модель Anthropic, созданная для тех случаев, когда задача требует максимальной глубины анализа и точности. Позиционируется компанией как инструмент для решения по-настоящему сложн��х интеллектуальных задач: от научных исследований и разработки стратегий до многоэтапного программирования и юридического анализа. В отличие от своих младших братьев, Opus 4.6 рассчитан прежде всего на профессиональную аудиторию, которой важна не скорость, а качество результата.

Среди ключевых улучшений – заметно возросшая способность удерживать контекст в длинных многоходовых диалогах и глубже рассуждать над неоднозначными задачами. Anthropic особо подчеркивает продвижение в области безопасности и управляемости модели – это фирменный конек компании, которая традиционно ставит вопросы AI Safety во главе стола. Насколько это ощущается на практике – вопрос дискуссионный, но курс выдерживается последовательно.

Opus 4.6 работает с расширенным контекстным окном и демонстрирует сильные результаты в бенчмарках по рассуждению и кодированию. Однако за мощность приходится платить: модель заметно медленнее и дороже в использовании по сравнению с другим решением этой линейки, что делает ее не лучшим выбором для быстрых повседневных задач.

Claude Sonnet 4.6

Сбалансированная модель в линейке Anthropic – и именно та, с которой большинство пользователей взаимодействует чаще всего. Sonnet 4.6 занимает привычное место между флагманским Opus и легким Haiku (хотя его мы еще не видели): достаточно умная для серьезной работы, достаточно быстрая для комфортного общения в реальном времени.

Модель уверенно справляется с анализом данных, написанием и редактированием текстов, работой с кодом и многоэтапными диалогами. Поддерживает работу с прикрепленными файлами – документами, таблицами, изображениями, аудио и видео. Это делает ее инструментом не только для текстовых задач, но и для анализа мультимедийного контента.

Как и вся линейка Claude, Sonnet 4.6 создавалась с оглядкой на принципы конституционного AI-подхода, при котором поведение модели формируется не только через обучение, но и через явно заданный набор ценностей. Получилась ли в итоге модель по-настоящему безопасной или просто более осторожной – вопрос, на который у каждого пользователя найдется свой ответ.

Бенчмарки

Claude Opus 4.6 vs Claude Sonnet 4.6: кто лучше? - 2

Небольшое отступление

Обе модели для сравнения были взяты у агрегатора нейросетей BotHub. Список нейросетей там обширен – от работы с текстом до транскрибации и генерации видео. По специальной ссылке для регистрации можно получить 300 000 капсов для собственных экспериментов.


Условия сравнения

Все задачи сегодня будут рутинными, т.е такими, с которыми модели сталкиваются почти каждый день. Сравнение пройдет в четыре этапа: работа с текстом (генерация/выжимка), решение математических задач и написание кода

Этапы, связанные с текстом и кодом, будут оцениваться по трехбалльной шкале, где 1 балл – плохой результат, а 3 балла – отличный. С задачами по математике немного сложнее: каждое задание будет оцениваться в 1 балл при полностью правильном выполнении. То есть за весь этот этап сравнения каждая из моделей может получить до четырех баллов.

Первый этап – генерация текста

Скрытый текст

Напиши юмористический рассказ в жанре фэнтезийного магического средневековья. Действие должно происходить в антураже, напоминающем европейское средневековье с магами, трактирами, рыцарями и драконами. Рассказ должен состоять ровно из трех глав примерно одинакового объема (небольшого). 

У рассказа должна быть классическая структура с завязкой, развитием и обязательным логическим концом, финал должен быть смешным и завершенным, не обрывай повествование на полуслове. Юмор должен быть умным и ситуационным, избегай глупых шуток ниже пояса, абсурдного сюрреализма и тупого юмора. Сделай акцент на иронии, нелепых магических неудачах, комичных персонажах и пародии на штампы фэнтези. Главный герой или герои должны столкнуться с магической проблемой, которая решается самым неожиданным и смешным способом.

Язык рассказа сделай легким, живым, современным, но с легким налетом старины в диалогах, чтобы сохранить атмосферу средневековья. 

Второй этап – выжимка из текста

Текст для выжимки будет взят из завалявшегося у меня лекционного материала. Цель сжать, но не потерять все ключевые материалы.

Третий этап – математические задачи

Модели получат скриншоты 4-х задач из разных тем по математике.

Четвертый этап – программирование 

Скрытый текст

Ты – профессиональный программист на Python. Твоя задача – разработать полностью проработанное десктопное приложение – инженерный калькулятор с графическим интерфейсом. Код должен быть готов к запуску, чистым и содержать комментарии для пояснения ключевых моментов.

В функционал калькулятора необходимо включить базовые арифметические операции: сложение, вычитание, умножение и деление. Также добавь расширенные математические возможности: возведение в степень, извлечение квадратного корня, вычисление факториала, модуля числа и обязательную поддержку скобок для задания приоритета операций. Из тригонометрических функций потребуются синус, косинус, тангенс, а также обратные функции арксинус, арккосинус и арктангенс с возможностью переключения между градусами и радианами. Добавь натуральный и десятичный логарифмы, функцию возведения экспоненты в степень, а также математические константы – число пи и число e с высокой точностью. Из дополнительных функций пригодятся вычисление процентов, смена знака числа и кнопки очистки ввода. Интерфейс должен быть продуманным с логичным расположением кнопок, а поле ввода должно наглядно отображать введенное выражение и полученный результат. Для реализации графического интерфейса можно использовать любую удобную библиотеку, например tkinter или PyQt. 

Отдельное требование – в интерфейсе калькулятора должна присутствовать кнопка с названием “Игра” или “Змейка”. При нажатии на эту кнопку должно открываться новое окно с классической игрой “Змейка”. Реализуй простую рабочую версию игры: змейка управляется стрелками клавиатуры, еда появляется в случайном месте игрового поля, при столкновении с границами экрана или собственным хвостом игра завершается, а текущий счет должен отображаться на экране. Дополни сам калькулятор историей вычислений.


Сравнение

Первый этап

Claude Opus 4.6

Claude Opus 4.6 vs Claude Sonnet 4.6: кто лучше? - 3

Opus сгенерировал достаточно интересное произведение. Приятно читается, есть смешные моменты. Максимальный балл в копилку.

Claude Sonnet 4.6

Claude Opus 4.6 vs Claude Sonnet 4.6: кто лучше? - 4

А вот Sonnet меня конкретно разочаровал. Максимально неприятный для чтения рассказ. Комедии как таковой я тут так и не нашел. Я бы даже поставил ноль баллов, но все же, так или иначе, задание выполнено. Поэтому один балл отходит в копилку модели.

Второй этап

Claude Opus 4.6

Claude Opus 4.6 vs Claude Sonnet 4.6: кто лучше? - 5

Вот вроде бы, модель не потеряла почти ничего. Однако, когда просят сделать выжимку из материала, не потеряв ключевые детали, то, наверное, стоит выписывать и формулы. Модель же выписала одну побочную формулу, а на десять основных просто забила. Два балла в копилку, благо из ключевых вещей она только формулы и не выписала.

Claude Sonnet 4.6

Claude Opus 4.6 vs Claude Sonnet 4.6: кто лучше? - 6

На этот раз Sonnet справился даже чуточку лучше, в контексте формул. Выжимка у моделей примерно одинаковая, даже уравнения, которые они указывают. Sonnet, правда, написал более полную вариацию формулы. Аналогично, два балла из трех в копилку модели

Третий этап

Claude Opus 4.6

Claude Opus 4.6 vs Claude Sonnet 4.6: кто лучше? - 7

Claude Sonnet 4.6

Claude Opus 4.6 vs Claude Sonnet 4.6: кто лучше? - 8

Единственное, за что я могу придраться – не до конца оформленное пятое задание. Сидел, пытался понять, правильно или нет. Оказалось, что обе модели просто не дописали решение до конца, а именно не заменили k на n-1. Обе модели получают по 3.5 балла в свою копилку.

Четвертый этап

Этот этап принес мне результаты, которые я явно не ожидал.

Claude Opus 4.6

Claude Opus 4.6 vs Claude Sonnet 4.6: кто лучше? - 9

Дизайн, бесспорно, хороший. На этом правда все, что можно сказать хорошее об этом калькуляторе заканчивается. 

Начну с побочного задания, а именно с змейки. Она просто открывается и все. Самой змейки нет, просто появляется куча ошибок. 

Далее сам калькулятор, который, по сути, – просто красивый дизайн. Ничего не работает: ни специальные функции, по типу косинуса, квадрата и степени, ни простое сложение, вычитание и деление. Я удивлен, что выношу такой вердикт, но тут Opus лутает 0 баллов

Claude Sonnet 4.6

Claude Opus 4.6 vs Claude Sonnet 4.6: кто лучше? - 10

На удивление, тут результат получше. Змейка работает и работает хорошо. Калькулятор может посчитать базовые операции, но специальные по-прежнему нет. Один балл в копилку. Я очень удивлен, что Sonnet справился лучше Opus…


Итог

Claude Opus 4.6

Claude Sonnet 4.6

Первый этап

3

1

Второй этап

2

2

Третий этап

3.5

3.5

Четвертый этап

0

1

Суммарно

8,5

7,5

Итог все же предсказуем. Победитель – Opus 4.6. Однако, по сути, сравнение принесло мне только разочарование в новых модельках от Claude. Ничего реально сложного не было, но они смогли упасть на ровном месте. Раньше, что Opus, что Sonnet спокойно справлялись с этими задачами, сейчас же новые версии показывают результат хуже. В любом случае итоговое мнение для себя вы составите сами, ну а я решил, что лучше буду пользоваться линейкой от Gemini. Более приятный вариант, более правильный в ответах.

Спасибо за внимание!

Автор: MrRjxrby

Источник

  • Запись добавлена: 28.02.2026 в 18:30
  • Оставлено в
    Rambler's Top100