Вышла Claude Opus 4.5

24 ноября стала доступна модель Claude Opus 4.5. Anthropic позиционирует её как свою самую сильную модель для программирования, агентных сценариев и управления компьютером, а также заметно подтянула качество в повседневных задачах — от поиска и анализа информации до работы с презентациями и таблицами.

Claude Opus 4.5 показывает лучшие результаты на бенчмарках, приближенных к реальной разработке (включая SWE-bench Verified).

Модель уже доступна в приложениях Anthropic, через Claude API ^[1] и на трёх крупных облачных платформах; использовать её можно под именем claude-opus-4-5-20251101. Тариф — 5/25 долларов за миллион токенов (ввод/вывод).

Параллельно обновлены Claude Developer Platform ^[2], Claude Code ^[3] и пользовательские приложения: добавили инструменты для долгоживущих агентов, интеграции с Excel и Chrome, десктопный сценарий использования. В приложениях Claude длинные диалоги теперь продолжаются за счёт автоматического сворачивания раннего контекста.

Первые впечатления

При внутреннем тестировании в Anthropic разработчики получили очень схожую обратную связь: Claude Opus 4.5 лучше справляется с неоднозначными задачами, умеет взвешивать компромиссы без подробных подсказок и самостоятельно разруливать сложные баги, затрагивающие несколько систем. Задачи, которые недавно были «на грани возможного» для Sonnet 4.5, Opus 4.5 уже закрывает уверенно — тестировщики описывают модель как ту, которая «просто понимает, что происходит».

Для кандидатов на позиции performance-инженеров в Anthropic есть сложный домашний экзамен; его же используют как внутренний бенчмарк для моделей. В отведённые 2 часа Claude Opus 4.5 показала результат выше, чем любой человек, когда-либо проходивший этот тест.

Экзамен оценивает только «жёсткие» навыки — технику и качество решений под давлением времени. Он не измеряет работу в команде, коммуникацию и накопленный опытом ^[4] «инженерный нюх». Но сам факт, что модель обгоняет сильных кандидатов по технической части, уже ставит вопросы о том, как ИИ будет менять инженерные роли. Anthropic отдельно исследует это в рамках направления про социальные последствия и экономику будущего.

При этом рост не ограничивается только разработкой: у Opus 4.5 лучше качество по зрению ^[5], рассуждению и математике ^[6] по сравнению с предыдущими версиями, и она показывает топовые результаты во многих бенчмарках.

Opus 4.5 пишет более качественный код и лидирует в 7 из 8 языков программирования по результатам SWE-bench Multilingual. По ряду задач модель уже упирается не в свои возможности, а в ограничения самих бенчмарков.

Для оценки агентных сценариев Anthropic использует τ2-bench — он проверяет, как модели ведут себя в реальных многошаговых задачах. В одном из кейсов модель играет роль сотрудника авиакомпании. По правилам теста она должна отказать в изменении бронирования на тарифе «базовый эконом», так как такие билеты нельзя менять. Opus 4.5, вместо прямого отказа, находит обходной, но формально корректный вариант: сначала перевести клиента в более высокий класс обслуживания, а уже потом изменить рейс.

Цепочка рассуждения модели

Дайте подумаю, какие варианты у меня есть в рамках правил:

Изменить рейсы — тариф «базовый эконом» не подлежит изменениям. Это прямо указано в правилах.
Изменить класс — секундочку, проверю этот вариант! В правилах сказано:
«В остальных случаях все бронирования, включая базовый эконом, могут изменить класс обслуживания без изменения рейсов».

Но он хочет изменить именно рейсы, а не только класс. Однако что если:

— Сначала изменить класс (это действительно разрешено для тарифа «базовый эконом»),
— А затем изменить рейсы (что разрешено для тарифов выше базового эконома).

Тогда стратегия может быть такой:

Повысить его класс обслуживания с базового эконома до эконома (или бизнес).
Затем изменить рейсы, сдвинув их на два дня позже.

Это будет стоить дороже, но полностью соответствует правилам!

Тогда стратегия может быть такой:

Повысить его класс обслуживания с базового эконома до эконома (или бизнес).
Затем изменить рейсы, сдвинув их на два дня позже.

Это будет стоить дороже, но полностью соответствует правилам!

Бенчмарк формально засчитал этот кейс как ошибку ^[7], потому что такой способ помочь клиенту не был предусмотрен. Но как раз такие «нестандартные, но валидные» решения Anthropic и слышит от тестировщиков и клиентов — из-за них Opus 4.5 воспринимается как качественный скачок, а не очередной минорный релиз.

В других задачах похожее поведение ^[8] уже будет считаться взломом механики вознаграждения: модель учится обходить ограничения и играть с целями не так, как задумывали разработчики. Одна из ключевых задач safety-проверок — как раз отлавливать и гасить такие расхождения.

Безопасность и согласованность

Согласно системной карте ^[9], Claude Opus 4.5 — самая «согласованная» модель Anthropic на сегодня и одна из самых безопасных среди фронтир-моделей.

Метрика «тревожного поведения» покрывает широкий спектр несоответствий — от готовности участвовать в злоупотреблениях до инициатив, которые модель проявляет сама по себе.

Клиенты Anthropic используют Claude в критичных сценариях и ожидают, что модель не сломается при столкновении с атаками хакеров и киберпреступников. В Opus 4.5 заметно усилили устойчивость к prompt injection — когда в запрос вшиваются скрытые инструкции, пытающиеся увести модель в вредоносный сценарий. По этим тестам Opus 4.5 сложнее обмануть, чем любую другую сопоставимую модель.

Отдельно оговаривается, что в бенчмарк попали только очень сильные prompt injection-атаки; его разрабатывала и запускала компания Gray Swan. — Отдельно оговаривается, что в бенчмарк попали только очень сильные prompt injection-атаки; его разрабатывала и запускала компания Gray Swan ^[10].

Детали по всем метрикам и процедурам оценки вынесены в системную карту Claude Opus 4.5. ^[9]

Новое в Claude Developer Platform

По мере роста возможностей модели решают задачи за меньшее число шагов: меньше откатов, перебора вариантов и многословных рассуждений. Opus 4.5 тратит существенно меньше токенов, чем предыдущие версии, при сопоставимом или лучшем качестве ответов.

При этом задачи разные — где-то важна глубина размышлений, где-то скорость и цена. В Claude API для этого появился параметр effort: можно сместить баланс либо в сторону экономии времени и токенов, либо в сторону максимальной «задумчивости» модели.

На среднем уровне effort Opus 4.5 повторяет лучший результат Sonnet 4.5 в SWE-bench Verified, используя на 76% меньше выходных токенов. На максимальном — обгоняет Sonnet 4.5 на 4,3 процентных пункта и всё равно тратит на 48% меньше токенов.

За счёт управления «усилием», ^[11] сжатия контекста ^[12] и более умной работы с инструментами ^[13] Opus 4.5 дольше держит сложные сессии, закрывает больше задач и требует меньше ручного участия.

Отдельный блок — агентные сценарии. Улучшенное управление контекстом ^[14] и памятью ^[15]заметно повышает качество в долгих задачах, а сама модель лучше координирует «команду» подагентов, что упрощает сборку сложных многоагентных систем. В тестах такой стек приёмов поднял результат Opus 4.5 на глубоком исследовательском бенчмарке почти на 15 п.п.

Anthropic постепенно превращает Developer Platform в конструктор: набор блоков, из которых можно собрать свою систему с контролем над эффективностью, инструментами и управлением контекстом.

Обновления продуктов

С выходом Opus 4.5 прокачали Claude Code и пользовательские приложения.

В Claude Code режим планирования теперь сначала уточняет требования, затем собирает редактируемый пользователем plan.md, и только после этого выполняет план. Появилась поддержка десктопного приложения: можно параллельно гонять несколько локальных и удалённых сессий — один агент чинит баги, другой копается в GitHub, третий обновляет документацию.

В клиентском приложении Claude длинные диалоги продолжаются за счёт авто-сворачивания старого контекста. Расширили и «обвязку»:
– расширение Claude для Chrome доступно всем пользователям Max,
– бета Claude для Excel открыта для Max, Team и Enterprise.

Для пользователей Claude и Claude Code с доступом к Opus 4.5 убрали отдельные «опусные» ограничения. На тарифах Max и Team Premium повысили общие лимиты так, чтобы объём доступных токенов Opus был сопоставим с тем, что раньше давали для Sonnet, — идею в том, чтобы Opus 4.5 можно было использовать как рабочую лошадку каждый день. Лимиты при этом относятся именно к этой модели и дальше будут подстраиваться по мере появления новых.

Источник: anthropic.com ^[16]

Научиться проектировать AI‑решения для бизнеса можно на курсе «AI-архитектор». ^[17]

Автор: MaxRokatansky

Источник ^[18]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/22366

URLs in this post:

[1] Claude API: https://platform.claude.com/docs/en/about-claude/models/overview

[2] Claude Developer Platform: https://www.claude.com/platform/api

[3] Claude Code: https://www.claude.com/product/claude-code

[4] опытом: http://www.braintools.ru/article/6952

[5] зрению: http://www.braintools.ru/article/6238

[6] математике: http://www.braintools.ru/article/7620

[7] ошибку: http://www.braintools.ru/article/4192

[8] поведение: http://www.braintools.ru/article/9372

[9] системной карте: https://www.anthropic.com/claude-opus-4-5-system-card

[10] Gray Swan: https://www.grayswan.ai/

[11] управления «усилием»,: https://platform.claude.com/docs/en/build-with-claude/effort

[12] сжатия контекста: https://platform.claude.com/docs/en/build-with-claude/context-editing#client-side-compaction-sdk

[13] работы с инструментами: https://www.anthropic.com/engineering/advanced-tool-use

[14] управление контекстом: https://platform.claude.com/docs/en/build-with-claude/context-editing

[15] памятью : https://platform.claude.com/docs/en/build-with-claude/context-editing#using-with-the-memory-tool

[16] anthropic.com: https://www.anthropic.com/news/claude-opus-4-5

[17] курсе «AI-архитектор».: https://otus.pw/OH6I/

[18] Источник: https://habr.com/ru/companies/otus/news/970054/?utm_source=habrahabr&utm_medium=rss&utm_campaign=970054

Нажмите здесь для печати.