- BrainTools - https://www.braintools.ru -
24 ноября стала доступна модель Claude Opus 4.5. Anthropic позиционирует её как свою самую сильную модель для программирования, агентных сценариев и управления компьютером, а также заметно подтянула качество в повседневных задачах — от поиска и анализа информации до работы с презентациями и таблицами.
Claude Opus 4.5 показывает лучшие результаты на бенчмарках, приближенных к реальной разработке (включая SWE-bench Verified).

Модель уже доступна в приложениях Anthropic, через Claude API [1] и на трёх крупных облачных платформах; использовать её можно под именем claude-opus-4-5-20251101. Тариф — 5/25 долларов за миллион токенов (ввод/вывод).
Параллельно обновлены Claude Developer Platform [2], Claude Code [3] и пользовательские приложения: добавили инструменты для долгоживущих агентов, интеграции с Excel и Chrome, десктопный сценарий использования. В приложениях Claude длинные диалоги теперь продолжаются за счёт автоматического сворачивания раннего контекста.
При внутреннем тестировании в Anthropic разработчики получили очень схожую обратную связь: Claude Opus 4.5 лучше справляется с неоднозначными задачами, умеет взвешивать компромиссы без подробных подсказок и самостоятельно разруливать сложные баги, затрагивающие несколько систем. Задачи, которые недавно были «на грани возможного» для Sonnet 4.5, Opus 4.5 уже закрывает уверенно — тестировщики описывают модель как ту, которая «просто понимает, что происходит».
Для кандидатов на позиции performance-инженеров в Anthropic есть сложный домашний экзамен; его же используют как внутренний бенчмарк для моделей. В отведённые 2 часа Claude Opus 4.5 показала результат выше, чем любой человек, когда-либо проходивший этот тест.
Экзамен оценивает только «жёсткие» навыки — технику и качество решений под давлением времени. Он не измеряет работу в команде, коммуникацию и накопленный опытом [4] «инженерный нюх». Но сам факт, что модель обгоняет сильных кандидатов по технической части, уже ставит вопросы о том, как ИИ будет менять инженерные роли. Anthropic отдельно исследует это в рамках направления про социальные последствия и экономику будущего.
При этом рост не ограничивается только разработкой: у Opus 4.5 лучше качество по зрению [5], рассуждению и математике [6] по сравнению с предыдущими версиями, и она показывает топовые результаты во многих бенчмарках.

Opus 4.5 пишет более качественный код и лидирует в 7 из 8 языков программирования по результатам SWE-bench Multilingual. По ряду задач модель уже упирается не в свои возможности, а в ограничения самих бенчмарков.
Для оценки агентных сценариев Anthropic использует τ2-bench — он проверяет, как модели ведут себя в реальных многошаговых задачах. В одном из кейсов модель играет роль сотрудника авиакомпании. По правилам теста она должна отказать в изменении бронирования на тарифе «базовый эконом», так как такие билеты нельзя менять. Opus 4.5, вместо прямого отказа, находит обходной, но формально корректный вариант: сначала перевести клиента в более высокий класс обслуживания, а уже потом изменить рейс.
Дайте подумаю, какие варианты у меня есть в рамках правил:
Изменить рейсы — тариф «базовый эконом» не подлежит изменениям. Это прямо указано в правилах.
Изменить класс — секундочку, проверю этот вариант! В правилах сказано:
«В остальных случаях все бронирования, включая базовый эконом, могут изменить класс обслуживания без изменения рейсов».
Но он хочет изменить именно рейсы, а не только класс. Однако что если:
— Сначала изменить класс (это действительно разрешено для тарифа «базовый эконом»),
— А затем изменить рейсы (что разрешено для тарифов выше базового эконома).
Тогда стратегия может быть такой:
Повысить его класс обслуживания с базового эконома до эконома (или бизнес).
Затем изменить рейсы, сдвинув их на два дня позже.
Это будет стоить дороже, но полностью соответствует правилам!
Тогда стратегия может быть такой:
Повысить его класс обслуживания с базового эконома до эконома (или бизнес).
Затем изменить рейсы, сдвинув их на два дня позже.
Это будет стоить дороже, но полностью соответствует правилам!
Бенчмарк формально засчитал этот кейс как ошибку [7], потому что такой способ помочь клиенту не был предусмотрен. Но как раз такие «нестандартные, но валидные» решения Anthropic и слышит от тестировщиков и клиентов — из-за них Opus 4.5 воспринимается как качественный скачок, а не очередной минорный релиз.
В других задачах похожее поведение [8] уже будет считаться взломом механики вознаграждения: модель учится обходить ограничения и играть с целями не так, как задумывали разработчики. Одна из ключевых задач safety-проверок — как раз отлавливать и гасить такие расхождения.
Согласно системной карте [9], Claude Opus 4.5 — самая «согласованная» модель Anthropic на сегодня и одна из самых безопасных среди фронтир-моделей.
Клиенты Anthropic используют Claude в критичных сценариях и ожидают, что модель не сломается при столкновении с атаками хакеров и киберпреступников. В Opus 4.5 заметно усилили устойчивость к prompt injection — когда в запрос вшиваются скрытые инструкции, пытающиеся увести модель в вредоносный сценарий. По этим тестам Opus 4.5 сложнее обмануть, чем любую другую сопоставимую модель.
Детали по всем метрикам и процедурам оценки вынесены в системную карту Claude Opus 4.5. [9]
По мере роста возможностей модели решают задачи за меньшее число шагов: меньше откатов, перебора вариантов и многословных рассуждений. Opus 4.5 тратит существенно меньше токенов, чем предыдущие версии, при сопоставимом или лучшем качестве ответов.
При этом задачи разные — где-то важна глубина размышлений, где-то скорость и цена. В Claude API для этого появился параметр effort: можно сместить баланс либо в сторону экономии времени и токенов, либо в сторону максимальной «задумчивости» модели.
На среднем уровне effort Opus 4.5 повторяет лучший результат Sonnet 4.5 в SWE-bench Verified, используя на 76% меньше выходных токенов. На максимальном — обгоняет Sonnet 4.5 на 4,3 процентных пункта и всё равно тратит на 48% меньше токенов.

За счёт управления «усилием», [11] сжатия контекста [12] и более умной работы с инструментами [13] Opus 4.5 дольше держит сложные сессии, закрывает больше задач и требует меньше ручного участия.
Отдельный блок — агентные сценарии. Улучшенное управление контекстом [14] и памятью [15]заметно повышает качество в долгих задачах, а сама модель лучше координирует «команду» подагентов, что упрощает сборку сложных многоагентных систем. В тестах такой стек приёмов поднял результат Opus 4.5 на глубоком исследовательском бенчмарке почти на 15 п.п.
Anthropic постепенно превращает Developer Platform в конструктор: набор блоков, из которых можно собрать свою систему с контролем над эффективностью, инструментами и управлением контекстом.
С выходом Opus 4.5 прокачали Claude Code и пользовательские приложения.
В Claude Code режим планирования теперь сначала уточняет требования, затем собирает редактируемый пользователем plan.md, и только после этого выполняет план. Появилась поддержка десктопного приложения: можно параллельно гонять несколько локальных и удалённых сессий — один агент чинит баги, другой копается в GitHub, третий обновляет документацию.
В клиентском приложении Claude длинные диалоги продолжаются за счёт авто-сворачивания старого контекста. Расширили и «обвязку»:
– расширение Claude для Chrome доступно всем пользователям Max,
– бета Claude для Excel открыта для Max, Team и Enterprise.
Для пользователей Claude и Claude Code с доступом к Opus 4.5 убрали отдельные «опусные» ограничения. На тарифах Max и Team Premium повысили общие лимиты так, чтобы объём доступных токенов Opus был сопоставим с тем, что раньше давали для Sonnet, — идею в том, чтобы Opus 4.5 можно было использовать как рабочую лошадку каждый день. Лимиты при этом относятся именно к этой модели и дальше будут подстраиваться по мере появления новых.
Источник: anthropic.com [16]
Научиться проектировать AI‑решения для бизнеса можно на курсе «AI-архитектор». [17]
Автор: MaxRokatansky
Источник [18]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/22366
URLs in this post:
[1] Claude API: https://platform.claude.com/docs/en/about-claude/models/overview
[2] Claude Developer Platform: https://www.claude.com/platform/api
[3] Claude Code: https://www.claude.com/product/claude-code
[4] опытом: http://www.braintools.ru/article/6952
[5] зрению: http://www.braintools.ru/article/6238
[6] математике: http://www.braintools.ru/article/7620
[7] ошибку: http://www.braintools.ru/article/4192
[8] поведение: http://www.braintools.ru/article/9372
[9] системной карте: https://www.anthropic.com/claude-opus-4-5-system-card
[10] Gray Swan: https://www.grayswan.ai/
[11] управления «усилием»,: https://platform.claude.com/docs/en/build-with-claude/effort
[12] сжатия контекста: https://platform.claude.com/docs/en/build-with-claude/context-editing#client-side-compaction-sdk
[13] работы с инструментами: https://www.anthropic.com/engineering/advanced-tool-use
[14] управление контекстом: https://platform.claude.com/docs/en/build-with-claude/context-editing
[15] памятью : https://platform.claude.com/docs/en/build-with-claude/context-editing#using-with-the-memory-tool
[16] anthropic.com: https://www.anthropic.com/news/claude-opus-4-5
[17] курсе «AI-архитектор».: https://otus.pw/OH6I/
[18] Источник: https://habr.com/ru/companies/otus/news/970054/?utm_source=habrahabr&utm_medium=rss&utm_campaign=970054
Нажмите здесь для печати.