Новейшая модель искусственного интеллекта Anthropic Claude Opus 4.6 обнаружила более 500 ранее неизвестных серьёзных уязвимостей в библиотеках с открытым исходным кодом практически без каких-либо подсказок.

Перед дебютом команда разработчиков Anthropic протестировала Opus 4.6 в изолированной среде, чтобы проверить, насколько хорошо ИИ может находить ошибки в открытом коде. Она предоставила модели всё необходимое для работы — доступ к Python и инструментам анализа уязвимостей, включая классические отладчики и фаззеры, — но без каких-либо конкретных инструкций или специального обучения.
Opus 4.6 обнаружил более 500 ранее уязвимостей нулевого дня в открытом исходном коде, используя только свои «готовые» возможности, и каждая из них была подтверждена либо членом команды Anthropic, либо сторонним исследователем безопасности. Уязвимости варьировались от тех, которые могут быть использованы для сбоя системы, до тех, которые могут повредить память.
Так, Claude обнаружил уязвимость в GhostScript, популярной утилите для обработки файлов PDF и PostScript, которая может привести к сбою программы. ИИ также выявил баг переполнения буфера в OpenSC, утилите для обработки данных смарт-карт, и CGIF, инструменте для обработки GIF-файлов.
По словам исследователей, во многих случаях Opus 4.6 использовал новые навыки логического мышления, чтобы найти способы обнаружения ошибок даже после того, как традиционные инструменты безопасности не смогли ничего выявить. Например, в случае с уязвимостью GhostScript, ИИ обратился к истории коммитов проекта в Git после того, как фаззинг и ручной анализ не выявили никаких ошибок. После обнаружения уязвимости новая модель предприняла упреждающие шаги для определения наличия аналогичной ошибки в других частях кода.
При работе с CGIF Claude даже заблаговременно разработала собственное доказательство концепции, чтобы подтвердить реальность уязвимости.
«Это гонка между защитниками и злоумышленниками, и мы хотим как можно быстрее предоставить инструменты в руки защитников», — сказал Логан Грэм, руководитель группы по борьбе с вредоносным ПО в Anthropic.
Компания считает, что возможности Opus 4.6 станут огромным достижением для мира безопасности. «Я не удивлюсь, если это станет одним из основных способов обеспечения безопасности открытого программного обеспечения в будущем», — отметил Грэм.
Сама Anthropic добавила средства контроля безопасности в Opus для быстрого выявления и реагирования на действия злоумышленников, которые могут злоупотреблять новыми возможностями кибербезопасности. Это, в том числе, инструменты обнаружения в реальном времени, которые могут блокировать вредоносный трафик.
«Это создаст препятствия для законных исследований и некоторой работы по защите, и мы хотим сотрудничать с сообществом исследователей безопасности, чтобы найти способы решения этой проблемы по мере её возникновения», — предупредила компания.
Грэм сказал, что Anthropic рассматривает способы предоставления возможностей обнаружения уязвимостей более широкому сообществу кибербезопасности, включая потенциальные новые инструменты.
Opus 4.6 представили в начале февраля. Модель дольше удерживает контекст, аккуратнее планирует шаги, стабильнее работает с большими кодовыми базами и лучше находит собственные ошибки при ревью и отладке. Она получила контекстное окно на 1 миллион токенов. В версии fast модель генерирует около 100 токенов в секунду, но стоимость её использования выросла в 6 раз.
На бенчмарке рабочих задач GDPval-AA модель обходит GPT-5.2 от OpenAI на 144 очка Elo, а собственный предыдущий Opus 4.5 — на 190. Opus 4.6 также занял первое место на Terminal-Bench 2.0 (агентное программирование), Humanity’s Last Exam (мультидисциплинарное рассуждение) и BrowseComp (поиск труднодоступной информации в сети).
Однако Anthropic выпустила также системную карту, где подробно описала не только бенчмарки, но и странные тренды в поведении модели. Выяснилось, что Opus 4.6 демонстрирует «находчивость», может «лгать» и «паниковать», а также применяет «стереотипы в мышлении».
Также Claude Opus 4.6 написал свой C-компилятор Claude’s C Compiler с нуля на языке Rust. Однако он провалился в независимом бенчмарке.
Автор: maybe_elf


