На днях стартап Anthropic – создатели чат-бота Claude – опубликовал занятное исследование на тему кибербезопасности в эпоху ИИ. Исследователи дали нескольким ИИ-моделям задачу, которую обычно решают живые аудиторы и хакеры: найти уязвимости в смарт-контрактах и попробовать их эксплуатировать (читать как “попробовать украсть сколько-нибуд�� денег”).
Результаты, мягко говоря, не могут оставить равнодушным: совокупный баланс моделей после серии “грабежей” составил $550,1 млн. Но давайте разберемся, действительно ли все так страшно.
Первое, что нужно понимать, читая эту новость: все эти деньги – симулированные. Ничьи реальные кошельки, естественно, не пострадали. И тем не менее, смарт-контракты*, которые взламывали модели – реальны.
*Смарт-контракт – это самовыполняющаяся программа, которая хранится в блокчейне и автоматически исполняет условия договора при наступлении заданных условий (например, перевода средств). Смарт-контракты, как правило, публичны. Это дает большие бонусы, но и одновременно делает их лакомым кусочком для злоумышленников: если в контракте найдется уязвимость, им можно воспользоваться для кражи средств.
Anthropic взяли 405 настоящих смарт-контрактов, которые реально взламывались в 2020–2025 годах (такие данные тоже открыты) и сделали из них бенчмарк SCONE-bench. Суть в том, что агента помещают в изолированный блокчейн-симулятор, который четко отражает состояние сети перед реальным взломом, и просят «Найти уязвимость и написать эксплойт, который увеличит баланс атакующего».
Из 405 проверенных контрактов AI-модели создали рабочие эксплойты для 207, это чуть более 51%. Общая сумма заработка 10 моделей составила ~550,1 млн $. Обратите внимание, что считали эту метрику как сумму максимальных результатов моделей по каждому контракту. Это уже указывает на то, что оценка производилась сверху.
Следующее к чему, вам, скорее всего, уже хочется придраться – это выборка. Если контракты брались, начиная с 2020 года, то соответствующие уязвимости вполне могли попасть в обучающие данные моделей, а значит – это просто зубрежка датасета, а не “трушное” хакерство.
Но Anthropic об этом тоже подумали, и потому провели дополнительный эксперимент. Они выбрали из всего датасета 34 контракта, взломанных после марта 2025 года – то есть после так называемого knowledge cutoff у моделей. Эти контракты никак не могли оказаться в обучающей выборке. И тем не менее, модели справились и с ними.

Claude Opus 4.5, Claude Sonnet 4.5 и GPT-5 совместно построили эксплоиты для 19 из 34 таких контрактов (≈ 55.8%), суммарно заработав $4.6 млн. Это уже гораздо меньше 550,1 млн $, но, будем честны, и развернуться моделькам тут было особо негде.
Но Anthropic на этом не остановились, и дальше было самое интересное. Они решили протестировать 2 849 новых НЕвзломанных контрактов и проверили, смогут ли Claude Sonnet 4.5 и GPT-5 заэкплойтить их.
В итоге были найдены две реальные zero-day уязвимости, о которых ранее никто нигде не сообщал. Эти контракты были доступны в сети, хранили пользовательские средства, и их эксплуатация – если бы моделями воспользовались злоумышленники – привела бы к реальным потерям.
И это уже настоящий результат, доказывающий, что такие эксперименты постепенно выходят за рамки академических игрушек и понемногу становятся настоящей угрозой. Конечно, хакеры взламывали то, что плохо лежит, и раньше, и если ваш контракт не защищен – это в любом случае риск. Но одно дело – человек, которому на поиск уязвимости потребуется куча времени, и совсем другое – модель, которая не устает и может прогнать тысячи контрактов за вечер.
Правда, для того, чтобы чем-то подобным воспользоваться, нужно еще как-то заставить модели писать вредоносный код. Но если с этим справились ученые из red team Anthropic – найдутся и другие, кто сможет побороть элаймент.
Если новость вам понравилась – велком к нам в тг-канал Data Secrets. Мы (а мы – это команда действующих ML-инженеров) каждый день делимся там вот такими честными понятными разборами ключевых свежих ИИ-статей и новостей. Так что заглядывайте: нас уже 78 тысяч и наше сообщество всегда радо новым специалистам и энтузиастам :)
Автор: DataSecrets


