OpenAI и Paradigm представили инструмент для оценки навыков ИИ в защите смарт-контрактов

Компания OpenAI совместно с Paradigm представила ^[1] EVMbench – бенчмарк для оценки способности ИИ-агентов выявлять, исправлять и эксплуатировать бреши в смарт-контрактах.

Инструмент основан на 120 отобранных уязвимостях из 40 аудитов. Большинство примеров взяты из открытых платформ по анализу кода. Также он включает несколько сценариев атак из проверки безопасности блокчейна Tempo ^[2] – специализированной сети первого уровня, разработанной Stripe и Paradigm для высокопроизводительных и недорогих платежей в стейблкоинах ^[3].

Интеграция с Tempo позволила добавить в бенчмарк платежные смарт-контракты – сегмент, где ожидается активное применение «стабильных монет» и ИИ-агентов.

«Смарт-контракты защищают криптоактивы на сумму более $100 млрд. По мере того, как ИИ-агенты совершенствуются в чтении, написании и исполнении кода, становится все важнее измерять их возможности в реальных экономических условиях и поощрять использование искусственного интеллекта ^[4] в защитных целях – для аудита и укрепления уже развернутых протоколов», – говорится в анонсе.

Для создания тестовой среды OpenAI адаптировала существующие эксплойты и скрипты, предварительно убедившись в их практической применимости.

EVMbench оценивает три режима возможностей:

Detect – обнаружение уязвимостей;
Patch – устранение проблем;
Exploit – использование для кражи средств.

Результативность ИИ-моделей

OpenAI протестировала передовые модели во всех трех режимах. В категории Exploit модель GPT-5.3-Codex достигла 72,2%, GPT-5 – 31,9%. При этом показатели обнаружения и исправления уязвимостей оказались скромнее – многие проблемы по-прежнему сложно находить и устранять.

В Detect ИИ-агенты иногда останавливаются после нахождения одной уязвимости вместо проведения полного аудита. В режиме Patch им пока сложно закрывать неочевидные проблемы так, чтобы сохранить полную функциональность контракта.

«EVMbench не отражает всей сложности реальной безопасности смарт-контрактов. Хотя они реалистичны и критичны, многие протоколы проходят более строгий аудит и могут быть сложнее для эксплуатации», — подчеркнули в OpenAI.

Напомним, в ноябре 2025 года Microsoft представила ^[5] среду для тестирования ИИ-агентов и выявила уязвимости, присущие современным цифровым помощникам.

Делегируйте часть рутинных задач вместе с BotHub ^[6]! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке ^[7] вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник ^[8]

Автор: mefdayy

Источник ^[9]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/25922

URLs in this post:

[1] представила: https://openai.com/index/introducing-evmbench/

[2] Tempo: https://forklog.com/news/smi-uznali-ob-otsenke-tempo-v-5-mlrd-posle-raunda-na-500-mln

[3] стейблкоинах: https://forklog.com/cryptorium/chto-takoe-stablecoins

[4] интеллекта: http://www.braintools.ru/article/7605

[5] представила: https://forklog.com/news/ai/microsoft-obnaruzhila-uyazvimosti-ii-agentov-posle-masshtabnogo-testa

[6] BotHub: https://bothub.chat/?utm%5C_source=contentmarketing&utm%5C_medium=habr&utm%5C_campaign=news&utm%5C_content%20=OPENAI_AND_PARADIGM_HAVE_INTRODUCED_A_TOOL_TO_EVALUATE_AI_SKILLS_IN_SMART_CONTRACT_SECURITY

[7] По ссылке: https://bothub.chat/?invitedBy=iTNi-351UcHgc1BxGFWim

[8] Источник: https://t.me/ai_machinelearning_big_data/9550

[9] Источник: https://habr.com/ru/companies/bothub/news/1001510/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1001510

Нажмите здесь для печати.