- BrainTools - https://www.braintools.ru -
Компания OpenAI совместно с Paradigm представила [1] EVMbench – бенчмарк для оценки способности ИИ-агентов выявлять, исправлять и эксплуатировать бреши в смарт-контрактах.

Инструмент основан на 120 отобранных уязвимостях из 40 аудитов. Большинство примеров взяты из открытых платформ по анализу кода. Также он включает несколько сценариев атак из проверки безопасности блокчейна Tempo [2] – специализированной сети первого уровня, разработанной Stripe и Paradigm для высокопроизводительных и недорогих платежей в стейблкоинах [3].
Интеграция с Tempo позволила добавить в бенчмарк платежные смарт-контракты – сегмент, где ожидается активное применение «стабильных монет» и ИИ-агентов.
«Смарт-контракты защищают криптоактивы на сумму более $100 млрд. По мере того, как ИИ-агенты совершенствуются в чтении, написании и исполнении кода, становится все важнее измерять их возможности в реальных экономических условиях и поощрять использование искусственного интеллекта [4] в защитных целях – для аудита и укрепления уже развернутых протоколов», – говорится в анонсе.
Для создания тестовой среды OpenAI адаптировала существующие эксплойты и скрипты, предварительно убедившись в их практической применимости.
EVMbench оценивает три режима возможностей:
Detect – обнаружение уязвимостей;
Patch – устранение проблем;
Exploit – использование для кражи средств.
OpenAI протестировала передовые модели во всех трех режимах. В категории Exploit модель GPT-5.3-Codex достигла 72,2%, GPT-5 – 31,9%. При этом показатели обнаружения и исправления уязвимостей оказались скромнее – многие проблемы по-прежнему сложно находить и устранять.
В Detect ИИ-агенты иногда останавливаются после нахождения одной уязвимости вместо проведения полного аудита. В режиме Patch им пока сложно закрывать неочевидные проблемы так, чтобы сохранить полную функциональность контракта.
«EVMbench не отражает всей сложности реальной безопасности смарт-контрактов. Хотя они реалистичны и критичны, многие протоколы проходят более строгий аудит и могут быть сложнее для эксплуатации», — подчеркнули в OpenAI.
Напомним, в ноябре 2025 года Microsoft представила [5] среду для тестирования ИИ-агентов и выявила уязвимости, присущие современным цифровым помощникам.
Делегируйте часть рутинных задач вместе с BotHub [6]! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [7] вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Источник [8]
Автор: mefdayy
Источник [9]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/25922
URLs in this post:
[1] представила: https://openai.com/index/introducing-evmbench/
[2] Tempo: https://forklog.com/news/smi-uznali-ob-otsenke-tempo-v-5-mlrd-posle-raunda-na-500-mln
[3] стейблкоинах: https://forklog.com/cryptorium/chto-takoe-stablecoins
[4] интеллекта: http://www.braintools.ru/article/7605
[5] представила: https://forklog.com/news/ai/microsoft-obnaruzhila-uyazvimosti-ii-agentov-posle-masshtabnogo-testa
[6] BotHub: https://bothub.chat/?utm%5C_source=contentmarketing&utm%5C_medium=habr&utm%5C_campaign=news&utm%5C_content%20=OPENAI_AND_PARADIGM_HAVE_INTRODUCED_A_TOOL_TO_EVALUATE_AI_SKILLS_IN_SMART_CONTRACT_SECURITY
[7] По ссылке: https://bothub.chat/?invitedBy=iTNi-351UcHgc1BxGFWim
[8] Источник: https://t.me/ai_machinelearning_big_data/9550
[9] Источник: https://habr.com/ru/companies/bothub/news/1001510/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1001510
Нажмите здесь для печати.