OpenAI и Paradigm представили инструмент для оценки навыков ИИ в защите смарт-контрактов. EVMbench.. EVMbench. openai.. EVMbench. openai. Paradigm.. EVMbench. openai. Paradigm. Tempo.. EVMbench. openai. Paradigm. Tempo. Блог компании BotHub.. EVMbench. openai. Paradigm. Tempo. Блог компании BotHub. ИИ.. EVMbench. openai. Paradigm. Tempo. Блог компании BotHub. ИИ. ии и машинное обучение.. EVMbench. openai. Paradigm. Tempo. Блог компании BotHub. ИИ. ии и машинное обучение. искусственный интеллект.. EVMbench. openai. Paradigm. Tempo. Блог компании BotHub. ИИ. ии и машинное обучение. искусственный интеллект. Машинное обучение.. EVMbench. openai. Paradigm. Tempo. Блог компании BotHub. ИИ. ии и машинное обучение. искусственный интеллект. Машинное обучение. модели ии.

Компания OpenAI совместно с Paradigm представила EVMbench – бенчмарк для оценки способности ИИ-агентов выявлять, исправлять и эксплуатировать бреши в смарт-контрактах.

OpenAI и Paradigm представили инструмент для оценки навыков ИИ в защите смарт-контрактов - 1

Инструмент основан на 120 отобранных уязвимостях из 40 аудитов. Большинство примеров взяты из открытых платформ по анализу кода. Также он включает несколько сценариев атак из проверки безопасности блокчейна Tempo – специализированной сети первого уровня, разработанной Stripe и Paradigm для высокопроизводительных и недорогих платежей в стейблкоинах.

Интеграция с Tempo позволила добавить в бенчмарк платежные смарт-контракты – сегмент, где ожидается активное применение «стабильных монет» и ИИ-агентов.

«Смарт-контракты защищают криптоактивы на сумму более $100 млрд. По мере того, как ИИ-агенты совершенствуются в чтении, написании и исполнении кода, становится все важнее измерять их возможности в реальных экономических условиях и поощрять использование искусственного интеллекта в защитных целях – для аудита и укрепления уже развернутых протоколов», – говорится в анонсе.

Для создания тестовой среды OpenAI адаптировала существующие эксплойты и скрипты, предварительно убедившись в их практической применимости.

EVMbench оценивает три режима возможностей:

  • Detect – обнаружение уязвимостей;

  • Patch – устранение проблем;

  • Exploit – использование для кражи средств.

Результативность ИИ-моделей

OpenAI протестировала передовые модели во всех трех режимах. В категории Exploit модель GPT-5.3-Codex достигла 72,2%, GPT-5 – 31,9%. При этом показатели обнаружения и исправления уязвимостей оказались скромнее – многие проблемы по-прежнему сложно находить и устранять.

В Detect ИИ-агенты иногда останавливаются после нахождения одной уязвимости вместо проведения полного аудита. В режиме Patch им пока сложно закрывать неочевидные проблемы так, чтобы сохранить полную функциональность контракта.

«EVMbench не отражает всей сложности реальной безопасности смарт-контрактов. Хотя они реалистичны и критичны, многие протоколы проходят более строгий аудит и могут быть сложнее для эксплуатации», — подчеркнули в OpenAI.

Напомним, в ноябре 2025 года Microsoft представила среду для тестирования ИИ-агентов и выявила уязвимости, присущие современным цифровым помощникам.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Автор: mefdayy

Источник