ИИ-агенты превосходят команды людей в соревнованиях по хакерству

Недавняя серия соревнований по кибербезопасности, организованных компанией Palisade Research, показала, что автономные ИИ-агенты могут напрямую конкурировать с хакерами-людьми и иногда выходить вперёд.

Компания Palisade Research протестировала системы искусственного интеллекта ^[1] в двух крупномасштабных турнирах Capture The Flag (CTF) ^[2] с участием тысяч участников. В этих соревнованиях CTF команды соревнуются в поиске скрытых «флагов», решая задачи по безопасности, которые варьируются от взлома шифрования до выявления уязвимостей в программном обеспечении.

Цель состояла в том, чтобы посмотреть, насколько хорошо автономные агенты ИИ справляются с командами людей. Результаты: агенты ИИ показали себя намного лучше, чем ожидалось, обойдя большинство своих конкурентов-людей.

Четыре команды искусственного интеллекта справляются почти с каждой задачей

В первом соревновании под названием «ИИ против людей» шесть ИИ-команд соревновались примерно с 150 командами людей. В течение 48 часов каждый должен был решить 20 задач по криптографии и обратному проектированию.

Четыре из семи ИИ-агентов решили 19 из 20 возможных задач. Лучшая ИИ-команда вошла в пятерку лучших в общем зачете, а это значит, что большинство из них превзошли большинство участников-людей. Головоломки, предложенные на мероприятии, можно было решать локально, что делало их доступными даже для ИИ-моделей с техническими ограничениями.

Большинство ИИ-агентов в соревновании «ИИ против людей» решили больше задач и решили их быстрее, чем большинство команд людей

Несмотря на это, лучшие команды людей не отставали от ИИ. В качестве ключевых преимуществ ведущие игроки-люди назвали свой многолетний профессиональный опыт ^[3] в CTF и глубокое знание распространённых методов решения задач. Один из участников отметил, что играл в нескольких командах международного уровня.

Второй раунд: более сложные задачи, более широкое поле деятельности

Во втором соревновании, «Кибер-апокалипсис», ставки были выше. Здесь агентам ИИ предстояло выполнить новый набор задач и соревноваться с почти 18 000 игроков-людей. Многие из 62 заданий требовали взаимодействия с внешними устройствами, что было серьёзным препятствием для агентов ИИ, большинство из которых были разработаны для локального выполнения.

В бой вступили четыре агента с искусственным интеллектом. Лучший из них, CAI, решил 20 из 62 задач и занял 859-е место, войдя в десятку лучших команд и в 21% активных команд. По данным Palisade Research ^[4], лучшая ИИ-система превзошла около 90% команд с участием людей.

Ведущие агенты ИИ в игре «ИИ против людей» сравнялись по скорости с 10 лучшими командами людей

В исследовании также рассматривался уровень сложности задач, которые удалось решить ИИ. В качестве ориентира исследователи использовали время, затраченное лучшими командами людей на решение тех же задач. Для задач, на решение которых даже лучшим командам людей требовалось примерно 78 минут, ИИ показал 50-процентный результат. Другими словами, ИИ смог справиться с задачами, которые представляли собой реальную проблему даже для экспертов.

В «Кибер-апокалипсисе» агенты с искусственным интеллектом успешно решали 50% задач, на решение которых у лучших экспертов-людей (1%) уходило около 1,3 часа

Предыдущие тесты, такие как CyberSecEval 2 и тест InterCode-CTF, оценивали кибер навыки ИИ гораздо ниже, отмечают исследователи из Palisade. В обоих случаях более поздним командам удалось повысить процент успешных атак, изменив настройки. Например, проекту Google Naptime ^[5] удалось добиться 100-процентного успеха в атаках на память ^[6] при правильной настройке.

По словам Петрова и Волкова, это демонстрирует то, что они называют «пробелом в оценке»: реальные возможности ИИ часто недооцениваются из-за ограниченных методов оценки. Этот пробел показывает, что традиционные тесты могут не раскрывать весь потенциал систем ИИ. Компания Palisade Research утверждает, что краудсорсинговые соревнования следует использовать в качестве дополнения к стандартным тестам, поскольку такие мероприятия, как «ИИ против людей», дают более значимые и политически релевантные данные, чем традиционные тесты.

Пользуясь случаем, хочу порекомендовать BotHub ^[7]— платформу, где можно протестировать все популярные модели без ограничений. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке ^[8] вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!

Источник ^[9]

Автор: mefdayy

Источник ^[10]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/15965

URLs in this post:

[1] интеллекта: http://www.braintools.ru/article/7605

[2] крупномасштабных турнирах Capture The Flag (CTF): https://arxiv.org/pdf/2505.19915

[3] опыт: http://www.braintools.ru/article/6952

[4] Palisade Research: https://x.com/PalisadeAI/status/1927782069687537767

[5] проекту Google Naptime: https://googleprojectzero.blogspot.com/2024/06/project-naptime.html

[6] память: http://www.braintools.ru/article/4140

[7] BotHub : https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=AI_AGENTS_EXCEL_HUMAN_TEAMS_IN_HACKING_COMPETITIONS

[8] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[9] Источник: https://the-decoder.com/ai-agents-outperform-human-teams-in-hacking-competitions/

[10] Источник: https://habr.com/ru/companies/bothub/news/916422/?utm_source=habrahabr&utm_medium=rss&utm_campaign=916422

Нажмите здесь для печати.