- BrainTools - https://www.braintools.ru -
Недавняя серия соревнований по кибербезопасности, организованных компанией Palisade Research, показала, что автономные ИИ-агенты могут напрямую конкурировать с хакерами-людьми и иногда выходить вперёд.

Компания Palisade Research протестировала системы искусственного интеллекта [1] в двух крупномасштабных турнирах Capture The Flag (CTF) [2] с участием тысяч участников. В этих соревнованиях CTF команды соревнуются в поиске скрытых «флагов», решая задачи по безопасности, которые варьируются от взлома шифрования до выявления уязвимостей в программном обеспечении.
Цель состояла в том, чтобы посмотреть, насколько хорошо автономные агенты ИИ справляются с командами людей. Результаты: агенты ИИ показали себя намного лучше, чем ожидалось, обойдя большинство своих конкурентов-людей.
В первом соревновании под названием «ИИ против людей» шесть ИИ-команд соревновались примерно с 150 командами людей. В течение 48 часов каждый должен был решить 20 задач по криптографии и обратному проектированию.
Четыре из семи ИИ-агентов решили 19 из 20 возможных задач. Лучшая ИИ-команда вошла в пятерку лучших в общем зачете, а это значит, что большинство из них превзошли большинство участников-людей. Головоломки, предложенные на мероприятии, можно было решать локально, что делало их доступными даже для ИИ-моделей с техническими ограничениями.
Несмотря на это, лучшие команды людей не отставали от ИИ. В качестве ключевых преимуществ ведущие игроки-люди назвали свой многолетний профессиональный опыт [3] в CTF и глубокое знание распространённых методов решения задач. Один из участников отметил, что играл в нескольких командах международного уровня.
Во втором соревновании, «Кибер-апокалипсис», ставки были выше. Здесь агентам ИИ предстояло выполнить новый набор задач и соревноваться с почти 18 000 игроков-людей. Многие из 62 заданий требовали взаимодействия с внешними устройствами, что было серьёзным препятствием для агентов ИИ, большинство из которых были разработаны для локального выполнения.
В бой вступили четыре агента с искусственным интеллектом. Лучший из них, CAI, решил 20 из 62 задач и занял 859-е место, войдя в десятку лучших команд и в 21% активных команд. По данным Palisade Research [4], лучшая ИИ-система превзошла около 90% команд с участием людей.
В исследовании также рассматривался уровень сложности задач, которые удалось решить ИИ. В качестве ориентира исследователи использовали время, затраченное лучшими командами людей на решение тех же задач. Для задач, на решение которых даже лучшим командам людей требовалось примерно 78 минут, ИИ показал 50-процентный результат. Другими словами, ИИ смог справиться с задачами, которые представляли собой реальную проблему даже для экспертов.
Предыдущие тесты, такие как CyberSecEval 2 и тест InterCode-CTF, оценивали кибер навыки ИИ гораздо ниже, отмечают исследователи из Palisade. В обоих случаях более поздним командам удалось повысить процент успешных атак, изменив настройки. Например, проекту Google Naptime [5] удалось добиться 100-процентного успеха в атаках на память [6] при правильной настройке.
По словам Петрова и Волкова, это демонстрирует то, что они называют «пробелом в оценке»: реальные возможности ИИ часто недооцениваются из-за ограниченных методов оценки. Этот пробел показывает, что традиционные тесты могут не раскрывать весь потенциал систем ИИ. Компания Palisade Research утверждает, что краудсорсинговые соревнования следует использовать в качестве дополнения к стандартным тестам, поскольку такие мероприятия, как «ИИ против людей», дают более значимые и политически релевантные данные, чем традиционные тесты.
Пользуясь случаем, хочу порекомендовать BotHub [7]— платформу, где можно протестировать все популярные модели без ограничений. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [8] вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!
Источник [9]
Автор: mefdayy
Источник [10]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/15965
URLs in this post:
[1] интеллекта: http://www.braintools.ru/article/7605
[2] крупномасштабных турнирах Capture The Flag (CTF): https://arxiv.org/pdf/2505.19915
[3] опыт: http://www.braintools.ru/article/6952
[4] Palisade Research: https://x.com/PalisadeAI/status/1927782069687537767
[5] проекту Google Naptime: https://googleprojectzero.blogspot.com/2024/06/project-naptime.html
[6] память: http://www.braintools.ru/article/4140
[7] BotHub : https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=AI_AGENTS_EXCEL_HUMAN_TEAMS_IN_HACKING_COMPETITIONS
[8] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7
[9] Источник: https://the-decoder.com/ai-agents-outperform-human-teams-in-hacking-competitions/
[10] Источник: https://habr.com/ru/companies/bothub/news/916422/?utm_source=habrahabr&utm_medium=rss&utm_campaign=916422
Нажмите здесь для печати.