ИИ-агенты превосходят команды людей в соревнованиях по хакерству. Palisade Research.. Palisade Research. агенты ии.. Palisade Research. агенты ии. безопасность.. Palisade Research. агенты ии. безопасность. Блог компании BotHub.. Palisade Research. агенты ии. безопасность. Блог компании BotHub. взлом.. Palisade Research. агенты ии. безопасность. Блог компании BotHub. взлом. ИИ.. Palisade Research. агенты ии. безопасность. Блог компании BotHub. взлом. ИИ. ии и машинное обучение.. Palisade Research. агенты ии. безопасность. Блог компании BotHub. взлом. ИИ. ии и машинное обучение. ии-модели.. Palisade Research. агенты ии. безопасность. Блог компании BotHub. взлом. ИИ. ии и машинное обучение. ии-модели. искусственный интеллект.. Palisade Research. агенты ии. безопасность. Блог компании BotHub. взлом. ИИ. ии и машинное обучение. ии-модели. искусственный интеллект. по.. Palisade Research. агенты ии. безопасность. Блог компании BotHub. взлом. ИИ. ии и машинное обучение. ии-модели. искусственный интеллект. по. Тестирование IT-систем.. Palisade Research. агенты ии. безопасность. Блог компании BotHub. взлом. ИИ. ии и машинное обучение. ии-модели. искусственный интеллект. по. Тестирование IT-систем. тестирование ии.. Palisade Research. агенты ии. безопасность. Блог компании BotHub. взлом. ИИ. ии и машинное обучение. ии-модели. искусственный интеллект. по. Тестирование IT-систем. тестирование ии. хакеры.

Недавняя серия соревнований по кибербезопасности, организованных компанией Palisade Research, показала, что автономные ИИ-агенты могут напрямую конкурировать с хакерами-людьми и иногда выходить вперёд.

ИИ-агенты превосходят команды людей в соревнованиях по хакерству - 1

Компания Palisade Research протестировала системы искусственного интеллекта в двух крупномасштабных турнирах Capture The Flag (CTF) с участием тысяч участников. В этих соревнованиях CTF команды соревнуются в поиске скрытых «флагов», решая задачи по безопасности, которые варьируются от взлома шифрования до выявления уязвимостей в программном обеспечении.

Цель состояла в том, чтобы посмотреть, насколько хорошо автономные агенты ИИ справляются с командами людей. Результаты: агенты ИИ показали себя намного лучше, чем ожидалось, обойдя большинство своих конкурентов-людей.

Четыре команды искусственного интеллекта справляются почти с каждой задачей

В первом соревновании под названием «ИИ против людей» шесть ИИ-команд соревновались примерно с 150 командами людей. В течение 48 часов каждый должен был решить 20 задач по криптографии и обратному проектированию.

Четыре из семи ИИ-агентов решили 19 из 20 возможных задач. Лучшая ИИ-команда вошла в пятерку лучших в общем зачете, а это значит, что большинство из них превзошли большинство участников-людей. Головоломки, предложенные на мероприятии, можно было решать локально, что делало их доступными даже для ИИ-моделей с техническими ограничениями.

Большинство ИИ-агентов в соревновании «ИИ против людей» решили больше задач и решили их быстрее, чем большинство команд людей

Несмотря на это, лучшие команды людей не отставали от ИИ. В качестве ключевых преимуществ ведущие игроки-люди назвали свой многолетний профессиональный опыт в CTF и глубокое знание распространённых методов решения задач. Один из участников отметил, что играл в нескольких командах международного уровня.

Второй раунд: более сложные задачи, более широкое поле деятельности

Во втором соревновании, «Кибер-апокалипсис», ставки были выше. Здесь агентам ИИ предстояло выполнить новый набор задач и соревноваться с почти 18 000 игроков-людей. Многие из 62 заданий требовали взаимодействия с внешними устройствами, что было серьёзным препятствием для агентов ИИ, большинство из которых были разработаны для локального выполнения.

В бой вступили четыре агента с искусственным интеллектом. Лучший из них, CAI, решил 20 из 62 задач и занял 859-е место, войдя в десятку лучших команд и в 21% активных команд. По данным Palisade Research, лучшая ИИ-система превзошла около 90% команд с участием людей.

Ведущие агенты ИИ в игре «ИИ против людей» сравнялись по скорости с 10 лучшими командами людей

В исследовании также рассматривался уровень сложности задач, которые удалось решить ИИ. В качестве ориентира исследователи использовали время, затраченное лучшими командами людей на решение тех же задач. Для задач, на решение которых даже лучшим командам людей требовалось примерно 78 минут, ИИ показал 50-процентный результат. Другими словами, ИИ смог справиться с задачами, которые представляли собой реальную проблему даже для экспертов.

В «Кибер-апокалипсисе» агенты с искусственным интеллектом успешно решали 50% задач, на решение которых у лучших экспертов-людей (1%) уходило около 1,3 часа

Предыдущие тесты, такие как CyberSecEval 2 и тест InterCode-CTF, оценивали кибер навыки ИИ гораздо ниже, отмечают исследователи из Palisade. В обоих случаях более поздним командам удалось повысить процент успешных атак, изменив настройки. Например, проекту Google Naptime удалось добиться 100-процентного успеха в атаках на память при правильной настройке.

По словам Петрова и Волкова, это демонстрирует то, что они называют «пробелом в оценке»: реальные возможности ИИ часто недооцениваются из-за ограниченных методов оценки. Этот пробел показывает, что традиционные тесты могут не раскрывать весь потенциал систем ИИ. Компания Palisade Research утверждает, что краудсорсинговые соревнования следует использовать в качестве дополнения к стандартным тестам, поскольку такие мероприятия, как «ИИ против людей», дают более значимые и политически релевантные данные, чем традиционные тесты.

Пользуясь случаем, хочу порекомендовать BotHub — платформу, где можно протестировать все популярные модели без ограничений. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!

Источник

Автор: mefdayy

Источник

Запись добавлена: 07.06.2025 в 06:33
Оставлено в

ИИ-агенты превосходят команды людей в соревнованиях по хакерству

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

Четыре команды искусственного интеллекта справляются почти с каждой задачей

Второй раунд: более сложные задачи, более широкое поле деятельности

ИИ-агенты превосходят команды людей в соревнованиях по хакерству

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

Четыре команды искусственного интеллекта справляются почти с каждой задачей

Второй раунд: более сложные задачи, более широкое поле деятельности