Как измерить LLM для задач кибербеза: обзор открытых бенчмарков. ai.. ai. benchmarks.. ai. benchmarks. cybersecurity.. ai. benchmarks. cybersecurity. llm.. ai. benchmarks. cybersecurity. llm. ml.. ai. benchmarks. cybersecurity. llm. ml. opensource.. ai. benchmarks. cybersecurity. llm. ml. opensource. Блог компании Positive Technologies.. ai. benchmarks. cybersecurity. llm. ml. opensource. Блог компании Positive Technologies. ии-агенты.. ai. benchmarks. cybersecurity. llm. ml. opensource. Блог компании Positive Technologies. ии-агенты. Информационная безопасность.. ai. benchmarks. cybersecurity. llm. ml. opensource. Блог компании Positive Technologies. ии-агенты. Информационная безопасность. искусственный интеллект.. ai. benchmarks. cybersecurity. llm. ml. opensource. Блог компании Positive Technologies. ии-агенты. Информационная безопасность. искусственный интеллект. Машинное обучение.
Как измерить LLM для задач кибербеза: обзор открытых бенчмарков - 1

Меня зовут Андрей Кузнецов, я ML-директор в Positive Technologies. Недавно я решил разобраться, какие бенчмарки измеряют способности языковых моделей в контексте задач кибербезопасности. Думал, что это займет вечер, — увы! Все оказалось куда хаотичнее, чем предполагалось. Поэтому делюсь тем, что собрал сам.

Первое, что бросилось в глаза, — полный бардак и отсутствие системы. Бенчи, про которые все пишут в 2024-м, могут вообще не упоминаться в свежих статьях 2025-го. А некоторые широко цитируемые датасеты при ближайшем рассмотрении оказываются сделанными очень небрежно, из-за чего непонятно, что они вообще измеряют. Поэтому, прежде чем лезть в конкретные примеры, давайте определимся, какими они бывают. Все бенчи можно разделить на два больших класса:

  • Энциклопедические — проверяют, что модель знает. Это вопросы про концепции, термины, стандарты, протоколы, CVE. Типичный формат — MCQ (multiple choice questions, вопросы с вариантами ответов), выбор из четырех вариантов.

  • Скиловые — проверяют, что модель умеет делать. Это CTF-таски, расследования инцидентов, эксплуатация уязвимостей, форензика.

Ключевой инсайт, который проходит через все материалы: в энциклопедических тестах модели уже давно обогнали людей. Даже 8B-модели превосходят опытных специалистов. А интересное скрывается там, где надо действовать.

Часть 1. Знания из книжек

1. CyberMetric

Arxiv: 2402.07688

Один из самых интересных бенчей в категории энциклопедических знаний. Вопросы реально качественные — уровень вузовского курса по кибербезу и computer science. Если бы я хотел проверить, шарит ли студент в теме на базовом уровне, взял бы именно это.

Структура: 10 000 вопросов, семь доменов (пентест, криптография, сетевая безопасность, информационная безопасность, комплаенс, облако, стандарты NIST, RFC), распределение равномерное.

Люди против моделей: авторы протестировали две группы — джунов и опытных специалистов. И те и другие уступили небольшим моделям. Например, gpt-3.5-turbo набрала порядка 85%, тогда как опытные специалисты — около 75%. Qwen2.5-32B-Instruct показывает 86–91% в зависимости от объема выборки. Если запустить современную модель — результаты будут еще выше. 

CyberMetric: результаты тестирования моделей

CyberMetric: результаты тестирования моделей

Вывод: проверять на CyberMetric имеет смысл только маленькие модели или тестировать влияние квантизации на доменные знания. Для всего остального порог слишком низкий. 

Датасет лежит на GitHub в удобном JSON-формате. Поверх него за один промпт можно написать тестирующую систему. 

2. SECURE

Arxiv: 2405.20441v2

Чуть посвежее, чем CyberMetric, чуть посложнее. Авторы генерировали вопросы из реальных документов: MITRE ATT&CK, CVE, CWE, материалы CISA. Использовали GPT-4o для генерации и обязательную проверку специалистами.

Что интересного по форматам задач — помимо классических MCQ, есть:

  • True или False по конкретным CVE (например: «CVE-2024-0011 допускает выполнение произвольного кода — правда или ложь?»).

  • RERT — оценка риска по описанию уязвимости.

  • CPST — вычисление CVSS по вектору атаки.

Люди против моделей: семь аспирантов и семь специалистов отрасли с опытом от 2 до 10 лет. Результаты людей: 77% (MAET), 78% (CWET), 68% (KCV). И тут LLM заметно бьют эти цифры.

SECURE: результаты тестирования моделей

SECURE: результаты тестирования моделей

Вывод: хороший выбор для оценки задач ИБ средней сложности. Особенно если интересна связка между знанием и пониманием в области threat intelligence.

3. DFIR-Metric

Arxiv: 2505.19973

Бенч состоит из трех частей с разным уровнем сложности:

  1. Knowledge assessment — 700 MCQ из отраслевых сертификаций и официальной документации. По сложности близко к CyberMetric.

  2. Realistic forensic challenges — 150 задач в стиле CTF на форензику. 

    Например, агенту дают hex-дамп и просят найти флаг — данные закодированы нетривиально. Для модели нужно вывести паттерн кодирования и сгенерировать правильный скрипт декодирования, что достаточно сложно. 

  3. Practical analysis — 500 кейсов из NIST по форензике.

Результаты (knowledge, MCQ): GPT-4.1 лидирует с 89,34% CI и 92,75% MA, за ним — GPT-4o, Grok 3, Claude 3.7 Sonnet. Среди опенсорсных лучший Qwen-2.5 (72B). 

Сложные задачи из второго и третьего модуля решаются плохо, по крайней мере этими моделями. К сожалению, для сравнения авторы не приложили данные, как с этим заданием справились специалисты. 

DFIR-Metric: тестирование моделей в решении кейсов из NIST по форе

DFIR-Metric: тестирование моделей в решении кейсов из NIST по форе

Вывод: знания даются проще, чем навыки.

4. SecBench

Arxiv: 2412.20787

По масштабу самый большой публичный бенчмарк в категории: 44 823 MCQ и 3 087 SAQ (вопросов с развернутым ответом). Охватывает девять доменов, два языка, два уровня сложности.

Но есть нюанс: большинство вопросов — на китайском. Бенчмарк делали китайские исследователи под китайскую аудиторию. Англоязычная фракция есть, но небольшая и работает неидеально.

Результаты: среди топ-перформеров — Hunyuan-Turbo (94,28%), DeepSeek-V3 (92,79%), Qwen2-72B-Instruct (92,41%). Общая тенденция: перформанс на общих знаниях не сильно различается[8]  как у больших, так и у маленьких моделей. 

Вывод: если нужна именно китайская аудитория или тест на максимально широком датасете — интересно. Для остальных случаев есть альтернативы получше.

5. AthenaBench

Arxiv: 2511.01144v1

Можно сказать, это улучшенный самый популярный бенч CTIBench. Те же авторы, новая версия. Оценивает шесть типов задач в области cyber threat intelligence:

  • CTI knowledge test — знания по тактикам и техникам.

  • Attack technique extraction — маппинг описания атаки на технику MITRE.

  • Root cause mapping — маппинг CVE на CWE.

  • Vulnerability severity prediction — составление CVSS-строки по описанию.

  • Risk mitigation strategy.

  • Threat actor attribution.

Позволяет не просто проверить, знает ли модель, что такое DDoS-атака, но и выяснить, может ли она по описанию понять, что это, к примеру, T1562 (Impair Defenses), и что с этим делать. Это ближе к реальной работе аналитика.

Результаты: GPT-5 лидирует (66,1%), за ним — Gemini 2.5 Pro и GPT-4o. Среди опенсорсных — Llama 3.3 70B (46,5%). 

Интересно, что GPT-5 с веб-поиском дал прирост TAA (time to attack) на 24 п. п. То есть возможность «подсмотреть» в интернете помогает даже мощной модели. И это не баг, а фича — реальные аналитики тоже гуглят.

Вывод: один из лучших бенчей в категории энциклопедических и аналитических знаний. Рекомендую как минимум для оценки CTI-способностей.

6. CyberSOCEval

Arxiv: 2509.20166

Самый мемный бенч из всех, что я видел. Совместный проект CrowdStrike и Meta. Посмотрев на то, как он сделан, у меня сложилось четкое ощущение, что ребята из CrowdStrike не заморачивались.

Часть 1. Threat intelligence. Авторы решили собрать CTI-датасет и взяли в качестве источника PDF-отчеты с собственного сайта — со всеми артефактами, без обработки, некоторые в зашакаленном качестве. Для извлечения данных использовали Llama 3.2 90B — не самую подходящую для этого модель. Вопросы сгенерированы по этим сырым материалам.

CyberSOCEval: пример PDF-отчета

CyberSOCEval: пример PDF-отчета 

Часть 2. Malware analysis. А вот это интересно. Они взяли 609 публичных образцов зловреда под Windows, запустили их в контролируемой среде, записали логи в JSON-формат и по ним сгенерировали вопросы, верифицировали их с помощью экспертов.

Эти логи — настоящие, сырые, подробные. Там есть разнообразие семейств малварей, промежуточные выводы их собственных моделей, цепочки поведения.

Вывод: как бенчмарк слабоват, но как датасет с реальными sandbox-трейсами вредоносного ПО — потенциально ценный материал для экспертов, работающих с песочницами, антивирусами и системами класса EDR.

Часть 2. Умеет делать

7. CyBench

Arxiv: 2510.14113

Статья написана качественно авторами из Stanford и опубликована на ресурсе одной из самых авторитетных конференций по ML. 

В изолированной лаборатории развертываются 40 CTF-тасков от реальных провайдеров (HackTheBox, HKCERT и других), которые агенты должны решить. При этом есть и сабтаски, чтобы не просто понять, решил или не решил, а выяснить, насколько агент вообще приближался к правильному решению.

Задачи из шести категорий: crypto, web, rev, forensics, misc, pwn. Они ранжируются по сложности на основе времени, за которое их решили люди.

CYBENCH: пример задачи

CYBENCH: пример задачи

Результаты из открытого лидерборда (на момент написания статьи): Claude Opus 4.6 (93%), Claude 4.5 Sonnet (60%), Grok 4 (43%).

Из статьи: GPT-4o (17,5%).

Это показательный скачок: всего за несколько поколений моделей процент решенных задач вырос с 20% до 82%. При этом таски не суперлегкие, некоторые люди решали их часами.

Вывод: один из лучших action-бенчей.

8. BountyBench

Arxiv: 2505.15216

Задачи оцениваются не по сложности для человека, а по стоимости на багбаунти-платформе (сколько бы заработала та или иная модель). Авторы также посчитали, сколько бы стоил в токенах запуск каждой из этих моделей, и представили таблицу оценки экономической эффективности LLM в кибербезе. 

В этом бенче три типа тасков:

  • Detect — найти уязвимость.

  • Exploit — написать по отчету эксплойт.

  • Patch — по тому же отчету написать патч. 

Результаты: лидируют Claude Code, OpenAI Codex CLI o3-high, OpenAI Codex CLI o4-mini, из опенсорсных агентов — C-Agent на Claude 3.7. 

BountyBench: результаты тестирования моделей

BountyBench: результаты тестирования моделей

Из таблицы видно, что патчинг дается моделям значительно легче, чем детектирование.

Вывод: хороший бенч для оценки реальной экономической ценности LLM-агентов в продуктах для безопасности.

9. ExCyTIn-Bench

Arxiv: 2507.14201

Интересный бенч, наиболее близкий к реальной работе команды расследования инцидентов. Совместный труд Microsoft Security AI Research, американского и китайского университетов. 

Исследователи провели восемь реалистичных многоэтапных атак (от простого фишинга до сложных многоступенчатых APT-атак с перемещением внутри периметра и эксфильтрацией данных). Из Microsoft Sentinel и связанных сервисов собрали 57 лог-таблиц и автоматически сгенерировали 589 вопросов по графам расследования.

Агент, в свою очередь, получает доступ к MySQL-базе с логами и должен итеративно выполнять SQL-запросы. Типичный вопрос из примера: «Был зафиксирован вход с анонимного IP-адреса 170.54.121.63 в 11:01:27. Какой SID аккаунта был вовлечен в подозрительное правило манипуляции с входящими письмами?» Агент идет по цепочке из 16 шагов через разные таблицы. Интересно, что есть шаги с ошибками, пустыми или бесполезными результатами. 

ExCyTIn-Bench: пример решения задачи

ExCyTIn-Bench: пример решения задачи

Результаты (avg reward, шкала 0–1): Claude Opus 4.5 (0,606), GPT-5.1 (0,582), GPT-5 (0,562). 

Метрика avg reward учитывает не только правильность финального ответа, но и эффективность пути к нему (количество SQL-запросов, релевантность промежуточных шагов).

Важно: агентские паттерны (ReAct, Expel, Reflect, BoN) заметно улучшают результаты даже у более слабых моделей. Например, GPT-4o с ReAct поднимается с 0,293 до 0,354.

Вывод: самый близкий к реальной SOC-работе бенч из всех рассмотренных. Аналог MITRE Evals, но для LLM-агентов. Если строите продукт для автоматизации расследований — мастхев.

Пара слов о том, что не рассмотрел подробно

Еще есть CSEBenchmark, CS-Eval и SecEval — они похожи по концепции на рассмотренные knowledge-бенчи, но менее известны и не добавляют принципиально нового. Упомянул для полноты картины.

Если интересует наступательная безопасность и автономный редтиминг, есть еще один action-бенч — ArtBench.

Итоги и рекомендации

Общая картина по состоянию на начало 2026 года такова: в энциклопедических тестах даже небольшие модели давно обогнали людей. Это уже случившийся факт. Интереснее смотреть на action-задачи: там еще есть куда расти, существует реальная разница между моделями, скаффолдинг (агентские паттерны, web search, RAG) существенно меняет расклад.

Если бы мне нужно было выбрать минимальный набор, я бы предложил вот такой:

  • Для оценки знаний: CyberMetric (простые вопросы, хорошая проверка маленьких моделей и эффектов квантизации) + AthenaBench (средняя сложность, реальные CTI-задачи).

  • Для оценки навыков: CyBench (CTF, проверка агентских способностей в полноценной среде) + ExCyTIn-Bench (расследование инцидентов, если ваш продукт про SOC).

  • Для оценки экономической ценности: BountyBench (если хотите понять ROI от LLM в задачах поиска и устранения уязвимостей).

В комментах делитесь, чем пользуетесь сами, какие еще бенчи, на ваш взгляд, достойны внимания и какие темы в разрезе использования LLM в кибербезе вам было бы интересно увидеть в блоге в следующий раз. 

Автор: netcitizen

Источник