Точно ли агенты безопасны?

Буквально недавно я писал статью по мотивам материала Anthropic – того самого, где опять говорили “джуны больше не нужны ^[1]“.

Ребята учитывают одни детали, игнорируют другие и по факту сравнивают тёплое с мягким :) потому что основная проблема джунов – далеко не LLM-агенты, но подробнее в той статье

Но к чему это я? Anthropic выкатили ещё один материал – уже про использование агентов в безопасности

Меня зовут Эдгар Сипки, я founder easyp & sipki tech и отбираю доклады на Golang Conf в программном комитете. А в своём тг-канале ^[2] делюсь прикладными LLM – инструментами и подходами для разработки – подписывайтесь, дальше будет больше :)

Суть вот в чём – LLM-агенты это уже полноценный инструмент взлома. За год Anthropic заблокировали 832 аккаунта за злоупотребления, и доля действительно опасных акторов выросла с ~33% до ~56%. Опаснее становится не “вообще всё”, а именно доля серьёзных игроков

Одна история – то, как могут взломать вас, вашего агента, вашего помощника, к примеру через промпт-инъекции в скиллах или через MCP.

Но есть вопрос поинтереснее :)

А могут ли ваш продукт взломать, используя LLM?

Ответ – да…

LLM агента подключают буквально на всех этапах сейчас, от написания кода вируса до поиска учёток в уже взломанных сетях

Самый жёсткий кейс получил риск-балл 100 из 100: шпионская кампания, где агент сам вёл разведку, эксплуатировал уязвимости, ходил по сети и собирал данные.

В ноябре 2025 года Anthropic опубликовала отчёт о том, что они назвали «первой задокументированной AI-оркестрированной кибершпионской кампанией». Группировка GTG-1002

Агент выполнял 80–90% всей операции самостоятельно: разведку, написание эксплойтов, перехват учётных данных, перемещение по сети и эксфильтрацию данных. Человек-оператор вмешивался лишь в 4–6 ключевых точках на всём протяжении кампании. Именно эта операция получила максимальный балл ARiES (AI Risk Enablement Score) — 100 из 100 :)

Но, об этом подробнее, в тг, а мы пожалуй вернемся к сути пока статьи Как биться с будущими… ?

С одной стороны, есть инструменты для анализа ваших скиллов, MCP и так далее, такие как Bumblebee и Skill Spectre. Их задача – сделать так, чтобы ваше рабочее пространство и ваших агентов не взломали.

Но что делать, если вы пишете проект и можете не учитывать те или иные кейсы безопасности? И вот тут гораздо интереснее.

А если дыра в вашем собственном коде?

Mythos и его наследник fable хайпанули в первую очередь тем, что позволили найти огромное количество дыр в безопасности в крупных системах.

Но вот в чём факт: немалую часть этих уязвимостей нашли только потому, что был доступ к коду, так как проекты были oss. Здесь ~~маркетинг~~ пиар немножко отыграл своё, будем честны :)

ТО ЕСТЬ!

Mythos особенно хорошо находит уязвимости именно тогда, когда ей доступен исходный код, а при анализе в изоляции или в black-box режиме результаты кратно становится хуже. Разрыв с доступом к исходнику количество ложноотрицательных результатов снижается на 55% по сравнению с анализом без него, но, пока не раслабляем булки, дальше интереснее

Одно из самых важных деталей: это все было и до mythos :) Видите ли, 70% атакующих инструментов – это OSS-модели , по Bi.Zone ^[3] как раз таки недавно опубликовала анализ всей этой истории и в итоге – 70% это open-source модели, дообученные или аблитерированные специально под генерацию вредоносного контента

К чему это я – современные агенты, особенно опенсорсные – уже достигли достаточного развития , чтобы помогать искать уязвимости в системе (особенно уж если у вас открытый код к которому можно его подключить).

Особенно с учётом того, что есть Heretic ^[4], который позволяет провести аблитерацию любой модели и заставить её выдавать практически любую запрещённую информацию, а также помогать в любых (абсолютно) задачах, в итоге планка входа для атакующего упала и продолжает падать

Так в итоге, это лишний хайп Mythos или же реаьлность?

ТО ЕСТЬ!

Так в итоге, это лишний хайп Mythos или же реаьлность?

ТО ЕСТЬ!

Так в итоге, это лишний хайп Mythos или же реаьлность?

И хайп, и реальность – и нет, это не увиливание :)

Хайп – потому что и до Mythos этим активно занимались, просто ребята решили очень неплохо распиарить свой новый продукт
Реальность – планка входа атакующих сильно упала, и скорее всего будет дальше падать

Так что вопрос не “правда ли агенты умеют ломать”. Вопрос – что делать, чтобы ломали вас чуть поменьше :)

Одна история – писать код, а другая – проверить, что он безопасный

Безопасность кода – отдельный навык, и вайб-кодинг его по умолчанию не покрывает (особенно если еще и вайбкодер пишет, а не программист) агент пишет работающий код, а не безопасный – это разные критерии приёмки

И речь даже не о том, что ваш продукт целенаправленно будет ломать Opus, речь о том, чтобы код, написанный вечерком, сам не оставил дыру – как недавно в одном из стартапов, где вайб-код оставил открытый токен прямо во фронтенде :D

Но, что делать если доступа до Mythos нет? (или он крайне дорогой) – Security скиллы, ведь до начала хайпа Mythos , многие как раз таки их и использовали, Anthropic просто красиво завернули всю эту историю. Ведь если OSS модели уже помогают атакующей стороне, то поверьте – они хорошо помогают и нам, причем

Причем один из самых популярных – скилл ^[5] от разработчиков sentry ^[6] , и он проверяет код на типовые дыры – секреты в клиентском коде, инъекции, права доступа и многое другое

Ну и про workspace не забываем ^[7], ведь код мы проверили – а взломать могут и само рабочее пространство, через скиллы и MCP. Для этого – Bumblebee и Skill Spectre, про них было выше (и подробнее позже распишу в тг)

Что в итоге

В прошлой статье я Anthropic критиковал – и не отказываюсь :)

Тут ребята тоже без пиара не обошлись все таки, Mythos завернули красиво – хотя и ломагенты, и security-скиллы прекрасно жили до них

Но, будем объективны, планка входа для атакующего упала и будет падать еще сильнее, но к счастью, нам тоже становится проще, ведь если агент может найти дырку в безопасности, помочь ее залатать он тоже может неплохо :)

P.S. Дальше будет продолжение уже про Bumblebee и Skill Spectre в тг ^[2]

Автор: ZergsLaw

Источник ^[8]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/31678

URLs in this post:

[1] джуны больше не нужны: https://habr.com/ru/articles/1007510/

[2] тг-канале: https://t.me/+dOc_INJtIW8zNDcy

[3] Bi.Zone: http://Bi.Zone

[4] Heretic: https://github.com/p-e-w/heretic

[5] скилл: https://www.skills.sh/getsentry/skills/security-review

[6] sentry: https://github.com/getsentry

[7] забываем: http://www.braintools.ru/article/333

[8] Источник: https://habr.com/ru/articles/1047078/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1047078

Нажмите здесь для печати.