Точно ли агенты безопасны?. agents.. agents. ai.. agents. ai. heretic.. agents. ai. heretic. llm.. agents. ai. heretic. llm. security.. agents. ai. heretic. llm. security. Информационная безопасность.. agents. ai. heretic. llm. security. Информационная безопасность. искусственный интеллект.
Точно ли агенты безопасны? - 1

Буквально недавно я писал статью по мотивам материала Anthropic – того самого, где опять говорили “джуны больше не нужны“.

Ребята учитывают одни детали, игнорируют другие и по факту сравнивают тёплое с мягким :) потому что основная проблема джунов – далеко не LLM-агенты, но подробнее в той статье

Но к чему это я? Anthropic выкатили ещё один материал – уже про использование агентов в безопасности

Меня зовут Эдгар Сипки, я founder easyp & sipki tech и отбираю доклады на Golang Conf в программном комитете. А в своём тг-канале делюсь прикладными LLM – инструментами и подходами для разработки – подписывайтесь, дальше будет больше :)

Точно ли агенты безопасны? - 2

Суть вот в чём – LLM-агенты это уже полноценный инструмент взлома. За год Anthropic заблокировали 832 аккаунта за злоупотребления, и доля действительно опасных акторов выросла с ~33% до ~56%. Опаснее становится не “вообще всё”, а именно доля серьёзных игроков

Одна история – то, как могут взломать вас, вашего агента, вашего помощника, к примеру через промпт-инъекции в скиллах или через MCP.

Но есть вопрос поинтереснее :)

А могут ли ваш продукт взломать, используя LLM?

Ответ – да…

LLM агента подключают буквально на всех этапах сейчас, от написания кода вируса до поиска учёток в уже взломанных сетях

Самый жёсткий кейс получил риск-балл 100 из 100: шпионская кампания, где агент сам вёл разведку, эксплуатировал уязвимости, ходил по сети и собирал данные.

В ноябре 2025 года Anthropic опубликовала отчёт о том, что они назвали «первой задокументированной AI-оркестрированной кибершпионской кампанией». Группировка GTG-1002

Агент выполнял 80–90% всей операции самостоятельно: разведку, написание эксплойтов, перехват учётных данных, перемещение по сети и эксфильтрацию данных. Человек-оператор вмешивался лишь в 4–6 ключевых точках на всём протяжении кампании. Именно эта операция получила максимальный балл ARiES (AI Risk Enablement Score) — 100 из 100 :)

Но, об этом подробнее, в тг, а мы пожалуй вернемся к сути пока статьи Как биться с будущими… ?

Точно ли агенты безопасны? - 3

С одной стороны, есть инструменты для анализа ваших скиллов, MCP и так далее, такие как Bumblebee и Skill Spectre. Их задача – сделать так, чтобы ваше рабочее пространство и ваших агентов не взломали.

Но что делать, если вы пишете проект и можете не учитывать те или иные кейсы безопасности? И вот тут гораздо интереснее.

А если дыра в вашем собственном коде?

Mythos и его наследник fable хайпанули в первую очередь тем, что позволили найти огромное количество дыр в безопасности в крупных системах.

Но вот в чём факт: немалую часть этих уязвимостей нашли только потому, что был доступ к коду, так как проекты были oss. Здесь маркетинг пиар немножко отыграл своё, будем честны :)

Точно ли агенты безопасны? - 4

ТО ЕСТЬ!

Mythos особенно хорошо находит уязвимости именно тогда, когда ей доступен исходный код, а при анализе в изоляции или в black-box режиме результаты кратно становится хуже. Разрыв с доступом к исходнику количество ложноотрицательных результатов снижается на 55% по сравнению с анализом без него, но, пока не раслабляем булки, дальше интереснее

Одно из самых важных деталей: это все было и до mythos :) Видите ли, 70% атакующих инструментов – это OSS-модели , по Bi.Zone как раз таки недавно опубликовала анализ всей этой истории и в итоге – 70% это open-source модели, дообученные или аблитерированные специально под генерацию вредоносного контента

К чему это я – современные агенты, особенно опенсорсные – уже достигли достаточного развития , чтобы помогать искать уязвимости в системе (особенно уж если у вас открытый код к которому можно его подключить).

Особенно с учётом того, что есть Heretic, который позволяет провести аблитерацию любой модели и заставить её выдавать практически любую запрещённую информацию, а также помогать в любых (абсолютно) задачах, в итоге планка входа для атакующего упала и продолжает падать

Так в итоге, это лишний хайп Mythos или же реаьлность?

ТО ЕСТЬ!

Mythos особенно хорошо находит уязвимости именно тогда, когда ей доступен исходный код, а при анализе в изоляции или в black-box режиме результаты кратно становится хуже. Разрыв с доступом к исходнику количество ложноотрицательных результатов снижается на 55% по сравнению с анализом без него, но, пока не раслабляем булки, дальше интереснее

Одно из самых важных деталей: это все было и до mythos :) Видите ли, 70% атакующих инструментов – это OSS-модели , по Bi.Zone как раз таки недавно опубликовала анализ всей этой истории и в итоге – 70% это open-source модели, дообученные или аблитерированные специально под генерацию вредоносного контента

К чему это я – современные агенты, особенно опенсорсные – уже достигли достаточного развития , чтобы помогать искать уязвимости в системе (особенно уж если у вас открытый код к которому можно его подключить).

Особенно с учётом того, что есть Heretic, который позволяет провести аблитерацию любой модели и заставить её выдавать практически любую запрещённую информацию, а также помогать в любых (абсолютно) задачах, в итоге планка входа для атакующего упала и продолжает падать

Так в итоге, это лишний хайп Mythos или же реаьлность?

ТО ЕСТЬ!

Mythos особенно хорошо находит уязвимости именно тогда, когда ей доступен исходный код, а при анализе в изоляции или в black-box режиме результаты кратно становится хуже. Разрыв с доступом к исходнику количество ложноотрицательных результатов снижается на 55% по сравнению с анализом без него, но, пока не раслабляем булки, дальше интереснее

Одно из самых важных деталей: это все было и до mythos :) Видите ли, 70% атакующих инструментов – это OSS-модели , по Bi.Zone как раз таки недавно опубликовала анализ всей этой истории и в итоге – 70% это open-source модели, дообученные или аблитерированные специально под генерацию вредоносного контента

К чему это я – современные агенты, особенно опенсорсные – уже достигли достаточного развития , чтобы помогать искать уязвимости в системе (особенно уж если у вас открытый код к которому можно его подключить).

Особенно с учётом того, что есть Heretic, который позволяет провести аблитерацию любой модели и заставить её выдавать практически любую запрещённую информацию, а также помогать в любых (абсолютно) задачах, в итоге планка входа для атакующего упала и продолжает падать

Так в итоге, это лишний хайп Mythos или же реаьлность?

Точно ли агенты безопасны? - 5

И хайп, и реальность – и нет, это не увиливание :)

  1. Хайп – потому что и до Mythos этим активно занимались, просто ребята решили очень неплохо распиарить свой новый продукт

  2. Реальность – планка входа атакующих сильно упала, и скорее всего будет дальше падать

Так что вопрос не “правда ли агенты умеют ломать”. Вопрос – что делать, чтобы ломали вас чуть поменьше :)

Одна история – писать код, а другая – проверить, что он безопасный

Точно ли агенты безопасны? - 6

Безопасность кода – отдельный навык, и вайб-кодинг его по умолчанию не покрывает (особенно если еще и вайбкодер пишет, а не программист) агент пишет работающий код, а не безопасный – это разные критерии приёмки

И речь даже не о том, что ваш продукт целенаправленно будет ломать Opus, речь о том, чтобы код, написанный вечерком, сам не оставил дыру – как недавно в одном из стартапов, где вайб-код оставил открытый токен прямо во фронтенде :D

Но, что делать если доступа до Mythos нет? (или он крайне дорогой) – Security скиллы, ведь до начала хайпа Mythos , многие как раз таки их и использовали, Anthropic просто красиво завернули всю эту историю. Ведь если OSS модели уже помогают атакующей стороне, то поверьте – они хорошо помогают и нам, причем

Причем один из самых популярных – скилл от разработчиков sentry , и он проверяет код на типовые дыры – секреты в клиентском коде, инъекции, права доступа и многое другое

Ну и про workspace не забываем, ведь код мы проверили – а взломать могут и само рабочее пространство, через скиллы и MCP. Для этого – Bumblebee и Skill Spectre, про них было выше (и подробнее позже распишу в тг)

Что в итоге

В прошлой статье я Anthropic критиковал – и не отказываюсь :)

Тут ребята тоже без пиара не обошлись все таки, Mythos завернули красиво – хотя и ломагенты, и security-скиллы прекрасно жили до них

Но, будем объективны, планка входа для атакующего упала и будет падать еще сильнее, но к счастью, нам тоже становится проще, ведь если агент может найти дырку в безопасности, помочь ее залатать он тоже может неплохо :)

P.S. Дальше будет продолжение уже про Bumblebee и Skill Spectre в тг

Автор: ZergsLaw

Источник