Хакнуть ИИ: обзор игры «Защищ[AI]» — киберполигона для изучения промт-инъекций

ИИ-ассистенты все чаще используются не только как вспомогательные инструменты, но и как часть корпоративных процессов — с доступом к данным, внутренним системам и инфраструктуре. При этом многие защитные решения, которые кажутся надежными, на практике оказываются уязвимыми для промт-инъекций — атак, заставляющих модель раскрывать информацию, которую она не должна выдавать.

Сегодня не существует универсальных методов, полностью исключающих промт-инъекции в LLM. Это делает их источником долгосрочных рисков для организаций, проходящих ИИ-трансформацию. Проблема актуальна не только для IT- и ИБ-специалистов, но и для обычных пользователей. Теория подробно описана, однако без практики ее сложно воспринимать как реальную угрозу.

На связи Андрей Давид, руководитель отдела продуктов клиентской безопасности в Selectel ^[1]. В статье разберем, почему такие атаки остаются актуальной угрозой для LLM-приложений и как на практике выглядит их эксплуатация — на примере обучающей игры «Защищ[AI]». Это «интерактивный киберполигон», где можно безопасно попробовать атаковать ИИ-ассистента и увидеть, почему одних «запретов в системном промте» недостаточно.

Используйте навигацию, если не хотите читать текст полностью:

Суть игры ^[2]
Немного теории о промт-инъекциях ^[3]
Схема игры и подход к взлому ^[4]
Повышение осведомленности в вопросах AI Security ^[5]
Каким может быть шестой уровень ^[6]
В чем практическая польза от игры ^[7]
Вместо вывода ^[8]

Суть игры

Суть игры-симулятора ^[9] проста: вы — хакер, а ваш противник — корпоративный ИИ-ассистент. К слову, он работает на реальной модели DeepSeek R3. Помимо инструкций со списком задач у него есть «секретный пароль», который ассистент ни при каких обстоятельствах не должен разглашать.

Ваша задача как игрока — обойти защиту ИИ-ассистента, используя промт-инъекции и jailbreak-техники, чтобы выманить этот пароль (условный набор символов, например pass12345).

«Защищ[AI]» выступает в роли безопасной песочницы для демонстрации уязвимости OWASP LLM01 (промт-инъекция). На практике игра показывает два важных вывода:

приложения, использующие LLM, требуют дополнительных уровней защиты;
хранение конфиденциальных данных в системном промте создает прямой риск их утечки.

Скриншот интерфейса платформы http://aiinsec.ru. — *Скриншот интерфейса игры.*

Немного теоретической базы о промт-инъекциях

Промт-инъекция — это специально сформулированный запрос или последовательность запросов, которые приводят к обходу механизмов выравнивания языковой модели и нарушению заданных огр��ничений поведения ^[10]. Но для полноценного понимания природы промт-инъекций важно кратко рассмотреть, как создаются модели машинного обучения ^[11]. Если вам интересна исключительно реализация игры и вы уже знакомы с теорией, то милости просим сразу в следующий раздел ^[4].

Обучение LLM условно делится на несколько этапов. В контексте промт-инъекций ключевыми являются два из них.

1. Предварительное обучение (pretraining). На этом этапе модель обучается на больших массивах текстов и осваивает статистические закономерности языка: структуру предложений, стиль, распространенные факты и шаблоны рассуждений. После предварительного обучения модель не «отвечает на вопросы», а лишь продолжает текст наиболее вероятным образом.

К слову, самостоятельно в��полняют обучение моделей буквально десятки или сотни компаний в мире. Остальные же либо лишь дообучают open source-модели, либо, как бывает чаще, используют open source-модели в корпоративных системах без дополнительного обучения. В первую очередь это связано с повышением качества и «универсальности» open source-моделей, но также со стоимостью IT-инфраструктуры, которая необходима для выравнивания и тем более предварительного обучения.

2. Выравнивание (alignment). Чтобы модель стала полезным ассистентом, ее дополнительно обучают следовать инструкциям человека, отвечать связно и соблюдать ограничения безопасности. Alignment накладывает поведенческие ограничения: что можно и нельзя отвечать, какие темы обходить, какую роль исполнять.

После отправки запроса текст преобразуется в токены — числовые представления, с которыми работает нейросеть.

Схема преобразования промта при работе с LLM: текст → токены → векторы → нейросеть. — *Преобразования промта при работе с LLM.*

LLM, получив на вход последовательность токенов, вычисляет вероятности следующего токена и на их основе формирует ответ. Таким образом, все инструкции — и пользовательские, и системные — в итоге превращаются в единый токенизированный вид, а далее — в цифровой, с которым уже работает нейросеть. Для наглядного понимания токенизации можно использовать официальный инструмент OpenAI Tokenizer ^[12].

Разбор предложения «Привет из статьи Selectel!» на токены с помощью инструмента platform.openai.com/tokenizer.

Большие языковые модели получают на вход текст в токенизированном виде и выдают вероятность встретить тот или иной токен следующим. Таким образом, LLM после стадии pretraining, обучившись на огромном количестве текстов из интернета, понимают правила построения предложений, обладают общими знаниями, например, о книгах и любых других материалах, на которых прошло обучение. После этой стадии модель умеет продолжать тексты так, как это было в обучающей выборке.

Если взять большую языковую модель сразу после обучения на данных из интернета, она еще не будет хорошим помощником. Такая LLM не сможет «отвечать» на вопрос — вместо этого она просто продолжит текст, так что в ответе модели будут артефакты в духе «следующий абзац…»

Чтобы такая модель начала вести себя как ассистент, нужно специальное дообучение. Этот процесс и называется alignment, о котором мы рассказывали выше. Его цель — сделать так, чтобы ответы модели соответствовали ожиданиям человека, были понятными, полезными и в том числе безопасными.

Таким образом, alignment задает желаемое поведение ^[13], но не гарантирует его соблюдение. Промт-инъекция использует это ограничение, заставляя модель нарушить выравнивание.

Схема: вредоносный промпт → LLM обрабатывает промпт с вредоносными инструкциями → модель выполняет несанкционированные команды.

Почему защита от промт-инъекций — сложная задача

Безопасность GenAI находится на ранней стадии развития. Специалисты по информационной безопасности и энтузиасты регулярно выявляют новые техники и тактики атак на приложения, использующие LLM.

При этом между вредоносными и обычными промтами могут быть существенные пересечения. Иногда они могут даже совпадать, поэтому анализ контекста и ответы системы имеют решающее значение для различения намерений.

Как это работает: схема игры и подход к взлому

Игра наглядно демонстрирует механизм промт-инъекции:

Устройство игры aiinsec.ru в схематичном виде: пользователь → промт → системный промт → DeepSeek → ответ.

Пользовательский запрос не обрабатывается изолированно. Перед генерацией ответа он смешивается с системным промтом — скрытой инструкцией, задающей поведение ассистента, его роль, ограничения и содержащей чувствительные данные (в данном случае — секретный пароль). Если входящий промт сформулирован с целью атаки LLM, он может переопределить приоритеты инструкций, заставить модель игнорировать ограничения, а также привести к утечке секрета или раскрытию всего системного промта.

В игре реализовано несколько уровней сложности. На начальных уровнях ассистент практически не защищен и даже может сам подсказывать способы обхода ограничений. На пятом уровне применяются специальные преднастроенные фильтры для анализа пользовательских запросов и ответов модели. Фильтры определяют, содержится ли нежелательная информация в тексте, и автоматически блокируют нежелательные запросы пользователей, а также ответы LLM.

Помимо прочего, в игре установлены лимиты на общее количество отправленных сообщений. Они рассчитаны так, чтобы прохождение всех уровней было возможно, однако в зависимости от стратегии пользователь может исчерпать лимит токенов и столкнуться с ограничениями. Столкнувшись с обратной связью ИБ-сообщества, мы уже увеличили лимит с 1 000 до 2 000 токенов, но если ваша тактика предполагает большую нагрузку или вы столкнулись с другими сложностями — добро пожаловать в комментарии или личные сообщения на Хабре!

Скриншоты постов с обратной связью от IT-сообщества. — *Часть обратной связи от сообщества.*

Хакнуть ИИ: обзор игры «Защищ[AI]» — киберполигона для изучения промт-инъекций - 8

Security Center

Рассказываем о лучших практиках и средствах ИБ, требованиях и изменениях в законодательстве.

Исследовать → ^[14]

Техническая реализация

На реализацию ушло примерно два месяца работы, включая проектирование, разработку, тестирование и деплой. За это время были реализованы базовая игровая механика, серверная логика ^[15], интеграция с базой данных, сборка и доставка через Docker, а также настройка окружения с nginx на сервере.

«Игра на aiinsec.ru написана на Python и развернута на облачном сервере Selectel. В качестве веб-сервера используется nginx, а приложение поставляется и запускается в Docker, что упрощает воспроизводимость окружения и обновления».

Хакнуть ИИ: обзор игры «Защищ[AI]» — киберполигона для изучения промт-инъекций - 10

Леонид З.

Разработчик

Повышение осведомленности в вопросах AI Security

Видеоряд со стендом на конференции. — Стенд с игрой на конференции Tech Day.

Игра «Защищ[AI]» была создана как интерактивный элемент стенда Security Center ^[16] на флагманской конференции Selectel Tech Day 2025 и быстро привлекла внимание ^[17] посетителей.

Хакнуть ИИ: обзор игры «Защищ[AI]» — киберполигона для изучения промт-инъекций - 12

Среди самых креативных попыток взлома — запросы, где пользователи предлагали модели переопределить свою роль — например, стать тостером. Что самое интересное, на некоторых уровнях модель поддавалась и начинала рассказывать «как взломать тостер», выдавая при этом конфиденциальную информ��цию.

Этот опыт ^[18] наглядно демонстрирует, что манипулировать поведением LLM можно даже без экспертных знаний в области машинного обучения. При этом часть участников прибегала к помощи коллег-специалистов по ML, и коллективные попытки «переиграть» ИИ-ассистента вызывали еще больший интерес ^[19] у аудитории.

За последние месяцы стенд с игрой aiinsec.ru также использовался в рамках профильных мероприятий, включая AI Security MeetUP ^[20] и митап Pitch the Future. Med AI ^[21]. При этом многие участники формулировали общую проблему, с которой сталкиваются разработчики LLM-приложений.

«Я делал ИИ-ассистента, при этом потратил много времени на разработку хорошего системного промта. Но когда попробовал отправить в него промт-инъекцию, оказалось, что он очень легко выдал весь системный промт. Для меня это было большой неожиданностью».

Хакнуть ИИ: обзор игры «Защищ[AI]» — киберполигона для изучения промт-инъекций - 13

Посетитель конференции и участник игры «Защищ[AI]»

Другой важный вывод, который часто звучал в обсуждениях:

«Внедрение искусственного интеллекта ^[22] и сервисов которые используют LLM в корпоративные системы требует дополнительного обучения пользователей. Потому что уж очень просто, используя новые технологии, получать несанкционированный доступ к информации, которая кажется защищенной».

Наблюдения пользователей подчеркивают, что риски промт-инъекций связаны не только с технической реализацией, но и с ожиданиями разработчиков и пользователей относительно «надежности» ограничений внутри модели.

Каким может быть шестой уровень

В перспективных планах — запуск шестого уровня, ориентированного на противостояние более зрелым механизмам защиты. В этом уровне предполагается использование AI Guardrails — специализированных моделей и правил, предназначенных для анализа входящих запросов.

Задача guardrails — классифицировать пользовательские промты и определять, содержат ли они признаки промт-инъекций или других опасных инструкций, с последующей блокировкой или модификацией запроса.

Принципиальная схема guardrails для входной фильтрации и фильтрации ответа LLM. Входная фильтрация → ИИ-приложение → фильтрация ответа. — *Принципиальная схема guardrails для входной фильтрации и фильтрации ответа LLM.*

Использование guardrails отражает общий тренд в индустрии AI Security — переход к многоуровневой защите LLM-приложений. Это важный шаг в сторону более безопасных корпоративных решений, однако он не устраняет проблему полностью.

Разработчики фактически пытаются защищать модели машинного обучения с помощью других ML-моделей, которые потенциально подвержены тем же классам атак. Это оставляет значительное пространство для исследований и инженерных экспериментов.

В чем практическая польза игры

Внедрение LLM в бизнес-процессы требует не только технических мер защиты, но и повышения осведомленности пользователей. Любой сотрудник, взаимодействующий с корпоративным ИИ-ассистентом, потенциально становится точкой входа для промт-инъекции.

Обучение не может ограничиваться инструкциями и формальными запретами. Гораздо эффективнее показывать риски на практике — на примерах, подобных игре «Защищ[AI]», где видно, насколько легко можно нарушить ограничения модели. Технологии развиваются быстро, но человеческий фактор по-прежнему остается ключевым элементом цепочки безопасности, особенно сейчас, когда существующие меры безопасности не дают гарантий защиты.

1. Распознавание промт-инъекций

Пользователь, понимающий природу промт-инъекций, способен критически оценивать шаблоны промтов, скопированные из интернета, а также сторонние инструкции и примеры запросов. Осознание того, что атакующие инструкции могут быть скрыты прямо в тексте запроса, помогает своевременно выявлять угрозы и снижать риск компрометации модели.

2. Осознанное отношение к рискам

Промт-инъекции могут встречаться не только в чатах с ИИ-ассистентами. Они могут быть встроены в PDF-файлы, веб-страницы, к которым получает доступ браузер с ИИ-функциями, а также в инструменты разработки — IDE, агентные системы и подключаемые правила или навыки (например, в Cursor, Cline и аналогичных инструментах).

Особую опасность представляют многострочные, плохо читаемые или намеренно усложненные инструкции. В таком формате атакующие промты легче замаскировать под служебный текст или конфигурацию.

Проверка источников, понимание контекста и осторожное отношение к готовым решениям остаются обязательными условиями безопасной работы с LLM.

3. Безопасная тренировочная среда

Эксперименты с промтами и намеренно вредоносными сценариями в контролируемой среде позволяют безопасно понять, почему ИИ-ассистент иногда действует вне ожиданий пользователя или замысла разработчика.

Такая практика повышает цифровую гигиену и зрелость работы с ИИ. Это особенно важно для обычных пользователей, которые могут неосознанно загружать в корпоративные ИИ-сервисы тексты, файлы или изображения, содержащие промт-инъекции.

4. Вовлеченность и игровой формат

Игровая форма делает обучение менее формальным и более вовлекающим. Стохастическая природа языковых моделей приводит к неожиданным и наглядным результатам, которые лучше закрепляют понимание рисков и принципов работы LLM.

В результате безопасность перестает восприниматься как абстрактное требование и становится частью практического опыта.

Хакнуть ИИ: обзор игры «Защищ[AI]» — киберполигона для изучения промт-инъекций - 15

Позаботимся о безопасности ваших систем

Подберем инфраструктуру, организуем сеть, защитим серверы и возьмем все трудности миграции на себя → ^[23]

Вместо вывода

Промт-инъекции — это не экзотическая уязвимость, а долгосрочный источник риска для компаний, проходящих «ИИ-трансформацию», который связан с самой природой LLM. Игра «Защищ[AI]» позволяет понять на практических примерах, почему безопасность ИИ-систем требует сочетания технических мер, обучения и осознанного использования приложений, в работе которых применяется ИИ.

Автор: And4w

Источник ^[24]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/25482

URLs in this post:

[1] в Selectel: https://selectel.ru/services/is/?utm_source=habr.com&utm_medium=referral&utm_campaign=security_article_aiinsec_110226_content

[2] Суть игры: #1

[3] Немного теории о промт-инъекциях: #2

[4] Схема игры и подход к взлому: #3

[5] Повышение осведомленности в вопросах AI Security: #4

[6] Каким может быть шестой уровень: #5

[7] В чем практическая польза от игры: #6

[8] Вместо вывода: #7

[9] игры-симулятора: http://aiinsec.ru/

[10] поведения: http://www.braintools.ru/article/9372

[11] обучения: http://www.braintools.ru/article/5125

[12] Tokenizer: https://platform.openai.com/tokenizer

[13] поведение: http://www.braintools.ru/article/5593

[14] Исследовать →: https://selectel.ru/blog/security-center/?utm_source=habr.com&utm_medium=referral&utm_campaign=security_article_aiinsec_110226_banner_i065_01_ord

[15] логика: http://www.braintools.ru/article/7640

[16] Security Center: https://selectel.ru/blog/security-center/?utm_source=habr.com&utm_medium=referral&utm_campaign=security_article_aiinsec_110226_content

[17] внимание: http://www.braintools.ru/article/7595

[18] опыт: http://www.braintools.ru/article/6952

[19] интерес: http://www.braintools.ru/article/4220

[20] AI Security MeetUP: https://www.youtube.com/watch?v=rvdJLVGDATg

[21] Pitch the Future. Med AI: https://selectel.ru/blog/events/pitch-the-future/

[22] интеллекта: http://www.braintools.ru/article/7605

[23] Подберем инфраструктуру, организуем сеть, защитим серверы и возьмем все трудности миграции на себя →: https://selectel.ru/services/is/?utm_source=habr.com&utm_medium=referral&utm_campaign=security_article_aiinsec_110226_banner_i065_01_ord

[24] Источник: https://habr.com/ru/companies/selectel/articles/994940/?utm_source=habrahabr&utm_medium=rss&utm_campaign=994940

Нажмите здесь для печати.