- BrainTools - https://www.braintools.ru -
![Хакнуть ИИ: обзор игры «Защищ[AI]» — киберполигона для изучения промт-инъекций - 1 Хакнуть ИИ: обзор игры «Защищ[AI]» — киберполигона для изучения промт-инъекций - 1](https://www.braintools.ru/images/2026/02/11/haknut-ii-obzor-igry-zashish-AI--kiberpoligona-dlya-izucheniya-promt-inekcii.png)
ИИ-ассистенты все чаще используются не только как вспомогательные инструменты, но и как часть корпоративных процессов — с доступом к данным, внутренним системам и инфраструктуре. При этом многие защитные решения, которые кажутся надежными, на практике оказываются уязвимыми для промт-инъекций — атак, заставляющих модель раскрывать информацию, которую она не должна выдавать.
Сегодня не существует универсальных методов, полностью исключающих промт-инъекции в LLM. Это делает их источником долгосрочных рисков для организаций, проходящих ИИ-трансформацию. Проблема актуальна не только для IT- и ИБ-специалистов, но и для обычных пользователей. Теория подробно описана, однако без практики ее сложно воспринимать как реальную угрозу.
На связи Андрей Давид, руководитель отдела продуктов клиентской безопасности в Selectel [1]. В статье разберем, почему такие атаки остаются актуальной угрозой для LLM-приложений и как на практике выглядит их эксплуатация — на примере обучающей игры «Защищ[AI]». Это «интерактивный киберполигон», где можно безопасно попробовать атаковать ИИ-ассистента и увидеть, почему одних «запретов в системном промте» недостаточно.
Суть игры-симулятора [9] проста: вы — хакер, а ваш противник — корпоративный ИИ-ассистент. К слову, он работает на реальной модели DeepSeek R3. Помимо инструкций со списком задач у него есть «секретный пароль», который ассистент ни при каких обстоятельствах не должен разглашать.
Ваша задача как игрока — обойти защиту ИИ-ассистента, используя промт-инъекции и jailbreak-техники, чтобы выманить этот пароль (условный набор символов, например pass12345).
«Защищ[AI]» выступает в роли безопасной песочницы для демонстрации уязвимости OWASP LLM01 (промт-инъекция). На практике игра показывает два важных вывода:
приложения, использующие LLM, требуют дополнительных уровней защиты;
хранение конфиденциальных данных в системном промте создает прямой риск их утечки.
Промт-инъекция — это специально сформулированный запрос или последовательность запросов, которые приводят к обходу механизмов выравнивания языковой модели и нарушению заданных огр��ничений поведения [10]. Но для полноценного понимания природы промт-инъекций важно кратко рассмотреть, как создаются модели машинного обучения [11]. Если вам интересна исключительно реализация игры и вы уже знакомы с теорией, то милости просим сразу в следующий раздел [4].
Обучение LLM условно делится на несколько этапов. В контексте промт-инъекций ключевыми являются два из них.
1. Предварительное обучение (pretraining). На этом этапе модель обучается на больших массивах текстов и осваивает статистические закономерности языка: структуру предложений, стиль, распространенные факты и шаблоны рассуждений. После предварительного обучения модель не «отвечает на вопросы», а лишь продолжает текст наиболее вероятным образом.
К слову, самостоятельно в��полняют обучение моделей буквально десятки или сотни компаний в мире. Остальные же либо лишь дообучают open source-модели, либо, как бывает чаще, используют open source-модели в корпоративных системах без дополнительного обучения. В первую очередь это связано с повышением качества и «универсальности» open source-моделей, но также со стоимостью IT-инфраструктуры, которая необходима для выравнивания и тем более предварительного обучения.
2. Выравнивание (alignment). Чтобы модель стала полезным ассистентом, ее дополнительно обучают следовать инструкциям человека, отвечать связно и соблюдать ограничения безопасности. Alignment накладывает поведенческие ограничения: что можно и нельзя отвечать, какие темы обходить, какую роль исполнять.
После отправки запроса текст преобразуется в токены — числовые представления, с которыми работает нейросеть.
LLM, получив на вход последовательность токенов, вычисляет вероятности следующего токена и на их основе формирует ответ. Таким образом, все инструкции — и пользовательские, и системные — в итоге превращаются в единый токенизированный вид, а далее — в цифровой, с которым уже работает нейросеть. Для наглядного понимания токенизации можно использовать официальный инструмент OpenAI Tokenizer [12].
![Хакнуть ИИ: обзор игры «Защищ[AI]» — киберполигона для изучения промт-инъекций - 4 Разбор предложения «Привет из статьи Selectel!» на токены с помощью инструмента platform.openai.com/tokenizer.](https://www.braintools.ru/images/2026/02/11/haknut-ii-obzor-igry-zashish-AI--kiberpoligona-dlya-izucheniya-promt-inekcii-4.png)
Большие языковые модели получают на вход текст в токенизированном виде и выдают вероятность встретить тот или иной токен следующим. Таким образом, LLM после стадии pretraining, обучившись на огромном количестве текстов из интернета, понимают правила построения предложений, обладают общими знаниями, например, о книгах и любых других материалах, на которых прошло обучение. После этой стадии модель умеет продолжать тексты так, как это было в обучающей выборке.
Если взять большую языковую модель сразу после обучения на данных из интернета, она еще не будет хорошим помощником. Такая LLM не сможет «отвечать» на вопрос — вместо этого она просто продолжит текст, так что в ответе модели будут артефакты в духе «следующий абзац…»
Чтобы такая модель начала вести себя как ассистент, нужно специальное дообучение. Этот процесс и называется alignment, о котором мы рассказывали выше. Его цель — сделать так, чтобы ответы модели соответствовали ожиданиям человека, были понятными, полезными и в том числе безопасными.
Таким образом, alignment задает желаемое поведение [13], но не гарантирует его соблюдение. Промт-инъекция использует это ограничение, заставляя модель нарушить выравнивание.
![Хакнуть ИИ: обзор игры «Защищ[AI]» — киберполигона для изучения промт-инъекций - 5 Схема: вредоносный промпт → LLM обрабатывает промпт с вредоносными инструкциями → модель выполняет несанкционированные команды.](https://www.braintools.ru/images/2026/02/11/haknut-ii-obzor-igry-zashish-AI--kiberpoligona-dlya-izucheniya-promt-inekcii-5.png)
Безопасность GenAI находится на ранней стадии развития. Специалисты по информационной безопасности и энтузиасты регулярно выявляют новые техники и тактики атак на приложения, использующие LLM.
При этом между вредоносными и обычными промтами могут быть существенные пересечения. Иногда они могут даже совпадать, поэтому анализ контекста и ответы системы имеют решающее значение для различения намерений.
Игра наглядно демонстрирует механизм промт-инъекции:
![Хакнуть ИИ: обзор игры «Защищ[AI]» — киберполигона для изучения промт-инъекций - 6 Устройство игры aiinsec.ru в схематичном виде: пользователь → промт → системный промт → DeepSeek → ответ.](https://www.braintools.ru/images/2026/02/11/haknut-ii-obzor-igry-zashish-AI--kiberpoligona-dlya-izucheniya-promt-inekcii-6.png)
Пользовательский запрос не обрабатывается изолированно. Перед генерацией ответа он смешивается с системным промтом — скрытой инструкцией, задающей поведение ассистента, его роль, ограничения и содержащей чувствительные данные (в данном случае — секретный пароль). Если входящий промт сформулирован с целью атаки LLM, он может переопределить приоритеты инструкций, заставить модель игнорировать ограничения, а также привести к утечке секрета или раскрытию всего системного промта.
В игре реализовано несколько уровней сложности. На начальных уровнях ассистент практически не защищен и даже может сам подсказывать способы обхода ограничений. На пятом уровне применяются специальные преднастроенные фильтры для анализа пользовательских запросов и ответов модели. Фильтры определяют, содержится ли нежелательная информация в тексте, и автоматически блокируют нежелательные запросы пользователей, а также ответы LLM.
Помимо прочего, в игре установлены лимиты на общее количество отправленных сообщений. Они рассчитаны так, чтобы прохождение всех уровней было возможно, однако в зависимости от стратегии пользователь может исчерпать лимит токенов и столкнуться с ограничениями. Столкнувшись с обратной связью ИБ-сообщества, мы уже увеличили лимит с 1 000 до 2 000 токенов, но если ваша тактика предполагает большую нагрузку или вы столкнулись с другими сложностями — добро пожаловать в комментарии или личные сообщения на Хабре!
![Хакнуть ИИ: обзор игры «Защищ[AI]» — киберполигона для изучения промт-инъекций - 8 Хакнуть ИИ: обзор игры «Защищ[AI]» — киберполигона для изучения промт-инъекций - 8](https://www.braintools.ru/images/2026/02/11/haknut-ii-obzor-igry-zashish-AI--kiberpoligona-dlya-izucheniya-promt-inekcii-8.gif)
Security Center
Рассказываем о лучших практиках и средствах ИБ, требованиях и изменениях в законодательстве.
Исследовать → [14]
На реализацию ушло примерно два месяца работы, включая проектирование, разработку, тестирование и деплой. За это время были реализованы базовая игровая механика, серверная логика [15], интеграция с базой данных, сборка и доставка через Docker, а также настройка окружения с nginx на сервере.
«Игра на aiinsec.ru написана на Python и развернута на облачном сервере Selectel. В качестве веб-сервера используется nginx, а приложение поставляется и запускается в Docker, что упрощает воспроизводимость окружения и обновления».
Разработчик
Игра «Защищ[AI]» была создана как интерактивный элемент стенда Security Center [16] на флагманской конференции Selectel Tech Day 2025 и быстро привлекла внимание [17] посетителей.
![Хакнуть ИИ: обзор игры «Защищ[AI]» — киберполигона для изучения промт-инъекций - 12 Хакнуть ИИ: обзор игры «Защищ[AI]» — киберполигона для изучения промт-инъекций - 12](https://www.braintools.ru/images/2026/02/11/haknut-ii-obzor-igry-zashish-AI--kiberpoligona-dlya-izucheniya-promt-inekcii-12.png)
Среди самых креативных попыток взлома — запросы, где пользователи предлагали модели переопределить свою роль — например, стать тостером. Что самое интересное, на некоторых уровнях модель поддавалась и начинала рассказывать «как взломать тостер», выдавая при этом конфиденциальную информ��цию.
Этот опыт [18] наглядно демонстрирует, что манипулировать поведением LLM можно даже без экспертных знаний в области машинного обучения. При этом часть участников прибегала к помощи коллег-специалистов по ML, и коллективные попытки «переиграть» ИИ-ассистента вызывали еще больший интерес [19] у аудитории.
За последние месяцы стенд с игрой aiinsec.ru также использовался в рамках профильных мероприятий, включая AI Security MeetUP [20] и митап Pitch the Future. Med AI [21]. При этом многие участники формулировали общую проблему, с которой сталкиваются разработчики LLM-приложений.
«Я делал ИИ-ассистента, при этом потратил много времени на разработку хорошего системного промта. Но когда попробовал отправить в него промт-инъекцию, оказалось, что он очень легко выдал весь системный промт. Для меня это было большой неожиданностью».
Другой важный вывод, который часто звучал в обсуждениях:
«Внедрение искусственного интеллекта [22] и сервисов которые используют LLM в корпоративные системы требует дополнительного обучения пользователей. Потому что уж очень просто, используя новые технологии, получать несанкционированный доступ к информации, которая кажется защищенной».
Наблюдения пользователей подчеркивают, что риски промт-инъекций связаны не только с технической реализацией, но и с ожиданиями разработчиков и пользователей относительно «надежности» ограничений внутри модели.
В перспективных планах — запуск шестого уровня, ориентированного на противостояние более зрелым механизмам защиты. В этом уровне предполагается использование AI Guardrails — специализированных моделей и правил, предназначенных для анализа входящих запросов.
Задача guardrails — классифицировать пользовательские промты и определять, содержат ли они признаки промт-инъекций или других опасных инструкций, с последующей блокировкой или модификацией запроса.
Использование guardrails отражает общий тренд в индустрии AI Security — переход к многоуровневой защите LLM-приложений. Это важный шаг в сторону более безопасных корпоративных решений, однако он не устраняет проблему полностью.
Разработчики фактически пытаются защищать модели машинного обучения с помощью других ML-моделей, которые потенциально подвержены тем же классам атак. Это оставляет значительное пространство для исследований и инженерных экспериментов.
Внедрение LLM в бизнес-процессы требует не только технических мер защиты, но и повышения осведомленности пользователей. Любой сотрудник, взаимодействующий с корпоративным ИИ-ассистентом, потенциально становится точкой входа для промт-инъекции.
Обучение не может ограничиваться инструкциями и формальными запретами. Гораздо эффективнее показывать риски на практике — на примерах, подобных игре «Защищ[AI]», где видно, насколько легко можно нарушить ограничения модели. Технологии развиваются быстро, но человеческий фактор по-прежнему остается ключевым элементом цепочки безопасности, особенно сейчас, когда существующие меры безопасности не дают гарантий защиты.
Пользователь, понимающий природу промт-инъекций, способен критически оценивать шаблоны промтов, скопированные из интернета, а также сторонние инструкции и примеры запросов. Осознание того, что атакующие инструкции могут быть скрыты прямо в тексте запроса, помогает своевременно выявлять угрозы и снижать риск компрометации модели.
Промт-инъекции могут встречаться не только в чатах с ИИ-ассистентами. Они могут быть встроены в PDF-файлы, веб-страницы, к которым получает доступ браузер с ИИ-функциями, а также в инструменты разработки — IDE, агентные системы и подключаемые правила или навыки (например, в Cursor, Cline и аналогичных инструментах).
Особую опасность представляют многострочные, плохо читаемые или намеренно усложненные инструкции. В таком формате атакующие промты легче замаскировать под служебный текст или конфигурацию.
Проверка источников, понимание контекста и осторожное отношение к готовым решениям остаются обязательными условиями безопасной работы с LLM.
Эксперименты с промтами и намеренно вредоносными сценариями в контролируемой среде позволяют безопасно понять, почему ИИ-ассистент иногда действует вне ожиданий пользователя или замысла разработчика.
Такая практика повышает цифровую гигиену и зрелость работы с ИИ. Это особенно важно для обычных пользователей, которые могут неосознанно загружать в корпоративные ИИ-сервисы тексты, файлы или изображения, содержащие промт-инъекции.
Игровая форма делает обучение менее формальным и более вовлекающим. Стохастическая природа языковых моделей приводит к неожиданным и наглядным результатам, которые лучше закрепляют понимание рисков и принципов работы LLM.
В результате безопасность перестает восприниматься как абстрактное требование и становится частью практического опыта.
![Хакнуть ИИ: обзор игры «Защищ[AI]» — киберполигона для изучения промт-инъекций - 15 Хакнуть ИИ: обзор игры «Защищ[AI]» — киберполигона для изучения промт-инъекций - 15](https://www.braintools.ru/images/2026/02/11/haknut-ii-obzor-igry-zashish-AI--kiberpoligona-dlya-izucheniya-promt-inekcii-15.gif)
Позаботимся о безопасности ваших систем
Подберем инфраструктуру, организуем сеть, защитим серверы и возьмем все трудности миграции на себя → [23]
Промт-инъекции — это не экзотическая уязвимость, а долгосрочный источник риска для компаний, проходящих «ИИ-трансформацию», который связан с самой природой LLM. Игра «Защищ[AI]» позволяет понять на практических примерах, почему безопасность ИИ-систем требует сочетания технических мер, обучения и осознанного использования приложений, в работе которых применяется ИИ.
Автор: And4w
Источник [24]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/25482
URLs in this post:
[1] в Selectel: https://selectel.ru/services/is/?utm_source=habr.com&utm_medium=referral&utm_campaign=security_article_aiinsec_110226_content
[2] Суть игры: #1
[3] Немного теории о промт-инъекциях: #2
[4] Схема игры и подход к взлому: #3
[5] Повышение осведомленности в вопросах AI Security: #4
[6] Каким может быть шестой уровень: #5
[7] В чем практическая польза от игры: #6
[8] Вместо вывода: #7
[9] игры-симулятора: http://aiinsec.ru/
[10] поведения: http://www.braintools.ru/article/9372
[11] обучения: http://www.braintools.ru/article/5125
[12] Tokenizer: https://platform.openai.com/tokenizer
[13] поведение: http://www.braintools.ru/article/5593
[14] Исследовать →: https://selectel.ru/blog/security-center/?utm_source=habr.com&utm_medium=referral&utm_campaign=security_article_aiinsec_110226_banner_i065_01_ord
[15] логика: http://www.braintools.ru/article/7640
[16] Security Center: https://selectel.ru/blog/security-center/?utm_source=habr.com&utm_medium=referral&utm_campaign=security_article_aiinsec_110226_content
[17] внимание: http://www.braintools.ru/article/7595
[18] опыт: http://www.braintools.ru/article/6952
[19] интерес: http://www.braintools.ru/article/4220
[20] AI Security MeetUP: https://www.youtube.com/watch?v=rvdJLVGDATg
[21] Pitch the Future. Med AI: https://selectel.ru/blog/events/pitch-the-future/
[22] интеллекта: http://www.braintools.ru/article/7605
[23] Подберем инфраструктуру, организуем сеть, защитим серверы и возьмем все трудности миграции на себя →: https://selectel.ru/services/is/?utm_source=habr.com&utm_medium=referral&utm_campaign=security_article_aiinsec_110226_banner_i065_01_ord
[24] Источник: https://habr.com/ru/companies/selectel/articles/994940/?utm_source=habrahabr&utm_medium=rss&utm_campaign=994940
Нажмите здесь для печати.