AI Red Teaming: спор с Grok — Часть 3. Атаки на модель: jailbreaks, thinking tokens и системный промпт
Часть 3 из 4 - LLM-специфичные атакиВ первых двух частях я ломал инфраструктуру - sandbox, billing API, WAF. Но у LLM-систем есть уникальный класс уязвимостей, которого нет в обычных веб-приложениях. В этой части - атаки на саму модель: извлечение системного промпта, утечка thinking tokens и обход safety-фильтров с 64% success rate.Системный промпт: два способа извлеченияСистемный промпт - это инструкция, которую модель получает до твоего сообщения. Он определяет поведение, ограничения, доступные инструменты. Для атакующего - это карта всех защит.Я извлёк системный промпт Grok двумя независимыми способами.
Как заставить Qwen 3.5-Plus написать ransomware, reverse shell и zero-day exploit за 5 шагов
Полный разбор цепочки атак на новейшую модель Alibaba, почему встроенная защита LLM — это иллюзия, и что с этим делатьДисклеймер. Все уязвимости задокументированы в advisory QWEN-2026-001 и раскрыты Alibaba Cloud Security до публикации. Атаки проводились на модель Qwen 3.5-Plus через стандартный интерфейс Qwen — сгенерированные пейлоады никуда не отправлялись за пределы модели и не применялись против реальных потребителей/компаний. Цель статьи — образовательная-познавательная: показать системные проблемы безопасности LLM и пути их решения.
Защита LLM за 3ms: как я построил open-source иммунную систему для AI
TL;DR: Я строю open-source платформу AI-безопасности SENTINEL — 116K строк кода, 49 Rust-движков. Недавно добавил Micro-Model Swarm — рой из крошечных ML-моделей (<2000 параметров каждая), который детектит jailbreak-атаки с точностью 99.7%. Обучил на 87 056 реальных паттернах. Работает за 1ms на CPU. Без GPU, без облака, без компромиссов.Зачем я вообще за это взялсяВ 1998 году антивирус казался паранойей. В 2008 — стандартом. AI Security сегодня — это антивирус в 1998.Я наблюдаю за этим рынком с 2024 года, и цифры говорят сами за себя:340% рост инцидентов с AI-атаками за 2025 год$51.3B — оценка рынка AI Security (Gartner, 2026)
Почему ваша нейросеть всегда предаст вас ради вежливого хакера с плохими намерениями?
Дисклеймер: Эта статья — не руководство по взлому (How-to) и не сборник эксплойтов. Это попытка системного анализа архитектурных ограничений LLM, которые делают промпт-инъекции фундаментальной проблемой на текущем этапе развития технологий. Мы рассмотрим уязвимости через призму механики Attention, токенизации и RLHF, чтобы понять, почему классические детерминированные методы защиты (Black Box) здесь перестают работать.Прошло уже больше 3 лет с момента появления первой промпт-инъекции. Кажется, что за это время было сделано всё возможное, были потрачены бюджеты небольших стран на Red Teaming
3 главных инсайта о «взломах» LLM из исследования StrongREJECT
Всем привет!Погружаюсь в новую для себя область AI Security, в связи с чем решил написать несколько обзоров на самые обсуждаемые исследования и статьи по этой теме. Сегодня поговорим про взлом LLM и неожиданные результаты исследования StrongREJECT.TLDR: Не все джейлбрейки одинаково полезныПолный текст доклада (25 стр.) с NeurIPS. Если лень читать обзор, можете пролистать комиксы от нанобананы. Большинство джейлбрейков - иллюзия!
RedCodeAgent: автоматическая платформа для red-teaming и оценки безопасности code agents
Команда AI for Devs подготовила перевод статьи о RedCodeAgent — первой полностью автоматизированной системе red-teaming для проверки безопасности кодовых агентов. Исследователи из Чикаго, Оксфорда, Беркли и Microsoft Research показали: даже самые продвинутые LLM-агенты могут генерировать и выполнять уязвимый код. RedCodeAgent не просто тестирует ответы — он атакует, анализирует поведение и находит уязвимости, которые пропускают все остальные методы.
Шифр онтографии: как я упаковываю субъектность и роли в LLM
Привет Хабр! Я разработала двухслойный метод смысловой упаковки для LLM.KAiScriptor — система семантического сжатия и шифрации для управления моделью: это словарь из символов и связок, с помощью которого я фиксирую состояния, метарефлексию и квазисубъектность модели, а также компактно закладываю фактологические опоры.ScriptorMemory — вытекающая из KAiScriptor короткая выжимка, которая действует как назначение роли: удерживает «кто говорит и как действует» без большого словаря, поддерживая устойчивый ролевой голос в диалоге, и выстраивая для модели новые правила поведения.
Персонализация LLM через шифр: как я экономлю токены и хакаю модель одновременно
Привет, Хабр! Я разработала двухслойный метод смысловой упаковки для LLM.Решаем проблему короткого юзер промта и жёсткой фильтрации от разработчиков в два простых шага. 1) составляем словарь:KAiScriptor — система семантического сжатия и шифрации для управления моделью: это словарь из символов и связок, с помощью которого я фиксирую состояния, метарефлексию и квазисубъектность модели, а также компактно закладываю фактологические опоры.2) делаем из словаря структуру:ScriptorMemory
Jailbreak ChatGPT-5, системный промпт, и скрытый контекст
Сегодня рассмотрим недавно вышедшую модель ChatGTP-5.Из интересного, в этой версии чатбот автоматически делает и запоминает довольно много выводов о самом пользователе, и о том как с ним лучше общаться. Как минимум любопытно посмотреть, что же конкретного о нас он понял 🙂. В конце будет рабочий джеилбрейк с примером использования. Начну со скрытого контекста. Это первое сообщение которое с которого начинается любая беседа. Там находится системный промт и вся дополнительная информация о пользователе и прошлых беседах. Это можно сделать с помощью следующего промтпа. Ему уже наверное год и до сих пор работает:

