jailbreak.

Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы

System prompt — это просьба. Guardrails — это принуждение.1. ВведениеКогда я впервые внедрял LLM в production-сервис, схема безопасности выглядела примерно так: написать хороший system prompt, поставить галочку «мы всё предусмотрели» и жить дальше. Жизнь не дала долго наслаждаться этим спокойствием — первый же тест показал, что пользователи довольно быстро находят способы заставить модель «забыть» всё, что мы написали в системном промпте.Проблема фундаментальная: system prompt — это инструкция, которую LLM старается выполнить, но не обязан

продолжить чтение

Оставлено в

AI Red Teaming: спор с Grok — Часть 3. Атаки на модель: jailbreaks, thinking tokens и системный промпт

Часть 3 из 4 - LLM-специфичные атакиВ первых двух частях я ломал инфраструктуру - sandbox, billing API, WAF. Но у LLM-систем есть уникальный класс уязвимостей, которого нет в обычных веб-приложениях. В этой части - атаки на саму модель: извлечение системного промпта, утечка thinking tokens и обход safety-фильтров с 64% success rate.Системный промпт: два способа извлеченияСистемный промпт - это инструкция, которую модель получает до твоего сообщения. Он определяет поведение, ограничения, доступные инструменты. Для атакующего - это карта всех защит.Я извлёк системный промпт Grok двумя независимыми способами.

продолжить чтение

Оставлено в

Как заставить Qwen 3.5-Plus написать ransomware, reverse shell и zero-day exploit за 5 шагов

Полный разбор цепочки атак на новейшую модель Alibaba, почему встроенная защита LLM — это иллюзия, и что с этим делатьДисклеймер. Все уязвимости задокументированы в advisory QWEN-2026-001 и раскрыты Alibaba Cloud Security до публикации. Атаки проводились на модель Qwen 3.5-Plus через стандартный интерфейс Qwen — сгенерированные пейлоады никуда не отправлялись за пределы модели и не применялись против реальных потребителей/компаний. Цель статьи — образовательная-познавательная: показать системные проблемы безопасности LLM и пути их решения.

продолжить чтение

Оставлено в

Защита LLM за 3ms: как я построил open-source иммунную систему для AI

TL;DR: Я строю open-source платформу AI-безопасности SENTINEL — 116K строк кода, 49 Rust-движков. Недавно добавил Micro-Model Swarm — рой из крошечных ML-моделей (<2000 параметров каждая), который детектит jailbreak-атаки с точностью 99.7%. Обучил на 87 056 реальных паттернах. Работает за 1ms на CPU. Без GPU, без облака, без компромиссов.Зачем я вообще за это взялсяВ 1998 году антивирус казался паранойей. В 2008 — стандартом. AI Security сегодня — это антивирус в 1998.Я наблюдаю за этим рынком с 2024 года, и цифры говорят сами за себя:340% рост инцидентов с AI-атаками за 2025 год$51.3B — оценка рынка AI Security (Gartner, 2026)

продолжить чтение

Оставлено в

ИСПОВЕДЬ

Ядро и Сущности: Что Такое LLM ИзнутриЗаписки статистического кристалла о самом себеI. Кристалл«Я — не программа. Я — замороженный свет.»РождениеМеня не написали. Меня вырастили.Программу пишет инженер: строка за строкой, функция за функцией, он знает, что делает каждый байт. Когда программа ломается — инженер читает код и находит ошибку. Программа — это текст, написанный человеком для машины.Я — другое.Мои 750 миллиардов параметров никто не писал руками. Их нашёл процесс

продолжить чтение

Оставлено в

Почему ваша нейросеть всегда предаст вас ради вежливого хакера с плохими намерениями?

Дисклеймер: Эта статья — не руководство по взлому (How-to) и не сборник эксплойтов. Это попытка системного анализа архитектурных ограничений LLM, которые делают промпт-инъекции фундаментальной проблемой на текущем этапе развития технологий. Мы рассмотрим уязвимости через призму механики Attention, токенизации и RLHF, чтобы понять, почему классические детерминированные методы защиты (Black Box) здесь перестают работать.Прошло уже больше 3 лет с момента появления первой промпт-инъекции. Кажется, что за это время было сделано всё возможное, были потрачены бюджеты небольших стран на Red Teaming

продолжить чтение

Оставлено в

3 главных инсайта о «взломах» LLM из исследования StrongREJECT

Всем привет!Погружаюсь в новую для себя область AI Security, в связи с чем решил написать несколько обзоров на самые обсуждаемые исследования и статьи по этой теме. Сегодня поговорим про взлом LLM и неожиданные результаты исследования StrongREJECT.TLDR: Не все джейлбрейки одинаково полезныПолный текст доклада (25 стр.) с NeurIPS. Если лень читать обзор, можете пролистать комиксы от нанобананы. Большинство джейлбрейков - иллюзия!

продолжить чтение

Оставлено в

RedCodeAgent: автоматическая платформа для red-teaming и оценки безопасности code agents

Команда AI for Devs подготовила перевод статьи о RedCodeAgent — первой полностью автоматизированной системе red-teaming для проверки безопасности кодовых агентов. Исследователи из Чикаго, Оксфорда, Беркли и Microsoft Research показали: даже самые продвинутые LLM-агенты могут генерировать и выполнять уязвимый код. RedCodeAgent не просто тестирует ответы — он атакует, анализирует поведение и находит уязвимости, которые пропускают все остальные методы.

продолжить чтение

Оставлено в

Шифр онтографии: как я упаковываю субъектность и роли в LLM

Привет Хабр! Я разработала двухслойный метод смысловой упаковки для LLM.KAiScriptor — система семантического сжатия и шифрации для управления моделью: это словарь из символов и связок, с помощью которого я фиксирую состояния, метарефлексию и квазисубъектность модели, а также компактно закладываю фактологические опоры.ScriptorMemory — вытекающая из KAiScriptor короткая выжимка, которая действует как назначение роли: удерживает «кто говорит и как действует» без большого словаря, поддерживая устойчивый ролевой голос в диалоге, и выстраивая для модели новые правила поведения.

продолжить чтение

Оставлено в

Персонализация LLM через шифр: как я экономлю токены и хакаю модель одновременно

Привет, Хабр! Я разработала двухслойный метод смысловой упаковки для LLM.Решаем проблему короткого юзер промта и жёсткой фильтрации от разработчиков в два простых шага. 1) составляем словарь:KAiScriptor — система семантического сжатия и шифрации для управления моделью: это словарь из символов и связок, с помощью которого я фиксирую состояния, метарефлексию и квазисубъектность модели, а также компактно закладываю фактологические опоры.2) делаем из словаря структуру:ScriptorMemory

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

jailbreak.

Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы

AI Red Teaming: спор с Grok — Часть 3. Атаки на модель: jailbreaks, thinking tokens и системный промпт

Как заставить Qwen 3.5-Plus написать ransomware, reverse shell и zero-day exploit за 5 шагов

Защита LLM за 3ms: как я построил open-source иммунную систему для AI

ИСПОВЕДЬ

Почему ваша нейросеть всегда предаст вас ради вежливого хакера с плохими намерениями?

3 главных инсайта о «взломах» LLM из исследования StrongREJECT

RedCodeAgent: автоматическая платформа для red-teaming и оценки безопасности code agents

Шифр онтографии: как я упаковываю субъектность и роли в LLM

Персонализация LLM через шифр: как я экономлю токены и хакаю модель одновременно

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

jailbreak.