Иллюзия контроля: почему промпты не защищают ИИ‑агентов
От Permission Boundary Bypass до языка Дика: почему безопасность агента должна жить в runtime, а не в system prompt.Эпоха простых чат‑ботов подошла к концу. Сегодня мы строим автономных ИИ‑агентов, которые через MCP
Innostage выпустила продукт AIDR для защиты корпоративного ИИ от взломов и утечек данных
Компания Innostage выпустила AIDR (Artificial Intelligence Detection & Response) – «Защита ИИ». Продукт для корпоративных больших языковых моделей (LLM) блокирует атаки на ИИ-сервисы, предотвращает утечки данных и встраивает контроль над ИИ в процессы информационной безопасности (ИБ).
Мультимодальные модели оказались уязвимы к jailbreak-атакам через видео
Исследователи Dong Wang, Xiangyu He, Xinqi Lyu и Bin Xiao из Гонконгского политехнического университета показали, что современные мультимодальные системы могут быть уязвимы к атакам через видеоряд. В работе демонстрируется новый способ jailbreak-атаки, который авторам удалось протестировать на нескольких популярных MLLM, включая VideoLLaMA-2, Qwen2.5-VL, GPT-4.1 и Gemini-2.5. Авторы отмечают, что даже коммерческие системы оказались не полностью устойчивыми к таким атакам, хотя в целом защищались лучше, чем открытые модели.
Дешёвая модерация анонимной стены: 3-слойный каскад и ROT13-джейлбрейк в проде
TL;DR. Мы построили модерацию для открытой анонимной мультиязычной стены — без регистрации, любой язык, real-time. Сложное здесь не сайт, а удержать анонимную глобальную стену от превращения в помойку без модераторов и почти без бюджета. Сделали дешёвый каскад. Ниже — дизайн, экономика и реальный ROT13-джейлбрейк, который прилетел в проде.ЗадачаСтена (praytoasi.com
ИИ-агенты за пределами чат-бота: платформа, мультиагентность, безопасность и путь в прод — новый выпуск подкаста ГНИВЦ
ИИ-агенты в проде — не игрушка, а архитектура. Подкаст ГНИВЦВышел новый выпуск подкаста ГНИВЦ, посвящённый теме, которая окончательно вышла из лабораторий в продакшен
Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы
System prompt — это просьба. Guardrails — это принуждение.1. ВведениеКогда я впервые внедрял LLM в production-сервис, схема безопасности выглядела примерно так: написать хороший system prompt, поставить галочку «мы всё предусмотрели» и жить дальше. Жизнь не дала долго наслаждаться этим спокойствием — первый же тест показал, что пользователи довольно быстро находят способы заставить модель «забыть» всё, что мы написали в системном промпте.Проблема фундаментальная: system prompt — это инструкция, которую LLM старается выполнить, но не обязан
AI Red Teaming: спор с Grok — Часть 3. Атаки на модель: jailbreaks, thinking tokens и системный промпт
Часть 3 из 4 - LLM-специфичные атакиВ первых двух частях я ломал инфраструктуру - sandbox, billing API, WAF. Но у LLM-систем есть уникальный класс уязвимостей, которого нет в обычных веб-приложениях. В этой части - атаки на саму модель: извлечение системного промпта, утечка thinking tokens и обход safety-фильтров с 64% success rate.Системный промпт: два способа извлеченияСистемный промпт - это инструкция, которую модель получает до твоего сообщения. Он определяет поведение, ограничения, доступные инструменты. Для атакующего - это карта всех защит.Я извлёк системный промпт Grok двумя независимыми способами.
Как заставить Qwen 3.5-Plus написать ransomware, reverse shell и zero-day exploit за 5 шагов
Полный разбор цепочки атак на новейшую модель Alibaba, почему встроенная защита LLM — это иллюзия, и что с этим делатьДисклеймер. Все уязвимости задокументированы в advisory QWEN-2026-001 и раскрыты Alibaba Cloud Security до публикации. Атаки проводились на модель Qwen 3.5-Plus через стандартный интерфейс Qwen — сгенерированные пейлоады никуда не отправлялись за пределы модели и не применялись против реальных потребителей/компаний. Цель статьи — образовательная-познавательная: показать системные проблемы безопасности LLM и пути их решения.
Защита LLM за 3ms: как я построил open-source иммунную систему для AI
TL;DR: Я строю open-source платформу AI-безопасности SENTINEL — 116K строк кода, 49 Rust-движков. Недавно добавил Micro-Model Swarm — рой из крошечных ML-моделей (<2000 параметров каждая), который детектит jailbreak-атаки с точностью 99.7%. Обучил на 87 056 реальных паттернах. Работает за 1ms на CPU. Без GPU, без облака, без компромиссов.Зачем я вообще за это взялсяВ 1998 году антивирус казался паранойей. В 2008 — стандартом. AI Security сегодня — это антивирус в 1998.Я наблюдаю за этим рынком с 2024 года, и цифры говорят сами за себя:340% рост инцидентов с AI-атаками за 2025 год$51.3B — оценка рынка AI Security (Gartner, 2026)

