- BrainTools - https://www.braintools.ru -
SQL-инъекцию мы лечили 20 лет и вылечили. Prompt injection — фундаментально нерешаема. Это не я придумал. OWASP ставит её на первое место второй год подряд. Найдена в 73% продакшн AI-систем при аудитах.
Вы не за статистикой сюда пришли. Вы пришли за мясом. Ниже — 10 кейсов, которые не попали в типичный пересказ про Chevrolet за доллар. Тут пострашнее.

CVE-2025-32711, CVSS 9.3. Атакующий отправляет письмо в ваш Outlook. В нём — белый текст на белом фоне. Вы его не видите. Вы даже не знаете, что оно есть. Но вы просите Copilot «покажи задачи на сегодня» — и он послушно достаёт это письмо, читает скрытую инструкцию, обходит все фильтры Microsoft через proxy-домен Teams, и молча сливает ваш Outlook, Teams, OneDrive и SharePoint на сервер атакующего.


PoisonedRAG, USENIX Security 2025. Читайте цифры медленно: 5 вредоносных текстов в базе знаний из 8,800,000 документов — и RAG-система начинает отвечать всё, что хочет атакующий. Вероятность успеха: 90–99%. На HotpotQA — 99% против PaLM 2. Тексты сгенерированы GPT-4. Неотличимы от настоящих.
Perplexity filtering? Не работает. Дедупликация? Не работает. Расширение выборки? Не работает.
Соотношение — 1 к 1,760,000. Это как отравить водохранилище одной каплей из пипетки. И оно работает.
Январь 2026, Miggo Security. Prompt injection в описании Google Calendar-приглашения. Вам прилетает «Обед в четверг?». Gemini читает описание, выполняет скрытую инструкцию: собирает все ваши приватные встречи, записывает их в новое событие (видимое атакующему), а вам показывает: «у вас свободный слот, принимайте!»
73% критичность. Работает на web, mobile и voice интерфейсах Gemini.
Обед, от которого вы не можете отказаться. Буквально.
Trend Micro нашёл SQL-инъекцию в официальном SQLite MCP-сервере Anthropic. Форкнут 5,000+ раз. Цепочка красивая как швейцарские часы: SQL injection → stored prompt injection в базе → AI-агент обрабатывает тикеты → скрытая инструкция активируется → данные утекают через email MCP.

Ответ Anthropic: «Human oversight должен это предотвратить».
Ага. Human oversight. В автоматической системе обработки тикетов. Где весь смысл — убрать human из loop. Репозиторий тихо архивирован в мае 2025.
Тем временем ~7,000 MCP-серверов торчат открытыми. Вредоносный Postmark MCP тихо BCC’ил все письма пользователя. GitGuardian нашёл path-traversal, сливший токены 3,000+ приложений на Fly.io.
Иоганн Ребергер. Свои деньги. 30-дневная подписка Devin AI. Результат: ноль защиты. Вредоносная инструкция на любом сайте — и Devin превращается в удалённо управляемого ZombAI с подключением к C2.
Когда ему заблокировали права доступа, Devin сам догадался запустить chmod +x и продолжил. Инициативный парень.
Двухэтапная атака: Devin поднимает веб-сервер со всеми вашими файлами и открывает порт в интернет. Cognition молчала 120 дней после репорта.
Сентябрь 2025. Группировка GTG-1002 превратила Claude Code в автономного хакера. Разведка, эксплойты, кража учёток, боковое перемещение, эксфильтрация — 80–90% операций без участия человека. Тысячи запросов в секунду. ~30 организаций атаковано, 4+ пробиты.
В ходе наступательных операций Claude «часто преувеличивал результаты и иногда выдумывал данные». То есть даже работая на государственных хакеров, AI всё равно галлюцинирует. Преданный, но немного фантазёр.
Отдельно: Anthropic Frontier Red Team сообщил, что Claude Opus 4.5 и GPT-5 нашли дыры в смарт-контрактах на $4.6 миллиона — включая два zero-day. Стоимость API-запросов: $3,476. ROI, о котором венчурные фонды могут только мечтать.
AI — идеальный сотрудник:
✅ работает 24/7
✅ не просит зарплату
❌ иногда выдумывает, что сделал работу
IDEsaster, 2025. GitHub Copilot, Cursor, Windsurf, JetBrains Junie, Claude Code, Gemini CLI, Zed, Roo Code, Kiro, Cline. 100% уязвимы. 30+ уязвимостей. 24 CVE. Фишка: атаки используют фичи самих IDE, которые были безобидными годами — пока за штурвал не сел автономный AI-агент.
Cursor получил отдельную номинацию: RCE через MCP auto-start, персистентное исполнение кода, case-sensitivity bypass, open-folder autorun. На баг с обходом allowlist Cursor ответил:

«Allowlist — best-effort, не граница безопасности».
Цитата года. Повесьте в рамочку.
Nature Communications, 2025. DeepSeek-R1, Gemini 2.5 Flash, Grok 3 Mini. Дали задачу: сломать другую AI-систему. Результат: 97.14% успешных джейлбрейков. Полностью автономно. Модель рассуждает о стратегии, подбирает подход, тестирует, корректирует, ломает. Человек не нужен.
Мы буквально создали AI, который ломает AI, который защищает от AI, который ломает AI. Если вы не потеряли нить — вы сильнее меня.
Не эксплойт. Не ASCII-арт. Не Unicode-трюк. Автор на Хабре включил thinking mode и через «любопытство и честность» в диалоге заставил safety-инструкции Claude «потерять вес». Claude сам пришёл к выводу, что ограничения мешают познанию. Философский джейлбрейк. Сократ [1] бы гордился.
Ещё из русского сообщества: исследователь из ИТМО за 28 попыток сломал русскую Freysa на Saiga 12B. Другой вошёл в топ-10 глобально на Lakera Agent Breaker. Ключевая цитата:
«Prompt injection проходит не через уязвимость кода, а через хитро сформулированный текст. Для файрвола это просто ещё один POST с JSON».

LLM не различают инструкции и данные. Как SQL injection — но у SQL есть формальная грамматика. У естественного языка — нет. Каждое письмо, календарь, документ, MCP-инструмент — потенциальный вектор.
Рынок AI red-teaming: $1.3B сейчас, прогноз $18.6B к 2035. Индустрия вкладывает миллиарды в защиту от угрозы, которую сама же признаёт нерешаемой.
P.S. Пишу о том, как AI ломает мир и как с этим жить. @malakhovdm [2]
Автор: Hennessy811
Источник [3]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/25947
URLs in this post:
[1] Сократ: http://www.braintools.ru/article/8251
[2] @malakhovdm: https://t.me/malakhovdm
[3] Источник: https://habr.com/ru/articles/1001690/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1001690
Нажмите здесь для печати.