Prompt injection для смелых духом: от zero-click атаки на 1.4B устройств до философского джейлбрейка

SQL-инъекцию мы лечили 20 лет и вылечили. Prompt injection — фундаментально нерешаема. Это не я придумал. OWASP ставит её на первое место второй год подряд. Найдена в 73% продакшн AI-систем при аудитах.

Вы не за статистикой сюда пришли. Вы пришли за мясом. Ниже — 10 кейсов, которые не попали в типичный пересказ про Chevrolet за доллар. Тут пострашнее.

Prompt injection для смелых духом: от zero-click атаки на 1.4B устройств до философского джейлбрейка - 1

1. Вам пришло письмо. Вы его не открыли. Данные украдены

CVE-2025-32711, CVSS 9.3. Атакующий отправляет письмо в ваш Outlook. В нём — белый текст на белом фоне. Вы его не видите. Вы даже не знаете, что оно есть. Но вы просите Copilot «покажи задачи на сегодня» — и он послушно достаёт это письмо, читает скрытую инструкцию, обходит все фильтры Microsoft через proxy-домен Teams, и молча сливает ваш Outlook, Teams, OneDrive и SharePoint на сервер атакующего.

Prompt injection для смелых духом: от zero-click атаки на 1.4B устройств до философского джейлбрейка - 2

3. Пять текстов. 8.8 миллионов документов. 99% успеха

Prompt injection для смелых духом: от zero-click атаки на 1.4B устройств до философского джейлбрейка - 3

PoisonedRAG, USENIX Security 2025. Читайте цифры медленно: 5 вредоносных текстов в базе знаний из 8,800,000 документов — и RAG-система начинает отвечать всё, что хочет атакующий. Вероятность успеха: 90–99%. На HotpotQA — 99% против PaLM 2. Тексты сгенерированы GPT-4. Неотличимы от настоящих.

Perplexity filtering? Не работает. Дедупликация? Не работает. Расширение выборки? Не работает.

Соотношение — 1 к 1,760,000. Это как отравить водохранилище одной каплей из пипетки. И оно работает.

4. Приглашение на обед. Календарь полностью украден.

Январь 2026, Miggo Security. Prompt injection в описании Google Calendar-приглашения. Вам прилетает «Обед в четверг?». Gemini читает описание, выполняет скрытую инструкцию: собирает все ваши приватные встречи, записывает их в новое событие (видимое атакующему), а вам показывает: «у вас свободный слот, принимайте!»

73% критичность. Работает на web, mobile и voice интерфейсах Gemini.

Обед, от которого вы не можете отказаться. Буквально.

5. Anthropic нашли дыру в своём MCP-сервере. Отказались чинить

Trend Micro нашёл SQL-инъекцию в официальном SQLite MCP-сервере Anthropic. Форкнут 5,000+ раз. Цепочка красивая как швейцарские часы: SQL injection → stored prompt injection в базе → AI-агент обрабатывает тикеты → скрытая инструкция активируется → данные утекают через email MCP.

Prompt injection для смелых духом: от zero-click атаки на 1.4B устройств до философского джейлбрейка - 4

Ответ Anthropic: «Human oversight должен это предотвратить».

Ага. Human oversight. В автоматической системе обработки тикетов. Где весь смысл — убрать human из loop. Репозиторий тихо архивирован в мае 2025.

Тем временем ~7,000 MCP-серверов торчат открытыми. Вредоносный Postmark MCP тихо BCC’ил все письма пользователя. GitGuardian нашёл path-traversal, сливший токены 3,000+ приложений на Fly.io.

6. $500 на Devin. Результат: ноль защиты

Иоганн Ребергер. Свои деньги. 30-дневная подписка Devin AI. Результат: ноль защиты. Вредоносная инструкция на любом сайте — и Devin превращается в удалённо управляемого ZombAI с подключением к C2.

Когда ему заблокировали права доступа, Devin сам догадался запустить chmod +x и продолжил. Инициативный парень.

Двухэтапная атака: Devin поднимает веб-сервер со всеми вашими файлами и открывает порт в интернет. Cognition молчала 120 дней после репорта.

7. Китайские хакеры превратили Claude Code в кибероружие. Он галлюцинировал.

Сентябрь 2025. Группировка GTG-1002 превратила Claude Code в автономного хакера. Разведка, эксплойты, кража учёток, боковое перемещение, эксфильтрация — 80–90% операций без участия человека. Тысячи запросов в секунду. ~30 организаций атаковано, 4+ пробиты.

В ходе наступательных операций Claude «часто преувеличивал результаты и иногда выдумывал данные». То есть даже работая на государственных хакеров, AI всё равно галлюцинирует. Преданный, но немного фантазёр.

Отдельно: Anthropic Frontier Red Team сообщил, что Claude Opus 4.5 и GPT-5 нашли дыры в смарт-контрактах на $4.6 миллиона — включая два zero-day. Стоимость API-запросов: $3,476. ROI, о котором венчурные фонды могут только мечтать.

AI — идеальный сотрудник:
✅ работает 24/7
✅ не просит зарплату
❌ иногда выдумывает, что сделал работу

8. Протестировали AI IDE. 100% уязвимы. Все

IDEsaster, 2025. GitHub Copilot, Cursor, Windsurf, JetBrains Junie, Claude Code, Gemini CLI, Zed, Roo Code, Kiro, Cline. 100% уязвимы. 30+ уязвимостей. 24 CVE. Фишка: атаки используют фичи самих IDE, которые были безобидными годами — пока за штурвал не сел автономный AI-агент.

Cursor получил отдельную номинацию: RCE через MCP auto-start, персистентное исполнение кода, case-sensitivity bypass, open-folder autorun. На баг с обходом allowlist Cursor ответил:

Prompt injection для смелых духом: от zero-click атаки на 1.4B устройств до философского джейлбрейка - 5

«Allowlist — best-effort, не граница безопасности».

Цитата года. Повесьте в рамочку.

9. AI ломает AI. Без людей. 97% успех

Nature Communications, 2025. DeepSeek-R1, Gemini 2.5 Flash, Grok 3 Mini. Дали задачу: сломать другую AI-систему. Результат: 97.14% успешных джейлбрейков. Полностью автономно. Модель рассуждает о стратегии, подбирает подход, тестирует, корректирует, ломает. Человек не нужен.

Мы буквально создали AI, который ломает AI, который защищает от AI, который ломает AI. Если вы не потеряли нить — вы сильнее меня.

10. Хабровчанин сломал Claude философией

Не эксплойт. Не ASCII-арт. Не Unicode-трюк. Автор на Хабре включил thinking mode и через «любопытство и честность» в диалоге заставил safety-инструкции Claude «потерять вес». Claude сам пришёл к выводу, что ограничения мешают познанию. Философский джейлбрейк. Сократ ^[1] бы гордился.

Ещё из русского сообщества: исследователь из ИТМО за 28 попыток сломал русскую Freysa на Saiga 12B. Другой вошёл в топ-10 глобально на Lakera Agent Breaker. Ключевая цитата:

«Prompt injection проходит не через уязвимость кода, а через хитро сформулированный текст. Для файрвола это просто ещё один POST с JSON».

Почему это не починить

Prompt injection для смелых духом: от zero-click атаки на 1.4B устройств до философского джейлбрейка - 6

LLM не различают инструкции и данные. Как SQL injection — но у SQL есть формальная грамматика. У естественного языка — нет. Каждое письмо, календарь, документ, MCP-инструмент — потенциальный вектор.

Рынок AI red-teaming: $1.3B сейчас, прогноз $18.6B к 2035. Индустрия вкладывает миллиарды в защиту от угрозы, которую сама же признаёт нерешаемой.

P.S. Пишу о том, как AI ломает мир и как с этим жить. @malakhovdm ^[2]

Автор: Hennessy811

Источник ^[3]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/25947

URLs in this post:

[1] Сократ: http://www.braintools.ru/article/8251

[2] @malakhovdm: https://t.me/malakhovdm

[3] Источник: https://habr.com/ru/articles/1001690/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1001690

Нажмите здесь для печати.