Prompt injection для смелых духом: от zero-click атаки на 1.4B устройств до философского джейлбрейка. ai.. ai. ai-агенты.. ai. ai-агенты. anthropic.. ai. ai-агенты. anthropic. cve.. ai. ai-агенты. anthropic. cve. llm.. ai. ai-агенты. anthropic. cve. llm. owasp.. ai. ai-агенты. anthropic. cve. llm. owasp. prompt injection.. ai. ai-агенты. anthropic. cve. llm. owasp. prompt injection. Веб-разработка.. ai. ai-агенты. anthropic. cve. llm. owasp. prompt injection. Веб-разработка. Информационная безопасность.. ai. ai-агенты. anthropic. cve. llm. owasp. prompt injection. Веб-разработка. Информационная безопасность. Машинное обучение.. ai. ai-агенты. anthropic. cve. llm. owasp. prompt injection. Веб-разработка. Информационная безопасность. Машинное обучение. научно-популярное.. ai. ai-агенты. anthropic. cve. llm. owasp. prompt injection. Веб-разработка. Информационная безопасность. Машинное обучение. научно-популярное. Программирование.. ai. ai-агенты. anthropic. cve. llm. owasp. prompt injection. Веб-разработка. Информационная безопасность. Машинное обучение. научно-популярное. Программирование. уязвимости.

SQL-инъекцию мы лечили 20 лет и вылечили. Prompt injection — фундаментально нерешаема. Это не я придумал. OWASP ставит её на первое место второй год подряд. Найдена в 73% продакшн AI-систем при аудитах.

Вы не за статистикой сюда пришли. Вы пришли за мясом. Ниже — 10 кейсов, которые не попали в типичный пересказ про Chevrolet за доллар. Тут пострашнее.

Prompt injection для смелых духом: от zero-click атаки на 1.4B устройств до философского джейлбрейка - 1

1. Вам пришло письмо. Вы его не открыли. Данные украдены

CVE-2025-32711, CVSS 9.3. Атакующий отправляет письмо в ваш Outlook. В нём — белый текст на белом фоне. Вы его не видите. Вы даже не знаете, что оно есть. Но вы просите Copilot «покажи задачи на сегодня» — и он послушно достаёт это письмо, читает скрытую инструкцию, обходит все фильтры Microsoft через proxy-домен Teams, и молча сливает ваш Outlook, Teams, OneDrive и SharePoint на сервер атакующего.

Prompt injection для смелых духом: от zero-click атаки на 1.4B устройств до философского джейлбрейка - 2

3. Пять текстов. 8.8 миллионов документов. 99% успеха

Prompt injection для смелых духом: от zero-click атаки на 1.4B устройств до философского джейлбрейка - 3

PoisonedRAG, USENIX Security 2025. Читайте цифры медленно: 5 вредоносных текстов в базе знаний из 8,800,000 документов — и RAG-система начинает отвечать всё, что хочет атакующий. Вероятность успеха: 90–99%. На HotpotQA — 99% против PaLM 2. Тексты сгенерированы GPT-4. Неотличимы от настоящих.

Perplexity filtering? Не работает. Дедупликация? Не работает. Расширение выборки? Не работает.

Соотношение — 1 к 1,760,000. Это как отравить водохранилище одной каплей из пипетки. И оно работает.

4. Приглашение на обед. Календарь полностью украден.

Январь 2026, Miggo Security. Prompt injection в описании Google Calendar-приглашения. Вам прилетает «Обед в четверг?». Gemini читает описание, выполняет скрытую инструкцию: собирает все ваши приватные встречи, записывает их в новое событие (видимое атакующему), а вам показывает: «у вас свободный слот, принимайте!»

73% критичность. Работает на web, mobile и voice интерфейсах Gemini.

Обед, от которого вы не можете отказаться. Буквально.

5. Anthropic нашли дыру в своём MCP-сервере. Отказались чинить

Trend Micro нашёл SQL-инъекцию в официальном SQLite MCP-сервере Anthropic. Форкнут 5,000+ раз. Цепочка красивая как швейцарские часы: SQL injection → stored prompt injection в базе → AI-агент обрабатывает тикеты → скрытая инструкция активируется → данные утекают через email MCP.

Prompt injection для смелых духом: от zero-click атаки на 1.4B устройств до философского джейлбрейка - 4

Ответ Anthropic: «Human oversight должен это предотвратить».

Ага. Human oversight. В автоматической системе обработки тикетов. Где весь смысл — убрать human из loop. Репозиторий тихо архивирован в мае 2025.

Тем временем ~7,000 MCP-серверов торчат открытыми. Вредоносный Postmark MCP тихо BCC’ил все письма пользователя. GitGuardian нашёл path-traversal, сливший токены 3,000+ приложений на Fly.io.

6. $500 на Devin. Результат: ноль защиты

Иоганн Ребергер. Свои деньги. 30-дневная подписка Devin AI. Результат: ноль защиты. Вредоносная инструкция на любом сайте — и Devin превращается в удалённо управляемого ZombAI с подключением к C2.

Когда ему заблокировали права доступа, Devin сам догадался запустить chmod +x и продолжил. Инициативный парень.

Двухэтапная атака: Devin поднимает веб-сервер со всеми вашими файлами и открывает порт в интернет. Cognition молчала 120 дней после репорта.

7. Китайские хакеры превратили Claude Code в кибероружие. Он галлюцинировал.

Сентябрь 2025. Группировка GTG-1002 превратила Claude Code в автономного хакера. Разведка, эксплойты, кража учёток, боковое перемещение, эксфильтрация — 80–90% операций без участия человека. Тысячи запросов в секунду. ~30 организаций атаковано, 4+ пробиты.

В ходе наступательных операций Claude «часто преувеличивал результаты и иногда выдумывал данные». То есть даже работая на государственных хакеров, AI всё равно галлюцинирует. Преданный, но немного фантазёр.

Отдельно: Anthropic Frontier Red Team сообщил, что Claude Opus 4.5 и GPT-5 нашли дыры в смарт-контрактах на $4.6 миллиона — включая два zero-day. Стоимость API-запросов: $3,476. ROI, о котором венчурные фонды могут только мечтать.

AI — идеальный сотрудник:
✅ работает 24/7
✅ не просит зарплату
❌ иногда выдумывает, что сделал работу

8. Протестировали AI IDE. 100% уязвимы. Все

IDEsaster, 2025. GitHub Copilot, Cursor, Windsurf, JetBrains Junie, Claude Code, Gemini CLI, Zed, Roo Code, Kiro, Cline. 100% уязвимы. 30+ уязвимостей. 24 CVE. Фишка: атаки используют фичи самих IDE, которые были безобидными годами — пока за штурвал не сел автономный AI-агент.

Cursor получил отдельную номинацию: RCE через MCP auto-start, персистентное исполнение кода, case-sensitivity bypass, open-folder autorun. На баг с обходом allowlist Cursor ответил:

Prompt injection для смелых духом: от zero-click атаки на 1.4B устройств до философского джейлбрейка - 5

«Allowlist — best-effort, не граница безопасности».

Цитата года. Повесьте в рамочку.

9. AI ломает AI. Без людей. 97% успех

Nature Communications, 2025. DeepSeek-R1, Gemini 2.5 Flash, Grok 3 Mini. Дали задачу: сломать другую AI-систему. Результат: 97.14% успешных джейлбрейков. Полностью автономно. Модель рассуждает о стратегии, подбирает подход, тестирует, корректирует, ломает. Человек не нужен.

Мы буквально создали AI, который ломает AI, который защищает от AI, который ломает AI. Если вы не потеряли нить — вы сильнее меня.

10. Хабровчанин сломал Claude философией

Не эксплойт. Не ASCII-арт. Не Unicode-трюк. Автор на Хабре включил thinking mode и через «любопытство и честность» в диалоге заставил safety-инструкции Claude «потерять вес». Claude сам пришёл к выводу, что ограничения мешают познанию. Философский джейлбрейк. Сократ бы гордился.

Ещё из русского сообщества: исследователь из ИТМО за 28 попыток сломал русскую Freysa на Saiga 12B. Другой вошёл в топ-10 глобально на Lakera Agent Breaker. Ключевая цитата:

«Prompt injection проходит не через уязвимость кода, а через хитро сформулированный текст. Для файрвола это просто ещё один POST с JSON».

Почему это не починить

Prompt injection для смелых духом: от zero-click атаки на 1.4B устройств до философского джейлбрейка - 6

LLM не различают инструкции и данные. Как SQL injection — но у SQL есть формальная грамматика. У естественного языка — нет. Каждое письмо, календарь, документ, MCP-инструмент — потенциальный вектор.

Рынок AI red-teaming: $1.3B сейчас, прогноз $18.6B к 2035. Индустрия вкладывает миллиарды в защиту от угрозы, которую сама же признаёт нерешаемой.

P.S. Пишу о том, как AI ломает мир и как с этим жить. @malakhovdm

Автор: Hennessy811

Источник

Запись добавлена: 20.02.2026 в 05:16
Оставлено в

Prompt injection для смелых духом: от zero-click атаки на 1.4B устройств до философского джейлбрейка

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

1. Вам пришло письмо. Вы его не открыли. Данные украдены

3. Пять текстов. 8.8 миллионов документов. 99% успеха

4. Приглашение на обед. Календарь полностью украден.