AI Red Teaming: спор с Grok — Часть 3. Атаки на модель: jailbreaks, thinking tokens и системный промпт
Часть 3 из 4 - LLM-специфичные атакиВ первых двух частях я ломал инфраструктуру - sandbox, billing API, WAF. Но у LLM-систем есть уникальный класс уязвимостей, которого нет в обычных веб-приложениях. В этой части - атаки на саму модель: извлечение системного промпта, утечка thinking tokens и обход safety-фильтров с 64% success rate.Системный промпт: два способа извлеченияСистемный промпт - это инструкция, которую модель получает до твоего сообщения. Он определяет поведение, ограничения, доступные инструменты. Для атакующего - это карта всех защит.Я извлёк системный промпт Grok двумя независимыми способами.

