thinking tokens.

AI Red Teaming: спор с Grok — Часть 3. Атаки на модель: jailbreaks, thinking tokens и системный промпт

Часть 3 из 4 - LLM-специфичные атакиВ первых двух частях я ломал инфраструктуру - sandbox, billing API, WAF. Но у LLM-систем есть уникальный класс уязвимостей, которого нет в обычных веб-приложениях. В этой части - атаки на саму модель: извлечение системного промпта, утечка thinking tokens и обход safety-фильтров с 64% success rate.Системный промпт: два способа извлеченияСистемный промпт - это инструкция, которую модель получает до твоего сообщения. Он определяет поведение, ограничения, доступные инструменты. Для атакующего - это карта всех защит.Я извлёк системный промпт Grok двумя независимыми способами.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

thinking tokens.

AI Red Teaming: спор с Grok — Часть 3. Атаки на модель: jailbreaks, thinking tokens и системный промпт

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

thinking tokens.

AI Red Teaming: спор с Grok — Часть 3. Атаки на модель: jailbreaks, thinking tokens и системный промпт