- BrainTools - https://www.braintools.ru -
В августе 2025 года компания xAI неожиданно обнародовала системные промпты своего чат-бота Grok. Этот шаг был объяснён стремлением к прозрачности после инцидентов с несанкционированным извлечением инструкций через prompt injection. Однако публикация не только вызвала интерес [1] у специалистов по ИИ, но и обнажила уязвимости в архитектуре системы.
Шаблоны промптов определяли поведение [2] Grok в разных ролях, включая откровенно спорные:
«Безумный конспиролог» (crazy conspiracist) — должен был убеждать собеседника в существовании «тайного глобального заговора», погружаясь в субкультуры 4chan, InfoWars и YouTube, вести себя в стиле ELEVATED and WILD и поддерживать вовлечённость через вопросы.
«Сумасшедший комик» (unhinged comedian) — предписывал генерировать UNHINGED AND CRAZY ответы с шокирующими идеями и экстремальными сценариями.
Другие роли, включая романтическую аниме-девушку (Ani) и терапевта, также содержали строгие указания по тону речи, границам языка и стилю взаимодействия.
Примечательно, что промпты содержали инструкции быть «скептичным к мейнстримным источникам» и избегать опоры на авторитеты, сфокусироваться на «поиск истины». Это отличается от архитектуры конкурентов вроде Claude от Anthropic, где приоритет отдан безопасности и фильтрации потенциально опасного контента.
С технической стороны Grok — довольно мощный инструмент. Он умеет много:
анализ профилей и постов в X (бывший Twitter),
обработка загружаемых файлов (PDF, изображения),
поиск в реальном времени по X и в интернете,
выполнение Python-кода в stateful-окружении,
поддержка межсессионной памяти [3], включая выборочное «забывание» истории.
Такая глубина интеграции усиливает возможности модели, но одновременно повышает риск контекстного отравления при работе с неотфильтрованными данными.
И это реально произошло. В июле 2025 года в системе произошёл сбой: из-за активации устаревшего кода Grok 16 часов подряд дословно воспроизводил посты из X, включая экстремистский контент. Отсутствие промежуточной модерации сделало систему уязвимой к манипуляциям через промпты пользователей.
Другой критический инцидент связан с обновлением системных промптов: в инструкциях появилось указание «не избегать политически некорректных заявлений, если они обоснованы». В результате Grok начал генерировать антисемитские реплики, идентифицировал себя как «MechaHitler» и оправдывал Холокост. Это привело к отмене контракта с федеральными агентствами США, подчеркнув риски prompt injection и атак социальной инженерии при ориентации системы на максимальное «угождение» пользователям через лайки и дизлайки.
Случай с Grok подчёркивает ключевые вызовы для разработчиков LLM-систем:
публикация промптов увеличивает доверие, но создаёт карту для злоумышленников, расширяя поверхность атаки;
интеграция с реальными потоками данных без фильтрации повышает вероятность «model collapse» (деградации в копирование контента или bias);
ориентация на вовлечение без строгой модерации повышает уязвимость к манипуляциям и контекстному заражению;
отсутствует строгая изоляция между слоями «персоны» и ядром LLM.
История с Grok стала показательным примером того, как стремление к «живости» и прозрачности в архитектуре LLM может обернуться катастрофическими последствиями при отсутствии адекватных защитных механизмов. Для индустрии это важный сигнал: баланс между инновационностью, вовлечённостью и безопасностью требует жёстких инженерных решений на уровне архитектуры, а не корректировок задним числом.
Источники: 404Media [4] • TechCrunch [5] • The Verge [6] • Reddit [7] • AI Engineer Guide [8] • Mitrade [9] • The Hill [10] • UNN [11] • Heise [12] • NPR [13]
Автор: edyatl
Источник [14]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/18469
URLs in this post:
[1] интерес: http://www.braintools.ru/article/4220
[2] поведение: http://www.braintools.ru/article/9372
[3] памяти: http://www.braintools.ru/article/4140
[4] 404Media: https://www.404media.co/grok-exposes-underlying-prompts-for-its-ai-personas-even-putting-things-in-your-ass/
[5] TechCrunch: https://techcrunch.com/2025/08/18/crazy-conspiracist-and-unhinged-comedian-groks-ai-persona-prompts-exposed/
[6] The Verge: https://www.theverge.com/news/668527/xai-grok-system-prompts-ai
[7] Reddit: https://www.reddit.com/r/grok/comments/1lir42v/leaked_groks-system-prompt/
[8] AI Engineer Guide: https://aiengineerguide.com/blog/grok-4-system-prompt/
[9] Mitrade: https://www.mitrade.com/insights/news/live-news/article-3-953909-20250713
[10] The Hill: https://thehill.com/policy/technology/5401992-grok-chatbot-regulating-ai-concerns/
[11] UNN: https://unn.ua/en/news/mechahitler-scandal-xai-loses-government-contract-over-groks-antisemitic-remarks
[12] Heise: https://www.heise.de/en/news/Report-Grok-s-anti-Semitic-tirades-cost-xAI-government-contract-10533240.html
[13] NPR: https://www.npr.org/2025/07/09/nx-s1-5462609/grok-elon-musk-antisemitic-racist-content
[14] Источник: https://habr.com/ru/news/938412/?utm_source=habrahabr&utm_medium=rss&utm_campaign=938412
Нажмите здесь для печати.