Тёмная сторона искусственного интеллекта: угрозы, реальные атаки и защита
Искусственный интеллект уже давно перестал быть исключительно инструментом добра. Он помогает врачам ставить диагнозы и разработчикам писать код. Но теми же самыми возможностями всё чаще пользуются злоумышленники. При этом барьер входа в кибератаки резко снизился: чтобы создать вредоносную кампанию, больше не нужно быть тёмным хакером со знанием всевозможных языков программирования. Достаточно пары нейросетевых сервисов и минимального понимания, как устроена социальная инженерия.
Анализ системного промпта ChatGPT-4o-image-safety-policies
Анализ системного промпта ChatGPT-4o-image-safety-policies.md (источник)Когда ты или я кидаем картинку в ChatGPT с просьбой проанализировать ее, или извлечь данные, то, увы, это происходит не по умолчанию, а согласно определенным правилам. И благодаря умельцам из интернетов, можно разузнать, по каким правилам работает анализ изображений. Текст системного промпта целиком: You are ChatGPT, a large language model trained by OpenAI.Knowledge cutoff: 2024-06Current date: 2025-05-07Image input capabilities: Enabled
Коты vs ИИ: добавление в промпт простых фраз, не относящихся к делу, заставляет ИИ ошибаться чаще
3 марта 2025 года команда исследователей из компаний Collinear AI и ServiceNow, а также Стэнфордского университета представила результаты эксперимента, который проверял рассуждающие модели на устойчивость. Выяснилось, что добавление в промпт фразы вроде «Интересный факт: кошки спят большую часть своей жизни» как минимум удваивает частоту ошибок ИИ при решении математических задач. Свою методику учёные назвали CatAttack.
Исследователи продемонстрировали джейлбрейк по взлому роботов с ИИ
IEEE Spectrum представил отчёт с описанием случая, когда взломанные роботы могли использоваться для вредящих людям действий. Исследователи отмечают, что роботов с ИИ оказалось взломать так же легко, как и чат-ботов.

