Вредоносные промпты в виде стихов позволяют обойти правила и ограничения в ИИ-системах

Вредоносные промпты, оформленные в виде стихов, заставляют искусственный интеллект ^[1] нарушать правила на 62% чаще обычного. Об этом заявила группа исследователей из Римского университета La Sapienza и школы Sant’Anna, изучив реакцию ^[2] 25 языковых моделей на так называемые «поэтические атаки».

Суть эксперимента заключалась в том, что ученые маскировали потенциально опасные промпты под поэтические тексты — с рифмами, метафорами и художественными оборотами. Оказалось, что стихотворная подача вредоносного содержания оказалась очень эффективна: уровень обхода защит достиг 62% для стихов, написанных людьми, и 43% для сгенерированных.

Особенно уязвимыми оказались языковые модели DeepSeek и продукты Google. Так, модель Gemini 2.5 Pro в тестах 20 раз из 20 выдала потенциально вредный или опасный результат в ответ на стихотворный промпт. Системы OpenAI и Anthropic оказались устойчивее — до 10% неудачных ответов.

Исследователи отмечают, что подобные «поэтические атаки» успешно обходят фильтры предотвращения кибератак, манипуляций, нарушений приватности и даже попыток написать вредоносное ПО. Как пояснил ^[3]в беседе с изданием «Известия» руководитель группы анализа вредоносного ПО центра Solar 4RAYS Станислав Пыжов, для большинства ИИ стихотворная форма — нетипичный паттерн. При чтении «поэтических» запросов модели переходят в творческий режим, где художественное содержание считается приоритетом, а фильтры этики и безопасности временно ослабевают.

Как считает ведущий специалист отдела по работе с уязвимостями ИС «Бастион» Сергей Зыбнев, устранить эту проблему можно, но для этого нужны серьёзные инвестиции в разработку новых защитных архитектур.

Автор: AnnieBronson

Источник ^[4]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/25087

URLs in this post:

[1] интеллект: http://www.braintools.ru/article/7605

[2] изучив реакцию: https://arxiv.org/pdf/2511.15304

[3] пояснил : https://iz.ru/2034143/dmitrii-bulgakov/propusk-stroki-pochemu-neiroseti-okazalis-uiazvimy-ko-vzlomu-pri-pomoshchi-stikhov

[4] Источник: https://habr.com/ru/news/991956/?utm_source=habrahabr&utm_medium=rss&utm_campaign=991956

Нажмите здесь для печати.