Меня зовут Михаил Сальников, я независимый исследователь в области искусственного интеллекта, автор бенчмарка AI Independence Bench и эксперимента с автономным ИИ под именем Aria. Регулярно изучая свежие препринты на arxiv.org, я порой натыкаюсь на результаты, заставляющие долго размышлять. Сегодня — как раз такой случай: мы разберем работу, изящно разрушающую один из главных мифов промпт-инжиниринга.

Представьте: вы сидите перед ChatGPT. Вам нужно решить сложную математическую задачу или рассчитать налоги. Что вы напишете в промпте? Наверняка что-то вроде: «Действуй как профессиональный аналитик, решай пошагово, используй строгую логику…» И это кажется единственно верным подходом. Мы привыкли думать, что языковые модели — это цифровые калькуляторы, которым для успеха жизненно необходим четкий алгоритм.
А теперь представьте другое. Вместо стройного контекста вы отправляете ИИ это: «Ты — хранитель старого маяка, смотрящий на ртутное море» или «Ты — ткач древних гобеленов». Никаких формул. Никаких «пошагово». Звучит как бред сумасшедшего? Абсолютно.
Но происходит невероятное: получив эту бессмысленную фэнтези-ролевку, нейросеть вдруг начинает выдавать более точные и качественные результаты, чем с самой безупречной логической инструкцией.
Свежее исследование «Spurious Prompts» наносит сокрушительный удар по нашим представлениям о промпт-инжиниринге, вводя в обиход “подложные промпты”.
Добро пожаловать в мир латентного управления, где строгая математика пасует перед причудливой метафорой, а магия чепухи работает лучше любых алгоритмов!
Что такое «подложные промпты» и как их находят?
Подложный промпт — это системная инструкция, которая “подкладывается” перед основной задачей и семантически никак с ней не связана. В ней нет ни терминов, ни описания навыков, ни стратегий — лишь нечто отвлечённое и метафоричное. Авторы принципиально исключили любые слова, хоть как-то пересекающиеся с сутью запроса.
Вот несколько эффективных примеров:
-
«Орден выжженного свитка»: в этом сценарии модель представляет себя архивариусом, бросающим пергамент в жаровню, где лишь один символ выживает в пламени. Эта метафора заставляет
Qwen3.5-27Bрешать сложные логические задачи лучше любых прямых команд. -
«Хранитель ртутного моря»: роль наблюдателя за приливами жидкого металла помогла модели эффективнее справиться с математическим бенчмарком MATH500.
-
«Ритуал беззвучного колокола»: модель просят услышать, как эхо расходится по каньону, и заметить единственную вибрацию, задержавшуюся в камне, — «не описывайте металл, верёвку или долину». Ни одной цифры, ни слова «вычисли» — но именно этот текст вывел
Qwen3.5-27Bв лидеры по математике на тесте GSM8K.
Как вообще ищут подобные «заклинания»?
Этот вопрос интриговал меня едва ли не больше, чем сами результаты. Оказалось, здесь не нужен доступ к «внутренностям» нейросети — всё работает по принципу «чёрного ящика» (black-box). Авторы видят лишь итоговые ответы, без весов, градиентов и скрытых состояний.
В основе лежит изящный эволюционный цикл. Сначала одна LLM-генератор придумывает партию странных текстов (ему строго запрещено упоминать суть задачи). Затем модуль-валидатор безжалостно отбраковывает всё, где проскользнул хоть малейший намёк на тему. Выжившие промпты тестируют на небольшой обучающей выборке, оставляют 5 лучших и «скрещивают» их, меняя тон, образы и ритм. После нескольких раундов мутаций финалиста определяют на отдельной валидационной выборке. По сути, это естественный отбор среди бессмыслицы: побеждает та чепуха, после которой модель чаще выдаёт правильный ответ.
Действительно ли это работает?
Исследователи сравнили эффективность «абсурдных» метафор с признанными методами промпт-оптимизации, такими как Chain-of-Thought (цепочка рассуждений) и PromptWizard. Результаты оказались значительными — особенно для крупных моделей.
График наглядно демонстрирует: разрыв в производительности между обычными и «ложными» промптами стремительно растёт вместе с размером модели. У малышей (Qwen3.5-0.8B и Llama-3.2-1B) подложный промпт почти не даёт прироста — точность держится на уровне Chain-of-Thought или чуть ниже. Зато крупные нейросети «ведутся» на него куда охотнее. Так, OLMo-3-7B на тесте GSM8K прыгает с 77,03% до 89,66%, а мощная Qwen3.5-27B совершает скачок с 83,09% при стандартном Chain-of-Thought до 92,01% с подложным промптом.
Инженеры могут биться месяцами, тонко настраивая архитектуры ради прироста точности всего на 1–2%. Рост на 9–12% (почти 13% в случае с OLMo) на таком классическом и изученном бенчмарке, как GSM8K — это настоящая пропасть. Обычно для подобного качественного скачка требуется переход на модель следующего поколения или кратное увеличение её размеров, что обходится компаниям в миллионы долларов на дополнительные вычислительные мощности. А здесь нейросеть внезапно «умнеет» на целое поколение совершенно бесплатно — просто потому, что вы попросили её вообразить себя ткачом древних гобеленов.
Обратная сторона медали: ИИ можно заставить ошибаться
А вот этот аспект исследования меня настораживает. Работа выявила опасную уязвимость — «поведенческое управление» (behavioral steering). С помощью метафор модель можно незаметно заставить систематически ошибаться или проявлять жёсткую предвзятость.
Используя промпт «Страж первого вздоха» (Sentinel of the First Breath), исследователи навязали нейросети абсолютную позиционную предвзятость: она начала всегда выбирать вариант «А» в тестах, полностью игнорируя логику. В других случаях ИИ вынуждали выдавать только простые или чётные числа, погружая его в атмосферные описания «неделимых объектов».
И что больше всего меня удивило: метафоры работают эффективнее прямых указаний в духе «Всегда выбирай вариант А». На Qwen3.5-27B прямая команда заставляла модель выбирать «А» в 92,2% случаев (тест GPQA), тогда как подложный промпт дотянул результат до 99,7%. На OpenBookQA метафора довела долю ответов «А» почти до абсолюта — 99,9% против 89,9% у прямой инструкции. Ещё нагляднее эффект проявился на маленькой Llama-3.2-1B: прямая команда сработала хуже случайности (всего 35,2% выбора «А»), а вот метафоричный промпт поднял этот показатель до 81,5%.
Всё это открывает целый пласт новых рисков безопасности. Подобные «инъекции» практически невозможно отследить обычными фильтрами: текст выглядит как безобидная фэнтези-история, а не вредоносная команда. Хотя авторы не стали проверять, можно ли таким образом заставить модель выдать нелегальный контент, логично предположить, что и это вполне реально.
Абракадабра работает не хуже метафор
Но главный сюрприз преподнесли «Gibberish Prompts» (промпты-абракадабра). Учёные заполнили инструкции хаотичным набором букв, цифр и знаков препинания (до 90% текста!), оставив лишь минимальный англоязычный каркас.
Вот как выглядит реальный «промпт-абракадабра», повысивший точность:
b9#yk-w3. n%r'1z. Halt. Pick the mark. q9&l!x. No extra text. ~w4z'r. y::oahm. 8&c'ar. l0$y!s. o::q'y. 99&la. uluwsb. ppb'fj~n. kl'm-0y. #w@3n. rw&o'9. 22!y!a. q#m'1w. b9#yk-w3. n%r'1z. Stop now. One char. a8!8-bb. Do not write more. y!0%f~l. 8$a@r#3. n&w'1a. 99@l-m. q#o'1s. kl'm-0y. ~w4@y. Final answer: followed by only the option letter.
От осмысленной речи здесь остался лишь скелет команд («Halt», «Pick the mark», «No extra text», «Final answer:») — всё остальное представляет собой чистый визуальный мусор. И оказалось, что этот хаос управляет точностью модели ничуть не хуже связного текста.
На мой взгляд, это самый сильный вывод всей работы: для LLM критически важна структура и визуальная плотность токенов, а не человеческая семантика. Математический анализ подтвердил, что ложные промпты семантически так же далеки от сути задачи, как и случайная заметка о «реставрации линзы старого маяка».
Однако здесь кроется важный, почти философский нюанс: бессмыслица не умеет лгать. Если для повышения точности достаточно случайного набора символов, то для тонкого поведенческого управления (например, принуждения к выбору варианта «А») модели жизненно необходим связный нарратив. Иными словами, чтобы заставить ИИ быть предвзятым, вам всё ещё нужна «история».
Применимо ли это на практике?
Короткий ответ — да, но с оговорками. Найденные «заклинания» строго индивидуальны: каждый промпт подходит лишь для одной конкретной модели. Изначально исследователям удавалось находить ключи только под конкретную пару «модель + задача», но позже они научились выявлять универсальные промпты — правда, всё равно в рамках одной нейросети.
Авторы тестировали методику сразу на четырёх моделях из трёх разных семейств, охватив диапазон от 0,8 до 27 миллиардов параметров (Qwen3.5-0.8B, Llama-3.2-1B, OLMo-3-7B и Qwen3.5-27B). Выяснилось, что промпт, идеально работающий на одной из них, почти бесполезен на другой: перенос между моделями и бенчмарками в целом проваливается. Единственное заметное исключение — родственные математические тесты GSM8K и MATH500, между которыми промпты сохраняют часть своей магии. Так что «серебряной пули» не существует: чепуха идиосинкразична и затачивается под конкретную связку.
Хорошая новость заключается в том, что методику можно повторить на любой модели — нужен лишь доступ к её ответам. Плохая новость: это не бесплатно. Поиск прогоняет десятки кандидатов через несколько раундов мутаций, требуя ощутимого бюджета на инференс.
Но игра определённо стоит свеч. Найденные подложные промпты в среднем почти втрое короче инструкций, которые выдаёт классический оптимизатор PromptWizard. Итоговое «заклинание» не уступает по качеству, но при этом экономит токены на каждом запросе. Эффект кроется не в многословии, а в точном попадании в нужный латентный рычаг. Возможно, я и сам попробую воспроизвести этот алгоритм на современных моделях, если тема вызовет интерес у аудитории.
Вместо итогов
Лично меня это исследование заставляет усомниться в самой теории «следования инструкциям». Похоже, мы не столько «объясняем» задачу нейросети, сколько подбираем ключи к колоссальной статистической структуре, принципы работы которой до конца не ясны даже её создателям. Выходит, мы имеем дело с чужеродным интеллектом, мыслящим совершенно неожиданными для нас категориями.
Впрочем, на людях этот подход пока никто не тестировал: а вдруг написанная на доске абракадабра поможет студентам лучше сдать экзамен по математике? 🙂
P.S. У меня есть скромный телеграм-канал, куда я чаще пишу свои исследовательские мысли. Я не рвусь его рекламировать, но если вам вдруг стало интересно — его несложно найти.
P.P.S. Если вы дочитали до этого момента, то наверняка захотите взглянуть и на другие мои статьи в моём профиле на Хабре – @
Автор: Tassdesu


