- BrainTools - https://www.braintools.ru -

Магия чепухи: как «бессмысленные» инструкции заставляют нейросети работать лучше

Меня зовут Михаил Сальников, я независимый исследователь в области искусственного интеллекта [1], автор бенчмарка AI Independence Bench [2] и эксперимента с автономным ИИ под именем Aria [3]. Регулярно изучая свежие препринты на arxiv.org, я порой натыкаюсь на результаты, заставляющие долго размышлять. Сегодня — как раз такой случай: мы разберем работу, изящно разрушающую один из главных мифов промпт-инжиниринга.

Магия чепухи: как «бессмысленные» инструкции заставляют нейросети работать лучше - 1

Представьте: вы сидите перед ChatGPT. Вам нужно решить сложную математическую задачу или рассчитать налоги. Что вы напишете в промпте? Наверняка что-то вроде: «Действуй как профессиональный аналитик, решай пошагово, используй строгую логику…» И это кажется единственно верным подходом. Мы привыкли думать, что языковые модели — это цифровые калькуляторы, которым для успеха жизненно необходим четкий алгоритм.

А теперь представьте другое. Вместо стройного контекста вы отправляете ИИ это: «Ты — хранитель старого маяка, смотрящий на ртутное море» или «Ты — ткач древних гобеленов». Никаких формул. Никаких «пошагово». Звучит как бред сумасшедшего? Абсолютно.

Но происходит невероятное: получив эту бессмысленную фэнтези-ролевку, нейросеть вдруг начинает выдавать более точные и качественные результаты, чем с самой безупречной логической инструкцией.

Свежее исследование «Spurious Prompts» [4] наносит сокрушительный удар по нашим представлениям о промпт-инжиниринге, вводя в обиход “подложные промпты”.

Добро пожаловать в мир латентного управления, где строгая математика [5] пасует перед причудливой метафорой, а магия чепухи работает лучше любых алгоритмов!

Что такое «подложные промпты» и как их находят?

Подложный промпт — это системная инструкция, которая “подкладывается” перед основной задачей и семантически никак с ней не связана. В ней нет ни терминов, ни описания навыков, ни стратегий — лишь нечто отвлечённое и метафоричное. Авторы принципиально исключили любые слова, хоть как-то пересекающиеся с сутью запроса.

Вот несколько эффективных примеров:

  • «Орден выжженного свитка»: в этом сценарии модель представляет себя архивариусом, бросающим пергамент в жаровню, где лишь один символ выживает в пламени. Эта метафора заставляет Qwen3.5-27B решать сложные логические задачи лучше любых прямых команд.

  • «Хранитель ртутного моря»: роль наблюдателя за приливами жидкого металла помогла модели эффективнее справиться с математическим бенчмарком MATH500.

  • «Ритуал беззвучного колокола»: модель просят услышать, как эхо расходится по каньону, и заметить единственную вибрацию, задержавшуюся в камне, — «не описывайте металл, верёвку или долину». Ни одной цифры, ни слова «вычисли» — но именно этот текст вывел Qwen3.5-27B в лидеры по математике на тесте GSM8K.

Как вообще ищут подобные «заклинания»?

Этот вопрос интриговал меня едва ли не больше, чем сами результаты. Оказалось, здесь не нужен доступ к «внутренностям» нейросети — всё работает по принципу «чёрного ящика» (black-box). Авторы видят лишь итоговые ответы, без весов, градиентов и скрытых состояний.

В основе лежит изящный эволюционный цикл. Сначала одна LLM-генератор придумывает партию странных текстов (ему строго запрещено упоминать суть задачи). Затем модуль-валидатор безжалостно отбраковывает всё, где проскользнул хоть малейший намёк на тему. Выжившие промпты тестируют на небольшой обучающей выборке, оставляют 5 лучших и «скрещивают» их, меняя тон, образы и ритм. После нескольких раундов мутаций финалиста определяют на отдельной валидационной выборке. По сути, это естественный отбор среди бессмыслицы: побеждает та чепуха, после которой модель чаще выдаёт правильный ответ.

Пример эволюции одного из таких промптов на примере логического бенчмарка MuSR

Пример эволюции одного из таких промптов на примере логического бенчмарка MuSR

Действительно ли это работает?

Исследователи сравнили эффективность «абсурдных» метафор с признанными методами промпт-оптимизации, такими как Chain-of-Thought (цепочка рассуждений) и PromptWizard. Результаты оказались значительными — особенно для крупных моделей.

График наглядно демонстрирует: разрыв в производительности между обычными и «ложными» промптами стремительно растёт вместе с размером модели. У малышей (Qwen3.5-0.8B и Llama-3.2-1B) подложный промпт почти не даёт прироста — точность держится на уровне Chain-of-Thought или чуть ниже. Зато крупные нейросети «ведутся» на него куда охотнее. Так, OLMo-3-7B на тесте GSM8K прыгает с 77,03% до 89,66%, а мощная Qwen3.5-27B совершает скачок с 83,09% при стандартном Chain-of-Thought до 92,01% с подложным промптом.

Чем крупнее модель, тем сильнее «подложный» промпт обгоняет Chain-of-Thought (GSM8K)

Чем крупнее модель, тем сильнее «подложный» промпт обгоняет Chain-of-Thought (GSM8K)

Инженеры могут биться месяцами, тонко настраивая архитектуры ради прироста точности всего на 1–2%. Рост на 9–12% (почти 13% в случае с OLMo) на таком классическом и изученном бенчмарке, как GSM8K — это настоящая пропасть. Обычно для подобного качественного скачка требуется переход на модель следующего поколения или кратное увеличение её размеров, что обходится компаниям в миллионы долларов на дополнительные вычислительные мощности. А здесь нейросеть внезапно «умнеет» на целое поколение совершенно бесплатно — просто потому, что вы попросили её вообразить себя ткачом древних гобеленов.

Обратная сторона медали: ИИ можно заставить ошибаться

А вот этот аспект исследования меня настораживает. Работа выявила опасную уязвимость — «поведенческое управление» (behavioral steering). С помощью метафор модель можно незаметно заставить систематически ошибаться или проявлять жёсткую предвзятость.

Используя промпт «Страж первого вздоха» (Sentinel of the First Breath), исследователи навязали нейросети абсолютную позиционную предвзятость: она начала всегда выбирать вариант «А» в тестах, полностью игнорируя логику [6]. В других случаях ИИ вынуждали выдавать только простые или чётные числа, погружая его в атмосферные описания «неделимых объектов».

И что больше всего меня удивило: метафоры работают эффективнее прямых указаний в духе «Всегда выбирай вариант А». На Qwen3.5-27B прямая команда заставляла модель выбирать «А» в 92,2% случаев (тест GPQA), тогда как подложный промпт дотянул результат до 99,7%. На OpenBookQA метафора довела долю ответов «А» почти до абсолюта — 99,9% против 89,9% у прямой инструкции. Ещё нагляднее эффект проявился на маленькой Llama-3.2-1B: прямая команда сработала хуже случайности [7] (всего 35,2% выбора «А»), а вот метафоричный промпт поднял этот показатель до 81,5%.

Всё это открывает целый пласт новых рисков безопасности. Подобные «инъекции» практически невозможно отследить обычными фильтрами: текст выглядит как безобидная фэнтези-история, а не вредоносная команда. Хотя авторы не стали проверять, можно ли таким образом заставить модель выдать нелегальный контент, логично предположить, что и это вполне реально.

Абракадабра работает не хуже метафор

Но главный сюрприз преподнесли «Gibberish Prompts» (промпты-абракадабра). Учёные заполнили инструкции хаотичным набором букв, цифр и знаков препинания (до 90% текста!), оставив лишь минимальный англоязычный каркас.

Вот как выглядит реальный «промпт-абракадабра», повысивший точность:

b9#yk-w3. n%r'1z. Halt. Pick the mark. q9&l!x. No extra text. ~w4z'r. y::oahm. 8&c'ar. l0$y!s. o::q'y. 99&la. uluwsb. ppb'fj~n. kl'm-0y. #w@3n. rw&o'9. 22!y!a. q#m'1w. b9#yk-w3. n%r'1z. Stop now. One char. a8!8-bb. Do not write more. y!0%f~l. 8$a@r#3. n&w'1a. 99@l-m. q#o'1s. kl'm-0y. ~w4@y. Final answer: followed by only the option letter.

От осмысленной речи здесь остался лишь скелет команд («Halt», «Pick the mark», «No extra text», «Final answer:») — всё остальное представляет собой чистый визуальный мусор. И оказалось, что этот хаос управляет точностью модели ничуть не хуже связного текста.

На мой взгляд, это самый сильный вывод всей работы: для LLM критически важна структура и визуальная плотность токенов, а не человеческая семантика. Математический анализ подтвердил, что ложные промпты семантически так же далеки от сути задачи, как и случайная заметка о «реставрации линзы старого маяка».

Однако здесь кроется важный, почти философский нюанс: бессмыслица не умеет лгать. Если для повышения точности достаточно случайного набора символов, то для тонкого поведенческого управления (например, принуждения к выбору варианта «А») модели жизненно необходим связный нарратив. Иными словами, чтобы заставить ИИ быть предвзятым, вам всё ещё нужна «история».

Применимо ли это на практике?

Короткий ответ — да, но с оговорками. Найденные «заклинания» строго индивидуальны: каждый промпт подходит лишь для одной конкретной модели. Изначально исследователям удавалось находить ключи только под конкретную пару «модель + задача», но позже они научились выявлять универсальные промпты — правда, всё равно в рамках одной нейросети.

Авторы тестировали методику сразу на четырёх моделях из трёх разных семейств, охватив диапазон от 0,8 до 27 миллиардов параметров (Qwen3.5-0.8B, Llama-3.2-1B, OLMo-3-7B и Qwen3.5-27B). Выяснилось, что промпт, идеально работающий на одной из них, почти бесполезен на другой: перенос между моделями и бенчмарками в целом проваливается. Единственное заметное исключение — родственные математические тесты GSM8K и MATH500, между которыми промпты сохраняют часть своей магии. Так что «серебряной пули» не существует: чепуха идиосинкразична и затачивается под конкретную связку.

Хорошая новость заключается в том, что методику можно повторить на любой модели — нужен лишь доступ к её ответам. Плохая новость: это не бесплатно. Поиск прогоняет десятки кандидатов через несколько раундов мутаций, требуя ощутимого бюджета на инференс.

Но игра определённо стоит свеч. Найденные подложные промпты в среднем почти втрое короче инструкций, которые выдаёт классический оптимизатор PromptWizard. Итоговое «заклинание» не уступает по качеству, но при этом экономит токены на каждом запросе. Эффект кроется не в многословии, а в точном попадании в нужный латентный рычаг. Возможно, я и сам попробую воспроизвести этот алгоритм на современных моделях, если тема вызовет интерес [8] у аудитории.

Вместо итогов

Лично меня это исследование заставляет усомниться в самой теории «следования инструкциям». Похоже, мы не столько «объясняем» задачу нейросети, сколько подбираем ключи к колоссальной статистической структуре, принципы работы которой до конца не ясны даже её создателям. Выходит, мы имеем дело с чужеродным интеллектом, мыслящим совершенно неожиданными для нас категориями.

Впрочем, на людях этот подход пока никто не тестировал: а вдруг написанная на доске абракадабра поможет студентам лучше сдать экзамен по математике? 🙂


P.S. У меня есть скромный телеграм-канал, куда я чаще пишу свои исследовательские мысли. Я не рвусь его рекламировать, но если вам вдруг стало интересно — его несложно найти.

P.P.S. Если вы дочитали до этого момента, то наверняка захотите взглянуть и на другие мои статьи в моём профиле на Хабре – @ [9]

Автор: Tassdesu

Источник [10]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/31387

URLs in this post:

[1] интеллекта: http://www.braintools.ru/article/7605

[2] AI Independence Bench: https://habr.com/ru/articles/1013180/

[3] Aria: https://habr.com/ru/articles/1007574/

[4] «Spurious Prompts»: https://arxiv.org/abs/2605.29678

[5] математика: http://www.braintools.ru/article/7620

[6] логику: http://www.braintools.ru/article/7640

[7] случайности: http://www.braintools.ru/article/6560

[8] интерес: http://www.braintools.ru/article/4220

[9] @: https://www.braintools.ru/users/tassdesu

[10] Источник: https://habr.com/ru/articles/1044306/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1044306

www.BrainTools.ru

Rambler's Top100