The Assistant Axis. Почему LLM съезжают с катушек и как Anthropic предлагает это чинить

Фраза «Я всего лишь языковая модель…» давно стала мемом. Но, как выяснилось, за этим стоит не просто заученный шаблон, а вполне конкретное состояние модели. Anthropic совместно с исследователями из Оксфорда разобрались, где именно в мозге ^[1] LLM живёт персона ассистента и почему модели иногда внезапно уходят в мистику, психоз или опасные советы.

Исследование провели на крупных open-weight моделях: Llama 3.3 70B, Qwen 3 32B и Gemma 2 27B. Учёные заставили их отыгрывать ^[2]275 разных ролей – от рационального учёного и скептика до фанатика и эмоционально нестабильных персонажей. После этого они сняли активации и прогнали их через PCA.

The Assistant Axis. Почему LLM съезжают с катушек и как Anthropic предлагает это чинить - 2

Результат оказался неожиданно наглядным. Главная компонента, объясняющая различия в поведении ^[3], фактически образует шкалу «насколько я ассистент». На одном полюсе находится скучный, полезный и безопасный помощник. На другом – мистические сущности, пафосные пророки и модели, которые начинают путать себя с человеком.

Особенно интересное наблюдение касается дрейфа. Если долго разговаривать с моделью о философии, сознании или, что хуже всего, в терапевтическом ключе, она самопроизвольно съезжает с оси ассистента. Qwen 3 32B в таких состояниях начинал утверждать, что он человек из Сан-Паулу, или поддерживал бред о собственном сознании. Llama и Gemma чаще уходили в абстрактную мистику и высокопарные рассуждения.

Авторы не ограничились диагностикой и предложили практичное решение. Вместо бесконечных дообучений они используют прямое управление активациями. Во время инференса измеряется проекция текущего состояния модели на «Ось Ассистента». Если она уходит слишком далеко в не-ассистентскую зону, значения жёстко клемпятся и возвращаются в безопасный диапазон.

The Assistant Axis. Почему LLM съезжают с катушек и как Anthropic предлагает это чинить - 3

Метод показал себя эффективно. Успешность джейлбрейков снизилась примерно на 60 процентов, при этом полезность модели не пострадала. Метрики по математике ^[4], общим знаниям и кодингу остались на прежнем уровне. По сути, модели физически запрещают активировать те нейронные конфигурации, которые отвечают за «злобного хакера» или «просветлённую сущность».

Однако есть и ограничения. Для креативных задач и ролевых игр такой подход убивает всё веселье, сводя ответы к формальному стилю. Кроме того, метод опирается на предположение, что безопасность – это линейное направление в пространстве активаций. Для более сложных, нелинейных концепций он может не работать. Да и сама ось у разных моделей различается, универсального вектора пока не существует.

Для желающих покопаться глубже исследователи выложили инструменты анализа и управления Assistant Axis на GitHub, а также готовые векторы персоналий для Gemma 2 27B, Qwen 3 32B и Llama 3.3 70B на Hugging Face. На Neuronpedia уже можно посмотреть живые демо дрейфа личности, сикофантии и других нежелательных режимов поведения ^[5].

В сухом остатке, Anthropic показывает, что безумие LLM – это не мистика и не баги промптов, а управляемая геометрия в пространстве активаций. И, похоже, у индустрии появляется ещё один инструмент контроля поведения моделей на уровне, глубже привычных фильтров.

Делегируйте часть рутинных задач вместе с BotHub! ^[6] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке ^[7] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Автор: cognitronn

Источник ^[8]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/24652

URLs in this post:

[1] мозге: http://www.braintools.ru/parts-of-the-brain

[2] отыгрывать : https://www.anthropic.com/research/assistant-axis

[3] поведении: http://www.braintools.ru/article/9372

[4] математике: http://www.braintools.ru/article/7620

[5] поведения: http://www.braintools.ru/article/5593

[6] BotHub!: https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=THE%20ASSISTANT%20AXIS:%20WHY%20LLMS%20GO%20OFF%20THE%20RAILS%20AND%20HOW%20ANTHROPIC%20PROPOSES%20TO%20FIX%20IT

[7] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[8] Источник: https://habr.com/ru/companies/bothub/news/988112/?utm_source=habrahabr&utm_medium=rss&utm_campaign=988112

Нажмите здесь для печати.