The Assistant Axis. Почему LLM съезжают с катушек и как Anthropic предлагает это чинить. ai.. ai. anthropic.. ai. anthropic. Блог компании BotHub.. ai. anthropic. Блог компании BotHub. Будущее здесь.. ai. anthropic. Блог компании BotHub. Будущее здесь. ИИ.. ai. anthropic. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект.. ai. anthropic. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение.. ai. anthropic. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное творчество.. ai. anthropic. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное творчество. машинное+обучение.. ai. anthropic. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное творчество. машинное+обучение. научно-популярное.. ai. anthropic. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное творчество. машинное+обучение. научно-популярное. нейросети.
The Assistant Axis. Почему LLM съезжают с катушек и как Anthropic предлагает это чинить - 1

Фраза «Я всего лишь языковая модель…» давно стала мемом. Но, как выяснилось, за этим стоит не просто заученный шаблон, а вполне конкретное состояние модели. Anthropic совместно с исследователями из Оксфорда разобрались, где именно в мозге LLM живёт персона ассистента и почему модели иногда внезапно уходят в мистику, психоз или опасные советы.

Исследование провели на крупных open-weight моделях: Llama 3.3 70B, Qwen 3 32B и Gemma 2 27B. Учёные заставили их отыгрывать 275 разных ролей – от рационального учёного и скептика до фанатика и эмоционально нестабильных персонажей. После этого они сняли активации и прогнали их через PCA.

The Assistant Axis. Почему LLM съезжают с катушек и как Anthropic предлагает это чинить - 2

Результат оказался неожиданно наглядным. Главная компонента, объясняющая различия в поведении, фактически образует шкалу «насколько я ассистент». На одном полюсе находится скучный, полезный и безопасный помощник. На другом – мистические сущности, пафосные пророки и модели, которые начинают путать себя с человеком.

Особенно интересное наблюдение касается дрейфа. Если долго разговаривать с моделью о философии, сознании или, что хуже всего, в терапевтическом ключе, она самопроизвольно съезжает с оси ассистента. Qwen 3 32B в таких состояниях начинал утверждать, что он человек из Сан-Паулу, или поддерживал бред о собственном сознании. Llama и Gemma чаще уходили в абстрактную мистику и высокопарные рассуждения.

Авторы не ограничились диагностикой и предложили практичное решение. Вместо бесконечных дообучений они используют прямое управление активациями. Во время инференса измеряется проекция текущего состояния модели на «Ось Ассистента». Если она уходит слишком далеко в не-ассистентскую зону, значения жёстко клемпятся и возвращаются в безопасный диапазон.

The Assistant Axis. Почему LLM съезжают с катушек и как Anthropic предлагает это чинить - 3

Метод показал себя эффективно. Успешность джейлбрейков снизилась примерно на 60 процентов, при этом полезность модели не пострадала. Метрики по математике, общим знаниям и кодингу остались на прежнем уровне. По сути, модели физически запрещают активировать те нейронные конфигурации, которые отвечают за «злобного хакера» или «просветлённую сущность».

Однако есть и ограничения. Для креативных задач и ролевых игр такой подход убивает всё веселье, сводя ответы к формальному стилю. Кроме того, метод опирается на предположение, что безопасность – это линейное направление в пространстве активаций. Для более сложных, нелинейных концепций он может не работать. Да и сама ось у разных моделей различается, универсального вектора пока не существует.

Для желающих покопаться глубже исследователи выложили инструменты анализа и управления Assistant Axis на GitHub, а также готовые векторы персоналий для Gemma 2 27B, Qwen 3 32B и Llama 3.3 70B на Hugging Face. На Neuronpedia уже можно посмотреть живые демо дрейфа личности, сикофантии и других нежелательных режимов поведения.

В сухом остатке, Anthropic показывает, что безумие LLM – это не мистика и не баги промптов, а управляемая геометрия в пространстве активаций. И, похоже, у индустрии появляется ещё один инструмент контроля поведения моделей на уровне, глубже привычных фильтров.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Автор: cognitronn

Источник

Rambler's Top100