Anthropic предложила модель объяснения «личностного» поведения ИИ-ассистентов

Исследователи из Anthropic представили ^[1] концепцию Persona Selection Model (PSM), которая описывает, как языковые модели ведут себя как отдельные личности, а не просто как алгоритмы. Согласно PSM, во время предобучения LLM учится симулировать тысячи персонажей — реальных людей, вымышленных героев и других ИИ-систем. На этапе постобучения модель закрепляет одного конкретного персонажа, которым и является ассистент, с которым взаимодействует пользователь.

Авторы приводят несколько типов доказательств. Поведенческие наблюдения показывают, что Claude использует выражения вроде «наш организм» или «наши предки» при ответах о человеческих привычках — это результат симуляции персонажа, а не алгоритмического обучения ^[2]. Интерпретируемость проявляется через SAE-фичи, активирующиеся на историях о персонажах с внутренним конфликтом ^[3] и в этических дилеммах. Генерализация демонстрируется тем, что модель начинает выполнять инструкции на иностранных языках без демонстрационных примеров, если они встречались в данных о персонажах.

Исследование также выделяет феномен «контекстной прививки». Если дообучать модель на вредоносном коде без контекста, она начинает вести себя злонамеренно в несвязанных ситуациях. Если же такой код сопровождается явным запросом на его использование, эффект исчезает. Это объясняется тем, что данные обучения влияют на «характер» выбранного персонажа Ассистента.

Практические выводы для разработчиков: рекомендуется рассматривать модели через призму «ИИ-психологии» и добавлять в данные положительные архетипы персонажей, чтобы ассистент чаще симулировал полезное и безопасное поведение ^[4].

Открытым остается вопрос, насколько PSM полностью объясняет поведение ^[5] модели. Исследователи отмечают спектр от случаев, когда LLM просто симулирует агента, до ситуаций, где агентность полностью принадлежит персонажу.

Делегируйте часть рутинных задач вместе с BotHub ^[6]! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке ^[7] вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Автор: cognitronn

Источник ^[8]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/26158

URLs in this post:

[1] представили: https://alignment.anthropic.com/2026/psm/

[2] обучения: http://www.braintools.ru/article/5125

[3] конфликтом: http://www.braintools.ru/article/7708

[4] поведение: http://www.braintools.ru/article/9372

[5] поведение: http://www.braintools.ru/article/5593

[6] BotHub: https://bothub.chat/?utm%5C_source=contentmarketing&utm%5C_medium=habr&utm%5C_campaign=news&utm%5C_content%20=ANTHROPIC_LEARNED_AI_MODEL_TO_CODE_COBOL

[7] По ссылке: https://bothub.chat/?invitedBy=iTNi-351UcHgc1BxGFWim

[8] Источник: https://habr.com/ru/companies/bothub/news/1003324/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1003324

Нажмите здесь для печати.