
Исследователи из Anthropic представили концепцию Persona Selection Model (PSM), которая описывает, как языковые модели ведут себя как отдельные личности, а не просто как алгоритмы. Согласно PSM, во время предобучения LLM учится симулировать тысячи персонажей — реальных людей, вымышленных героев и других ИИ-систем. На этапе постобучения модель закрепляет одного конкретного персонажа, которым и является ассистент, с которым взаимодействует пользователь.
Авторы приводят несколько типов доказательств. Поведенческие наблюдения показывают, что Claude использует выражения вроде «наш организм» или «наши предки» при ответах о человеческих привычках — это результат симуляции персонажа, а не алгоритмического обучения. Интерпретируемость проявляется через SAE-фичи, активирующиеся на историях о персонажах с внутренним конфликтом и в этических дилеммах. Генерализация демонстрируется тем, что модель начинает выполнять инструкции на иностранных языках без демонстрационных примеров, если они встречались в данных о персонажах.
Исследование также выделяет феномен «контекстной прививки». Если дообучать модель на вредоносном коде без контекста, она начинает вести себя злонамеренно в несвязанных ситуациях. Если же такой код сопровождается явным запросом на его использование, эффект исчезает. Это объясняется тем, что данные обучения влияют на «характер» выбранного персонажа Ассистента.
Практические выводы для разработчиков: рекомендуется рассматривать модели через призму «ИИ-психологии» и добавлять в данные положительные архетипы персонажей, чтобы ассистент чаще симулировал полезное и безопасное поведение.
Открытым остается вопрос, насколько PSM полностью объясняет поведение модели. Исследователи отмечают спектр от случаев, когда LLM просто симулирует агента, до ситуаций, где агентность полностью принадлежит персонажу.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Автор: cognitronn


