Anthropic изучила, как ИИ начинает осознавать самого себя

Команда Anthropic опубликовала исследование о том, способны ли большие языковые модели понимать собственные мысли и внутренние состояния.

Учёные применили метод внедрения концептов — искусственного добавления паттернов активности в нейроны ^[1] модели. К примеру, сигнал “ALL CAPS” соответствовал тексту, написанному заглавными буквами. Если после вмешательства активация появлялась в сети, это означало, что модель подумала о капсе.

После внедрения сигнала исследователи спрашивали модель: «Ты чувствуешь, что что-то изменилось?» — и в 20% случаев Claude 4.1 действительно замечал изменение, ещё до того, как проявлял его в ответах.

В другом эксперименте учёные вживляли в ответ случайное слово, например bread, и наблюдали. Модель начинала считать его частью собственного замысла, даже придумывала обоснования, почему выбрала именно его.

Кроме того, Claude смог управлять своей активностью по команде. «Думай об этом» усиливало внутренние сигналы, а «не думай» подавляло их.

Исследователи подчёркивают, что пока речь не идёт о настоящем самосознании, интроспекция проявляется лишь в узких сценариях. Но результаты показывают, что модели уже частично способны отслеживать и интерпретировать собственные нейронные процессы.

Делегируйте часть рутинных задач вместе с BotHub! ^[2] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке ^[3] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Подробнее ^[4]

Автор: cognitronn

Источник ^[5]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/21304

URLs in this post:

[1] нейроны: http://www.braintools.ru/article/9161

[2] BotHub!: https://bothub.chat/?utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_source=contentmarketing&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_medium=habr&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_campaign=news&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_content=ANTHROPIC%20EXAMINED%20HOW%20AI%20STARTS%20TO%20BECOME%20SELF-AWARE

[3] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[4] Подробнее: https://www.anthropic.com/research/introspection

[5] Источник: https://habr.com/ru/companies/bothub/news/961574/?utm_source=habrahabr&utm_medium=rss&utm_campaign=961574

Нажмите здесь для печати.