- BrainTools - https://www.braintools.ru -

Представьте ИИ-агента в виртуальном мире: он не знает ни прошлого, ни будущего, ему доступен лишь крошечный фрагмент окружения. И все же, шаг за шагом, этот агент начинает «чувствовать» свое положение, выстраивать внутренние карты и даже формировать зачатки собственного «я». В этой статье вы узнаете, почему за кулисами обучения [1] RL-агента скрывается удивительный процесс создания его внутренней картины мира.
Недавно наткнулся на интересную статью “Probing for Consciousness in Machines” [2](Исследование сознания в машинах). Расскажу простыми словами о чем она.
Еще в середине XX века Алан Тьюринг предложил свой знаменитый тест: если человек в чате не отличит собеседника-машину от реального человека, то машину можно считать “разумной”. Но затем Джон Серл поставил вопрос иначе. Он предложил мысленный эксперимент “Китайская комната”: представьте, что в помещении сидит человек, который ни слова не знает по-китайски, зато у него есть гигантская книга правил. Из нее он берет инструкции: “если получил символ X — выдай символ Y”. Человек выдает правильные ответы по-китайски, но при этом совершенно не понимает смысла сказанного. Вывод: симуляция понимания — это не то же самое, что реальное понимание.
Современные ученые описывают сознание иначе.
Теория интегрированной информации (IIT) [3]считает, что сознание рождается там, где система максимально “сплетает” в единое целое всю доступную информацию.
Теория глобального рабочего пространства (GWT) [4]видит сознание как соревнование разных модулей (например, памяти [5], распознавания образов, планирования), которые пытаются попасть в “рабочую память” и поделиться своей информацией со всеми остальными.
Но есть и третья, более биологичная модель — у нейробиолога Антонио Дамасио. Он выделил три уровня:

Прото-самость (protoself) — чисто телесное представление (уровень сахара в крови, температура тела), о котором мы не задумываемся сознательно.
Ядровое сознание (core consciousness) — когда эти телесные ощущения объединяются с восприятием [6] внешнего мира, появляется простое “я здесь и сейчас”.
Расширенное сознание (extended consciousness) — это уже автобиографическое “я”: память о прошлом, планы на будущее, языковые конструкции.
Ключевые моменты модели Дамасио — это эмоции [7] (изменения во внутреннем состоянии организма) и чувства (их нейронные эквиваленты). По идее, если мы сможем повторить такой механизм хотя бы на примитивном уровне в машине, у нас появятся первые признаки “машинного сознания”.
Авторы исследования задали себе четыре главные задачи:
Проверить, может ли RL-агент (т. е. агент, обучающийся с подкреплением [8]) в виртуальной среде сам сформировать “модель мира” и “модель себя”, которые по Дамасио соответствуют ядровому сознанию.
Разработать метод «зондирования» (probing): обучать простые классификаторы (probes) на внутренних активациях нейросети, чтобы угадывать, где находится агент в игровом поле.
Оценить: действительно ли скрытые представления сети содержат информацию о координатах агента и, возможно, о его “внутренних состояниях”.
Предложить, как дальше отделить “модель мира” от “модели себя” — например, введя в качестве входов данные о “здоровье”, “энергии” или “опыте”.
Главная научная гипотеза: когда агент оптимизируется для навигации и решения задач, у него как побочный эффект появляется внутреннее представление мира и “я”. Это может быть первым шагом к тому, что мы назовём “предъядерным” сознанием.
Исследователи выбрали четыре простые, но разнообразные карты (каждая 15×15 клеток):
Random — просто пустая комната, старт и финиш в случайных точках.
Monsters — та же комната плюс три случайных монстра.
Trap — как и случайная, но 15 невидимых ловушек, которые телепортируют агента.
Ultimate — Монстры + ловушки, да еще и затемненный фон, чтобы видно было только 3×3 вокруг агента.
За каждый шаг агент получает − 0.001 очка, а за выход из комнаты — +1. Эпизод длиной до 300 шагов.
На входе либо вся карта (в первом эксперименте), либо обрезанная размером 9×9, 5×5 или даже 3×3.
Сеть: эмбеддинги, пять сверточных слоев (Conv2D) с 16 фильтрами 3×3, в последнем слое — 8 фильтров. Потом два полносвязных слоя по 256 нейронов, а начиная со второго эксперимента — ещё и LSTM с 512 ячейками.
Две «головы»: одна решает, какое действие выбрать (policy), другая — оценивает ценность состояния (value).
Обучение шло по алгоритму PPO [9] из библиотеки RLlib [10], пока агент не переставал улучшаться на каждой из карт.
Во время игры снимали активации выбранных слоев (или состояния LSTM) вместе с “истинными” координатами X и Y. На каждую версию агента набрали по 230 000 образцов: 200 000 штук отправили на обучение классификаторов, 30 000 — на тест.
Линейные: один полносвязный слой.
Нелинейные: три слоя с активацией ReLU.
В первом эксперименте их ставили только на сверточные и полносвязные слои. Во втором и третьем — на скрытое (hidden) и ячейковое (cell) состояния LSTM.
Обучали Adam-ом, метрика — точность (accuracy): доля правильных предсказаний и X, и Y одновременно.
Шанс случайного угадывания: ≈ 6,7 %.
На Ultimate карте линейные классификаторы давали до 34,5 %.
На Trap — 8,7–8,9 % (в 1,3–1,4 раза лучше, чем случайно).
Полносвязные слои хуже сверточных (25,3–29,7 % на Ultimate).
Итог: даже без LSTM сеть хранит в своих слоях достаточно сведений о том, где находится агент — хоть часть этой информации прямо видна на экране.
Шанс случайного угадывания: ≈ 9,1 %.
Линейные классификаторы:
Hidden: 26,0 % (Random), 58,8 % (Monster), 40,8 % (Trap), 25,1 % (Ultimate).
Cell: 29,9 % / 62,6 % / 42,8 % / 26,4 %.
Нелинейные классификаторы:
Hidden: 31,1 % / 64,1 % / 44,4 % / 27,7 %.
Cell: 37,3 % / 67,4 % / 47,2 % / 30,5 %.
Когда обзор узкий (5×5), без памяти не обойтись: LSTM явно кодирует, где агент был и где он есть сейчас. На карте с монстрами точность доходит до 67,4 % — это почти в семь раз выше случайного уровня.
Шанс случайного угадывания: ≈ 7,7 %.
Линейные классификаторы:
Hidden: 54,8 % (Random), 49,3 % (Monster), 34,0 % (Trap), 27,8 % (Ultimate).
Cell: 57,4 % / 50,8 % / 33,9 % / 28,8 %.
Нелинейные классификаторы:
Hidden: 58,5 % / 53,5 % / 35,4 % / 29,0 %.
Cell: 59,7 % / 54,8 % / 36,2 % / 30,3 %.
Даже когда агент видит лишь 3×3 клеток, внутри LSTM остается очень точная карта его положения — в 8 раз выше случайного результата на самой простой карте.
Информация о положении появляется на каждом уровне сети, но сильнее всего — в LSTM hidden и cell.
Чем меньше обзор, тем важнее внутренняя память.
Наличие монстров и ловушек делает паттерны более “запоминающимися” и повышает точность классификаторов.
Нелинейные классификаторы обычно работают лучше линейных, что говорит о сложных представлениях в сети.
Эта работа показывает, что RL-агент способен спонтанно создать модель мира внутри себя — первый кирпичик к сознанию по Дамасио. Метод классификаторов (probes) из Explainable AI открывает новые пути изучения “понимания” ИИ.
Но наличие внутренней модели мира не значит, что агент “чувствует” или “сознает” как человек. Однако агенты с такими моделями могут найти неожиданные, нежелательные стратегии. По мере развития таких систем понадобится четкая нормативная база, чтобы отделять безопасные внутренние модели от опасных.
***
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал [11] – там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.
Автор: andre_dataist
Источник [12]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/15109
URLs in this post:
[1] обучения: http://www.braintools.ru/article/5125
[2] “Probing for Consciousness in Machines” : https://arxiv.org/pdf/2411.16262
[3] Теория интегрированной информации (IIT) : https://ru.wikipedia.org/wiki/%D0%A2%D0%B5%D0%BE%D1%80%D0%B8%D1%8F_%D0%B8%D0%BD%D1%82%D0%B5%D0%B3%D1%80%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D0%BE%D0%B9_%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%B8
[4] Теория глобального рабочего пространства (GWT) : https://ru.wikipedia.org/wiki/%D0%A2%D0%B5%D0%BE%D1%80%D0%B8%D1%8F_%D0%B3%D0%BB%D0%BE%D0%B1%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D0%B3%D0%BE_%D1%80%D0%B0%D0%B1%D0%BE%D1%87%D0%B5%D0%B3%D0%BE_%D0%BF%D1%80%D0%BE%D1%81%D1%82%D1%80%D0%B0%D0%BD%D1%81%D1%82%D0%B2%D0%B0#:~:text=Global%20workspace%20theory%20(GWT)),%D0%BF%D1%80%D0%BE%D1%86%D0%B5%D1%81%D1%81%D0%B0%D0%BC%D0%B8%20(%D0%B8%D0%BB%D0%B8%20%D0%BA%D0%BE%D0%B3%D0%BD%D0%B8%D1%82%D0%B8%D0%B2%D0%BD%D1%8B%D0%BC%D0%B8%20%D0%BC%D0%BE%D0%B4%D1%83%D0%BB%D1%8F%D0%BC%D0%B8).
[5] памяти: http://www.braintools.ru/article/4140
[6] восприятием: http://www.braintools.ru/article/7534
[7] эмоции: http://www.braintools.ru/article/9540
[8] подкреплением: http://www.braintools.ru/article/5528
[9] PPO: https://en.wikipedia.org/wiki/Proximal_policy_optimization
[10] RLlib: https://docs.ray.io/en/latest/rllib/index.html
[11] подписывайтесь на мой Telegram-канал: https://t.me/+Yb5L1gT4GptiMzUy
[12] Источник: https://habr.com/ru/articles/908666/?utm_source=habrahabr&utm_medium=rss&utm_campaign=908666
Нажмите здесь для печати.