- BrainTools - https://www.braintools.ru -
Эта статья — лишь первый шаг в моём самостоятельном исследовании искусственного разума. Публикация на Хабре позволит получить конструктивную критику, увидеть слепые зоны и, возможно, найти единомышленников, которые готовы вместе исследовать вопросы разумного поведения [1] в автономных системах.
За последние годы искусственный интеллект [2] перестал быть исключительно исследовательской технологией и стал частью повседневной инфраструктуры. Алгоритмы машинного обучения [3] используются в научных исследованиях, промышленности, медицине, экономике и бытовых сервисах. Языковые модели позволяют взаимодействовать с компьютером на естественном языке, генеративные системы создают тексты и изображения, а робототехнические платформы постепенно выходят за пределы лабораторий.
При этом меня не покидает ощущение, что современные интеллектуальные системы остаются в определённом смысле стерильными. Их обучают на огромных объёмах данных и помещают в среды, которые редко выходят за рамки заранее определённых сценариев. Такие системы демонстрируют впечатляющие результаты в узких задачах — распознавание речи, обработка изображений, генерация контента, — но практически всегда оказываются хрупкими за пределами своей обучающей области.
Особенно это заметно на примере физических агентов. Роботы, успешно работающие в контролируемых условиях, могут теряться в нестандартных ситуациях: не распознавать отражения в зеркалах, ошибаться в оценке геометрии пространства или сталкиваться с неожиданными вариациями привычных объектов, таких как лестницы. Эти сбои не выглядят как недостаток данных или вычислительных ресурсов — скорее как отсутствие способности адекватно действовать в условиях неопределённости.
Ближе всего к тому, что интуитивно можно назвать разумным поведением [4], сегодня находятся большие языковые модели. Однако по своей природе они остаются системами статистического сопоставления: оценивают вероятность продолжения последовательности символов на основе предыдущего контекста, не обладая собственным пониманием мира, в котором эти символы имеют значение. Возникает закономерный вопрос — достаточно ли этого, чтобы говорить о разумности?
В этой статье я не пытаюсь дать определение разуму и не предлагаю конкретную архитектуру интеллектуального агента. Вместо этого я хочу подойти к проблеме с другой стороны — так, как в своё время поступил Алан Тьюринг. Я предлагаю рассмотреть следующий вопрос: существует ли такая задача или класс задач, в которых машина вынуждена демонстрировать разумное поведение, а не просто оптимизировать заранее заданную цель?
Часто можно услышать возражение: современные системы и без того успешно решают практические задачи, так зачем вообще нужен «разум»? Для себя я нахожу два ответа. Первый — познавательный: попытка понять разум является частью более общего стремления человека к пониманию самого себя. Второй — практический: если существует задача, в которой разумное поведение не является опциональным, то рано или поздно человечеству придётся научиться создавать системы, способные такую задачу решать.
Если разумное поведение действительно необходимо не во всех задачах, то возникает следующий логичный шаг: какими свойствами должна обладать задача, чтобы без разумности в ней было невозможно устойчиво действовать?
Вместо того чтобы рассуждать о конкретных архитектурах, алгоритмах или обучающих процедурах, я предлагаю зафиксировать требования к самой задаче. Иначе говоря, не спрашивать, как строить разумного агента, а попытаться ответить на вопрос: в какой задаче агент вынужден быть разумным независимо от внутреннего устройства?
Ниже я описываю минимальную модель такой задачи. Она не претендует на описание реального мира и не является симуляцией конкретных физических или социальных процессов. Её цель — описать взаимодействие агента с миром в условиях неопределённости, изменчивости и отложенных последствий собственных действий.
Важно подчеркнуть, что ниже не предлагается формальная теория в математическом смысле. Целью является строгое, но не формализованное описание структуры задачи и ограничений, в которых разумное поведение становится необходимым.
Прежде чем обсуждать архитектуры, алгоритмы или конкретные реализации агентов, необходимо зафиксировать более фундаментальный вопрос: что в рамках данной модели вообще считается разумным поведением.
В этой работе я сознательно избегаю определений разума через внутреннее устройство системы. Я не предполагаю наличие сознания, самосознания, субъективного опыта [5], символического мышления [6] или каких-либо конкретных когнитивных механизмов. Всё это — предмет отдельных философских и нейронаучных дискуссий.
Вместо этого разумность рассматривается функционально, через поведение агента во взаимодействии с автономным процессом.
В предложенной модели разумным считается не агент «по конструкции», а процесс его поведения во времени.
Агент считается разумным, если он способен:
действовать в среде с неизвестными, изменяющимися и скрытыми правилами;
строить и пересматривать интерпретации происходящего;
учитывать отложенные последствия собственных действий;
адаптироваться к изменениям структуры процесса;
и, главное, длительное время поддерживать собственный ресурс в положительном состоянии.
Разумность в этом смысле — это не бинарное свойство («разумен / неразумен»), а градуируемая характеристика. Один и тот же агент может вести себя разумно в одних условиях и терять разумность в других.
Важно подчеркнуть, что разумность не сводится к точности прогнозов. Агент может корректно предсказывать негативные последствия своих действий и при этом систематически разрушать собственный ресурс. Такое поведение нельзя назвать разумным, даже если предсказания формально верны.
В рамках модели разумность проявляется не в том, что агент угадывает, что произойдёт, а в том, что он выбирает действия, которые в среднем согласуются с сохранением его целостности.
Иными словами, разумный агент — это не тот, кто прав в своих ожиданиях, а тот, чьи ожидания и действия оказываются адекватными реальной структуре автономного процесса.
Отдельно стоит отметить, что разумность в данной модели не тождественна оптимальности.
Классический оптимизатор:
действует при фиксированной функции цели;
предполагает стационарные правила среды;
не пересматривает саму постановку задачи.
Разумный агент, напротив:
не имеет заранее заданной внешней цели, кроме выживания;
вынужден пересматривать свои представления о правилах процесса;
действует в условиях онтологических сдвигов, когда прежние закономерности перестают работать.
Таким образом, система может быть очень эффективным оптимизатором и при этом не быть разумной в смысле данной модели.
Формулы ниже — это нотационная фиксация зависимостей, а не попытка построить математически [7] замкнутую модель. Знак суммы, функции и зависимости используются в описательном смысле.
В первую очередь введём время , которое является дискретной величиной:
. Все процессы протекают во времени, следовательно, и модель среды для агента также должна существовать во времени.
Далее введём среду . Среда — это любое явление, процесс или пространство, которое агент может наблюдать, взаимодействовать с ним и воздействовать на него. Среда автономна: она существует и развивается независимо от агента, не имеет целей помогать или мешать ему и подчиняется собственным правилам, часто неизвестным агенту.
Наличие или отсутствие агента не влияет на автономию среды. Простая аналогия: текущая экономическая ситуация города . Агент — человек — может инвестировать в экономику города или выводить из неё средства, тем самым влияя на будущее состояния среды. Однако если агент временно покинет город, экономика не остановится: она продолжит изменяться, возможно, по новым правилам. Вернувшись, агент столкнётся с той же средой, но уже не узнает её прежнего состояния.
Этот пример иллюстрирует ключевые свойства среды: автономность, изменчивость и необратимую потерю информации при отсутствии наблюдения.
Любую среду можно разложить на независимые, полузависимые или взаимозависимые процессы . Процесс — это минимальное явление среды в рамках данной модели. Тогда среду можно записать как
Например, если рассматривать социальное взаимодействие с человеком как среду (в социологическом, а не биологическом смысле), её можно представить через процессы ,
и
. Эти процессы могут быть связаны между собой различными типами зависимостей.
Каждый процесс обладает собственной динамикой, а любые закономерности, которые агент способен обнаружить, являются побочным эффектом этой внутренней динамики.
Введём понятие интерфейса процесса — способа, с помощью которого процесс сообщает агенту о своём состоянии. Интерфейс не является восприятием [8] агента; это именно канал сообщения со стороны среды. Он обязан отражать тренд процесса, но может существенно отличаться от него по форме.
Примеры интерфейсов: слова, жесты и мимика человека как отражение его внутренних состояний; температура тела как интерфейс процесса движения молекул.
Далее введём влияние агента и масштаб влияния
. Масштаб влияния определяет, насколько сильно конкретное действие агента способно изменить будущую динамику процесса. Влияние агента — это реализация этого воздействия на среду.
И влияние, и масштаб не являются стационарными величинами. Один и тот же агент может обладать разным влиянием в разное время в зависимости от состояния среды. Аналогично, масштаб одного и того же действия может со временем изменяться.
Введём ресурс агента — величину, отражающую согласованность действий агента с реальной структурой автономного процесса. Агент обязан поддерживать ресурс в положительном состоянии:
. При этом агент может наблюдать ресурс лишь косвенно и не способен напрямую управлять им.
Успешность поведения агента проявляется не в совпадении ожиданий с наблюдениями, а в способности выбирать такие действия, которые в среднем поддерживают или увеличивают его ресурс.
Для ресурсов, недоступных прямому наблюдению, вводится интерфейс ресурса — сигнал, функционально связанный с
и достаточный для оценки тенденций и критических состояний.
Интерпретация агента — это совокупность наблюдаемых интерфейсов процессов среды и интерфейсов собственных ресурсов:
Observe — наблюдение без воздействия на среду;
Probe — ограниченное воздействие с целью проверки гипотез;
Commit — значимое действие с отложенными последствиями для среды и ресурса.
Действия observe, probe и commit не требуют расхода ресурса в момент совершения, если противоположное явно не указано в конкретной реализации модели.
Простая аналогия: любые инвестиции требуют ресурса — денег. В то же время, если рассматривать ресурс как «кредит доверия», то мы не обязательно жертвуем им в момент взаимодействия с человеком.
Probe может влиять на ресурс, только расходуя его (если это предусмотрено реализацией), но само по себе не способно приносить ресурс.
Observe фактически эквивалентно бездействию: агент не оказывает влияния на среду и лишь отслеживает её динамику.
Commit может представлять собой множество конкретных действий агента, обладающих различным масштабом влияния:
Однако для среды любое действие из этого множества является просто совершённым воздействием с определённым масштабом. Простая аналогия: рынку не важно, вложили вы деньги или вывели — важно лишь то, что действие было совершено, и среда изменилась соответствующим образом.
Модель, представленная в этой статье, может найти применение в современном ИИ и робототехнике. Автономные агенты, работающие в экономических, социальных или физических средах с высокой неопределённостью, часто сталкиваются с задачами, где классическая оптимизация оказывается недостаточной. Подход, при котором разумное поведение рассматривается как функция условий среды и необходимости поддерживать ресурсы, позволяет формализовать требования к таким системам и оценивать их адаптивность.
В ближайшие годы это может быть полезно для:
разработки робастных роботов, способных действовать в непредсказуемых реальных средах;
создания автономных экономических и социальных симуляций, где агентам требуется адаптивное поведение;
построения систем тестирования и обучения LLM и мультиагентных платформ, где действия агентов имеют отложенные последствия и зависят от скрытых процессов.
Таким образом, предложенная модель не только даёт теоретический ответ на вопрос о существовании задач, требующих разумного поведения, но и предоставляет практический инструмент для проектирования и анализа систем, в которых такое поведение становится необходимостью.
В начале статьи был поставлен вопрос: существует ли такая задача или класс задач, в которых машина вынуждена демонстрировать разумное поведение, а не просто оптимизировать заранее заданную цель?
Предложенная модель позволяет дать на него содержательный ответ.
Если агент взаимодействует с автономной, изменяющейся средой, наблюдает её только через неполные и искажённые интерфейсы, не знает её правил заранее и при этом вынужден длительное время поддерживать собственный ресурс в положительном состоянии, то поведение, сводимое к статической оптимизации, оказывается недостаточным.
В таких условиях агент вынужден интерпретировать происходящее, проверять гипотезы, учитывать отложенные последствия действий и пересматривать свои представления о среде. Эта совокупность требований и формирует разумное поведение — не как свойство внутреннего устройства системы, а как необходимое следствие самой задачи.
Таким образом, да, существуют задачи, в которых разумное поведение не является опциональным. Это задачи выживания в автономных процессах с неопределённой, изменяющейся структурой и отложенными последствиями действий. Любая система, способная устойчиво действовать в таких условиях, будет вынуждена демонстрировать поведение, функционально неотличимое от разумного, независимо от внутренней реализации.
«А обязан считать, что “А мыслит, а В не мыслит”, тогда как В думает, что “В мыслит, а А не мыслит”. Вместо того чтобы постоянно спорить по этому поводу, из вежливости принято предполагать, что все люди мыслят».
— Алан Тьюринг, «Вычислительные машины и разум»
Автор: Tarachoff
Источник [9]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/24482
URLs in this post:
[1] поведения: http://www.braintools.ru/article/9372
[2] интеллект: http://www.braintools.ru/article/7605
[3] обучения: http://www.braintools.ru/article/5125
[4] поведением: http://www.braintools.ru/article/5593
[5] опыта: http://www.braintools.ru/article/6952
[6] мышления: http://www.braintools.ru/thinking
[7] математически: http://www.braintools.ru/article/7620
[8] восприятием: http://www.braintools.ru/article/7534
[9] Источник: https://habr.com/ru/articles/986804/?utm_campaign=986804&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.