Путь к автономному машинному интеллекту

Путь к автономному машинному интеллекту Версия 0.9.2, 2022-06-27

Ян Лекун (Yann LeCun)
Курантовский институт математических наук, Нью-Йоркский университет (Courant Institute of Mathematical Sciences, New York University)
yann@cs.nyu.edu
Meta – Fundamental AI Research
yann@fb.com

27 июня 2022 г.

Аннотация

Как машины могут учиться так же эффективно, как люди и животные? Как машины могут научиться рассуждать и планировать? Как машины могут изучать представления восприятий и планов действий на нескольких уровнях абстракции, что позволит им рассуждать, предсказывать и планировать на различных временных горизонтах? В этой позиционной статье предлагается архитектура и парадигмы обучения для построения автономных интеллектуальных агентов. Она объединяет такие концепции, как конфигурируемая предсказательная модель мира, поведение, движимое внутренней мотивацией, и иерархические архитектуры совместного вложения, обучаемые с помощью самоконтролируемого обучения.

Ключевые слова: Искусственный интеллект, Машинный здравый смысл, Когнитивная архитектура, Глубокое обучение, Самоконтролируемое обучение, Энергетическая модель, Модели мира, Архитектура совместного вложения, Внутренняя мотивация.

1. Пролог

Этот документ не является технической или научной статьей в традиционном смысле, а представляет собой позиционную работу, выражающую мое видение пути к интеллектуальным машинам, которые учатся больше похожим на животных и людей образом, способны рассуждать и планировать, и чье поведение определяется внутренними целями, а не жестко запрограммированными инструкциями, внешним контролем или внешними вознаграждениями. Многие идеи, описанные в этой статье (почти все из них), были сформулированы многими авторами в различных контекстах и в различной форме. Настоящая работа не претендует на приоритет в какой-либо из них, но представляет собой предложение о том, как собрать их в единое целое. В частности, в работе выявляются предстоящие трудности. Также перечисляется ряд направлений, которые, вероятно, будут успешными или неуспешными.

Текст написан с минимальным использованием жаргона и с использованием минимальных предварительных математических знаний, чтобы быть понятным читателям с самым разным образованием, включая нейробиологию, когнитивистику и философию, а также машинное обучение, робототехнику и другие инженерные дисциплины. Я надеюсь, что этот материал поможет лучше понять контекст некоторых исследований в области ИИ, чья значимость иногда неочевидна.

2. Введение

Животные и люди демонстрируют способности к обучению и пониманию мира, которые далеко превосходят возможности современных систем ИИ и машинного обучения (МО).

Как возможно, что подросток учится водить машину примерно за 20 часов практики, а дети учат язык при том, что по сути получают очень мало речевого воздействия? Как получается, что большинство людей знают, как действовать во многих ситуациях, с которыми они никогда раньше не сталкивались? Напротив, чтобы быть надежными, современные системы МО должны быть обучены на очень большом количестве попыток, чтобы даже самые редкие комбинации ситуаций часто встречались во время обучения. Тем не менее, наши лучшие системы МО все еще очень далеки от соответствия надежности человека в реальных задачах, таких как вождение, даже после того, как они были снабжены огромным количеством контрольных данных от экспертов-людей, после прохождения миллионов испытаний обучения с подкреплением в виртуальных средах и после того, как инженеры жестко прописали в них сотни вариантов поведения.

Ответ может заключаться в способности людей и многих животных изучать модели мира — внутренние модели того, как работает мир.

Сегодня исследования ИИ должны решить три основные проблемы:

Как машины могут научиться представлять мир, научиться предсказывать и научиться действовать в значительной степени посредством наблюдения?

Взаимодействия в реальном мире дороги и опасны; интеллектуальные агенты должны узнать как можно больше о мире без взаимодействия (путем наблюдения), чтобы свести к минимуму количество дорогих и опасных попыток, необходимых для изучения конкретной задачи.

  1. Как машина может рассуждать и планировать способами, совместимыми с обучением на основе градиентов?

Наши лучшие подходы к обучению полагаются на оценку и использование градиента функции потерь, что может быть выполнено только с помощью дифференцируемых архитектур и с трудом согласуется с логическими символьными рассуждениями.

  1. Как машины могут научиться представлять восприятия и планы действий иерархическим образом, на нескольких уровнях абстракции и в нескольких временных масштабах?

Люди и многие животные способны conceive (замышлять/создавать) многоуровневые абстракции, с помощью которых долгосрочные предсказания и долгосрочное планирование могут осуществляться путем разложения сложных действий на последовательности действий более низкого уровня.

В настоящей работе предлагается архитектура для интеллектуальных агентов с возможными решениями всех трех проблем.

Основные вклады этой статьи заключаются в следующем:

  1. Общая когнитивная архитектура, в которой все модули дифференцируемы и многие из них обучаемы (Раздел 3, Рисунок 2).

  2. JEPA и Иерархическая JEPA: негенеративная архитектура для предсказательных моделей мира, которая изучает иерархию представлений (Разделы 4.4 и 4.6, Рисунки 12 и 15).

  3. Неконтрастная парадигма самоконтролируемого обучения, которая создает представления, являющиеся одновременно информативными и предсказуемыми (Раздел 4.5, Рисунок 13).

  4. Способ использования H-JEPA в качестве основы для предсказательных моделей мира для иерархического планирования в условиях неопределенности (Раздел 4.7, Рисунки 16 и 17).

Нетерпеливые читатели могут сразу перейти к упомянутым разделам и рисункам.

2.1 Изучение моделей мира

Люди и животные, по-видимому, способны изучать огромное количество базовых знаний о том, как работает мир, посредством наблюдения и через непостижимо малое количество взаимодействий, не зависящим от задач, неконтролируемым образом. Можно предположить, что эти накопленные знания могут составлять основу того, что часто называют здравым смыслом. Здравый смысл можно рассматривать как набор моделей мира, которые могут сказать агенту, что вероятно, что правдоподобно, а что невозможно. Используя такие модели мира, животные могут изучать новые навыки с очень небольшим количеством попыток. Они могут предсказывать последствия своих действий, они могут рассуждать, планировать, исследовать и воображать новые решения проблем. Что важно, они также могут избегать совершения опасных ошибок при столкновении с неизвестной ситуацией.

Идея о том, что люди, животные и интеллектуальные системы используют модели мира, восходит к давним временам в психологии (Craik, 1943). Использование прямых моделей, которые предсказывают следующее состояние мира как функцию текущего состояния и рассматриваемого действия, было стандартной процедурой в оптимальном управлении с 1950-х годов (Bryson and Ho, 1969) и носит название управления с предсказанием модели (model-predictive control). Использование дифференцируемых моделей мира в обучении с подкреплением долгое время игнорировалось, но вновь набирает популярность (см., например, (Levine, 2021)).

Система автопилота для автомобилей может потребовать тысячи испытаний обучения с подкреплением, чтобы узнать, что слишком быстрая езда на повороте приведет к плохому результату, и научиться замедляться, чтобы избежать заноса. Напротив, люди могут использовать свое интимное знание интуитивной физики, чтобы предсказать такие результаты, и в значительной степени избегать фатальных действий при изучении нового навыка.

Знания здравого смысла позволяют животным не только предсказывать будущие результаты, но и восполнять недостающую информацию, будь то во времени или в пространстве. Это позволяет им создавать интерпретации восприятий, которые согласуются со здравым смыслом. Столкнувшись с неоднозначным восприятием, здравый смысл позволяет животным отбросить интерпретации, которые не соответствуют их внутренней модели мира, и обратить особое внимание, так как это может указывать на опасную ситуацию и возможность для уточнения модели мира.

Я утверждаю, что разработка парадигм обучения и архитектур, которые позволили бы машинам изучать модели мира неконтролируемым (или самоконтролируемым) образом и использовать эти модели для предсказания, рассуждений и планирования, является одной из главных проблем ИИ и МО сегодня. Одним из основных технических препятствий является то, как разработать обучаемые модели мира, которые могут справляться со сложной неопределенностью в предсказаниях.

2.2 Люди и животные изучают иерархии моделей

Люди и животные изучают базовые знания о том, как работает мир, в первые дни, недели и месяцы жизни. Хотя огромное количество таких знаний приобретается довольно быстро, они кажутся настолько фундаментальными, что мы считаем их само собой разумеющимися. В первые несколько месяцев жизни мы узнаем, что мир трехмерен. Мы узнаем, что каждый источник света, звука и осязания в мире находится на определенном расстоянии от нас. Тот факт, что каждая точка визуального восприятия имеет расстояние, является лучшим объяснением того, как наше восприятие мира меняется при переходе от левого глаза к правому или когда двигается наша голова. Параллактическое движение делает глубину очевидной, что, в свою очередь, делает очевидным понятие объекта, а также тот факт, что объекты могут перекрывать более удаленные. Как только существование объектов установлено, они могут быть автоматически отнесены к широким категориям в зависимости от их внешнего вида или поведения. Поверх понятия объекта возникает знание о том, что объекты не появляются, не исчезают, не меняют форму и не телепортируются самопроизвольно: они движутся плавно и могут находиться только в одном месте в любой момент времени. После усвоения таких концепций становится легко узнать, что некоторые объекты статичны, некоторые имеют предсказуемые траектории (неодушевленные объекты), некоторые ведут себя несколько непредсказуемо (коллективные явления, такие как вода, песок, листья деревьев на ветру и т. д.), а некоторые, кажется, подчиняются другим правилам (одушевленные объекты). На этой основе могут возникнуть понятия интуитивной физики, такие как устойчивость, гравитация, инерция и другие. Влияние одушевленных объектов на мир (включая влияние собственных действий субъекта) может быть использовано для вывода причинно-следственных связей, на основе которых могут быть приобретены лингвистические и социальные знания.

Путь к автономному машинному интеллекту - 1

На Рисунке 1, предоставленном Эммануэлем Дюпу (Emmanuel Dupoux), показано, в каком возрасте младенцы, по-видимому, усваивают базовые концепции, такие как постоянство объекта, базовые категории, интуитивная физика и т. д. Концепции более высоких уровней абстракции, по-видимому, развиваются на основе концепций более низких уровней.

Обладая этими знаниями о мире, в сочетании с простыми врожденными поведенческими схемами и внутренними мотивациями/целями, животные могут быстро изучать новые задачи, предсказывать последствия своих действий и планировать наперед, предвидя успешные сценарии действий и избегая опасных ситуаций.

Но может ли человеческий или животный мозг содержать все модели мира, необходимые для выживания? Одна из гипотез в этой статье заключается в том, что у животных и людей есть только один механизм модели мира, где-то в их префронтальной коре. Этот механизм модели мира динамически конфигурируется для текущей задачи. С помощью единственного конфигурируемого механизма модели мира, а не отдельной модели для каждой ситуации, знания о том, как работает мир, могут быть общими для разных задач. Это может позволить рассуждать по аналогии, применяя модель, настроенную для одной ситуации, к другой ситуации.

Чтобы сделать вещи конкретными, я сразу перейду к описанию предложенной модели.

Путь к автономному машинному интеллекту - 2

Figure 2: Системная архитектура автономного интеллекта. Предполагается, что все модули в этой модели являются “дифференцируемыми”, в том смысле, что модуль, передающий данные в другой (через соединяющую их стрелку), может получать оценки градиентов скалярного выхода стоимости по отношению к собственному выходу.

Модуль конфигуратора получает входные данные (не показаны для наглядности) от всех остальных модулей и настраивает их для выполнения текущей задачи.

Модуль восприятия оценивает текущее состояние мира.

Модуль модели мира предсказывает возможные будущие состояния мира как функцию последовательностей воображаемых действий, предложенных актором.

Модуль стоимости вычисляет единственный скалярный выход, называемый “энергией”, который измеряет уровень дискомфорта агента. Он состоит из двух подмодулей: внутренней стоимости, которая является неизменной (необучаемой) и вычисляет мгновенную энергию текущего состояния (боль, удовольствие, голод и т. д.), и критика (critic), обучаемого модуля, который предсказывает будущие значения внутренней стоимости.

Модуль краткосрочной памяти отслеживает текущие и предсказанные состояния мира, а также соответствующие внутренние стоимости.

Модуль актора (actor) вычисляет предложения для последовательностей действий. Модель мира и критик вычисляют возможные результаты. Актор может найти оптимальную последовательность действий, которая минимизирует оценочную будущую стоимость, и выводит первое действие в оптимальной последовательности.

Подробности см. в Разделе 3.

3. Архитектура модели автономного интеллекта

Предлагаемая архитектура для автономных интеллектуальных агентов изображена на Рисунке 2.

Она состоит из ряда модулей, функции которых описаны ниже. Некоторые модули конфигурируются на лету, т. е. их точная функция определяется модулем конфигуратора. Роль конфигуратора — исполнительный контроль: учитывая задачу, которую нужно выполнить, он предварительно настраивает восприятие, модель мира, стоимость и актора для текущей задачи. Конфигуратор модулирует параметры модулей, в которые он направляет данные.

Модуль конфигуратора получает входные данные от всех остальных модулей и настраивает их для текущей задачи, модулируя их параметры и контуры внимания. В частности, конфигуратор может подготовить систему восприятия, модель мира и модули стоимости для достижения определенной цели.

Модуль восприятия получает сигналы от сенсоров и оценивает текущее состояние мира. Для данной задачи актуальна и полезна лишь небольшая часть воспринимаемого состояния мира. Модуль восприятия может представлять состояние мира иерархически, на нескольких уровнях абстракции. Конфигуратор настраивает систему восприятия на извлечение актуальной информации из восприятия для текущей задачи.

Модуль модели мира является самой сложной частью архитектуры. Его роль двояка: (1) оценивать недостающую информацию о состоянии мира, не предоставленную восприятием, (2) предсказывать правдоподобные будущие состояния мира. Модель мира может предсказывать естественную эволюцию мира или будущие состояния мира, возникающие в результате последовательности действий, предложенной модулем актора. Модель мира может предсказывать несколько правдоподобных состояний мира, параметризованных латентными переменными, которые представляют неопределенность в отношении состояния мира. Модель мира — это своего рода “симулятор” релевантных аспектов мира. Какие аспекты состояния мира релевантны, зависит от текущей задачи. Конфигуратор настраивает модель мира для обработки текущей ситуации. Предсказания выполняются в абстрактном пространстве представлений, содержащем информацию, актуальную для текущей задачи. В идеале модель мира оперирует представлениями состояния мира на нескольких уровнях абстракции, что позволяет ей предсказывать в разных временных масштабах.

Ключевой вопрос заключается в том, что модель мира должна уметь представлять несколько возможных предсказаний состояния мира. Естественный мир не полностью предсказуем. Это особенно верно, если он содержит других интеллектуальных агентов, которые могут быть антагонистичны. Но это часто верно, даже когда мир содержит только неодушевленные объекты, поведение которых хаотично, или состояние которых не полностью наблюдаемо.

Существует два основных вопроса, на которые нужно ответить при построении предлагаемых архитектур: (1) Как позволить модели мира делать несколько правдоподобных предсказаний и представлять неопределенность в предсказаниях, и (2) как обучать модель мира.

Модуль стоимости измеряет уровень “дискомфорта” агента в виде скалярной величины, называемой энергией. Энергия — это сумма двух энергетических членов, вычисляемых двумя подмодулями: модулем внутренней стоимости (Intrinsic Cost) и обучаемым модулем критика (Trainable Critic). Общая цель агента — совершать действия, чтобы оставаться в состояниях, минимизирующих среднюю энергию.

Модуль внутренней стоимости является врожденным (неизменным, необучаемым) и вычисляет один скаляр — внутреннюю энергию, которая измеряет мгновенный “дискомфорт” агента — представьте боль (высокая внутренняя энергия), удовольствие (низкая или отрицательная внутренняя энергия), голод и т. д. Входом для модуля является текущее состояние мира, произведенное модулем восприятия, или потенциальные будущие состояния, предсказанные моделью мира. Конечная цель агента — минимизировать внутреннюю стоимость в долгосрочной перспективе. Именно здесь находятся базовые поведенческие драйвы и внутренние мотивации. Дизайн модуля внутренней стоимости определяет природу поведения агента. Базовые драйвы могут быть врожденными в этом модуле. Это может включать ощущение “хорошего” (низкая энергия) при стоянии, чтобы мотивировать шагающего робота ходить, при влиянии на состояние мира, чтобы мотивировать субъектность, при взаимодействии с людьми, чтобы мотивировать социальное поведение, при восприятии радости у находящихся рядом людей, чтобы мотивировать эмпатию, при наличии полного запаса энергии (голод/сытость), при столкновении с новой ситуацией, чтобы мотивировать любопытство и исследование, при выполнении определенной программы и т. д. И наоборот, энергия будет высокой при столкновении с болезненной ситуацией или легко распознаваемой опасной ситуацией (близость к экстремальному жару, огню и т. д.), или при использовании опасных инструментов. Модуль внутренней стоимости может модулироваться конфигуратором для управления разным поведением в разное время.

Обучаемый модуль критика предсказывает оценку будущих внутренних энергий. Как и внутренняя стоимость, его входом является либо текущее состояние мира, либо возможные состояния, предсказанные моделью мира. Для обучения критик извлекает прошлые состояния и последующие внутренние стоимости, сохраненные в модуле ассоциативной памяти, и тренируется предсказывать последние на основе первых. Функция модуля критика может быть динамически сконфигурирована конфигуратором для направления системы к определенной подцели как части более крупной задачи.

Поскольку оба подмодуля модуля стоимости дифференцируемы, градиент энергии может быть распространен обратно через другие модули, в частности через модель мира, актора и восприятие, для планирования, рассуждений и обучения.

Модуль краткосрочной памяти хранит актуальную информацию о прошлых, текущих и будущих состояниях мира, а также соответствующее значение внутренней стоимости. Модель мира обращается к краткосрочной памяти и обновляет ее, временно предсказывая будущие (или прошлые) состояния мира, а также пространственно восполняя недостающую информацию или исправляя несогласованную информацию о текущем состоянии мира. Модель мира может отправлять запросы в краткосрочную память и получать извлеченные значения или сохранять новые значения состояний. Модуль критика может быть обучен путем извлечения прошлых состояний и связанных с ними внутренних стоимостей из памяти. Архитектура может быть похожа на архитектуру сетей с ключ-значение памятью (Key-Value Memory Networks) (Miller et al., 2016). Этот модуль можно рассматривать как выполняющий некоторые из тех же функций, что и гиппокамп у позвоночных.

Модуль актора вычисляет предложения для последовательностей действий и выводит действия на эффекторы. Актор предлагает последовательность действий для модели мира. Модель мира предсказывает последовательности будущих состояний мира из последовательности действий и передает их модулю стоимости. Учитывая цель, определенную модулем стоимости (как настроено конфигуратором), модуль стоимости вычисляет оценочную будущую энергию, связанную с предложенной последовательностью действий. Поскольку у актора есть доступ к градиенту оценочной стоимости по отношению к предложенной последовательности действий, он может вычислить оптимальную последовательность действий, которая минимизирует оценочную стоимость, используя методы на основе градиента. Если пространство действий дискретно, для поиска оптимальной последовательности действий может использоваться динамическое программирование. После завершения оптимизации актор выводит первое действие (или короткую последовательность действий) на эффекторы. Этот процесс аналогичен управлению с предсказанием модели (model-predictive control) в оптимальном управлении (Bryson and Ho, 1969).

Путь к автономному машинному интеллекту - 3

Figure 3: Эпизод восприятия-действия в Режиме-1. Модуль восприятия оценивает состояние мираs[0]=operatorname{Enc}(x). Актор напрямую вычисляет действие или короткую последовательность действий через модуль политикиa[0]=A(s[0]).

Этот реактивный процесс не использует модель мира или модуль стоимости. Модуль стоимости вычисляет энергию начального состоянияf[0]=mathrm{C}(s[0])и сохраняет пары(s[0],f[0])в краткосрочной памяти. По желанию он также может предсказать следующее состояние, используя модель мираs[1]=mathrm{Pred}(s[0],a[0]), и соответствующую энергиюf[0]=mathrm{C}(s[0]), чтобы модель мира могла быть скорректирована после того, как станет доступно следующее наблюдение, полученное в результате предпринятого действия.

Актор может состоять из двух компонентов: (1) модуля политики, который напрямую производит действие из оценки состояния мира, полученной восприятием и извлеченной из краткосрочной памяти, и (2) оптимизатора действий, как описано выше, для управления с предсказанием модели. Первый режим похож на “Систему 1” Даниэля Канемана, а второй режим похож на “Систему 2” (Kahneman, 2011).

Далее мы будем использовать специальные символы для обозначения различных компонентов на архитектурных диаграммах. Краткое объяснение приведено в Приложении 8.3.3.

3.1 Типичные циклы восприятия-действия

Существует два возможных режима, которые модель может использовать для эпизода восприятия-действия. Первый не включает сложных рассуждений и производит действие напрямую из выхода восприятия и возможного доступа к краткосрочной памяти. Мы будем называть его “Режим-1” по аналогии с “Системой 1” Канемана. Второй режим включает рассуждения и планирование через модель мира и модуль стоимости. Он аналогичен управлению с предсказанием модели (MPC) — классической парадигме планирования и рассуждений в оптимальном управлении и робототехнике. Мы будем называть его “Режим-2” по аналогии с “Системой 2” Канемана. Мы используем термин “рассуждения” здесь в широком смысле, подразумевая удовлетворение ограничений (или минимизацию энергии). Многие типы рассуждений можно рассматривать как формы минимизации энергии.

3.1.1 Режим-1: Реактивное поведение

Эпизод восприятия-действия для Режима-1 изображен на Рисунке 3.

Модуль восприятия через модуль кодировщика извлекает представление состояния мираs[0]=operatorname{Enc}(x), содержащее актуальную информацию для текущей задачи. Модуль политики, компонент актора, производит действие как функцию состоянияa[0]=A(s[0]). Результирующее действие отправляется на эффекторы.

Функция модуля политики модулируется конфигуратором, который настраивает его для текущей задачи.

Модуль политики реализует чисто реактивную политику, которая не включает намеренного планирования или предсказания через модель мира. Тем не менее, его структура может быть довольно сложной. Например, в дополнение к состояниюs[0], модуль политики может обращаться к краткосрочной памяти для получения более полной информации о предыдущих состояниях мира. Он может использовать краткосрочную память для ассоциативного извлечения действия, данного текущему состоянию.

Хотя модуль стоимости дифференцируем, его выходf[0]=C(s[0])косвенно зависит от предыдущих действий через внешний мир. Поскольку мир не дифференцируем, нельзя распространять градиенты от стоимости через цепочку стоимостьleftarrowвосприятиеleftarrowмирleftarrowдействие. В этом режиме градиенты стоимостиf[0]по отношению к действиям могут быть оценены только путем опроса мира с помощью множества возмущенных действий, но это медленно и потенциально опасно. Этот процесс соответствовал бы классическим методам градиента политики в обучении с подкреплением.

Во время Режима-1 система может по желанию корректировать модель мира. Она запускает модель мира на один шаг, предсказывая следующее состояниеs[1], затем она ждет следующего восприятия, полученного в результате предпринятого действия, и использует наблюдаемое состояние мира в качестве цели для предиктора.

Используя модель мира, агент может воображать сценарии действий и предсказывать их эффект и результат, уменьшая потребность в выполнении дорогого и опасного поиска хороших действий и политик путем испытания множества действий во внешнем мире и измерения результата.

3.1.2 Режим-2: рассуждения и планирование с использованием модели мира

Типичный эпизод восприятия-действия для Режима-2 изображен на Рисунке 4.

  1. восприятие: система восприятия извлекает представление текущего состояния мираs[0]=P(x). Модуль стоимости вычисляет и сохраняет непосредственную стоимость, связанную с этим состоянием.

  2. предложение действия: актор предлагает начальную последовательность действий для подачи в модель мира для оценки( a[0],dots,a[t],dots,a[T])

  3. симуляция: модель мира предсказывает одну или несколько вероятных последовательностей представлений состояния мира, возникающих в результате предложенной последовательности действий( s[1],dots,s[t],dots,s[T])

  4. оценка: модуль стоимости оценивает общую стоимость из предсказанной последовательности состояний, обычно как сумму по временным шагамF ( x )=sum_{t=1}^{T} C ( s [ t ] )

  5. планирование: актор предлагает новую последовательность действий с более низкой стоимостью. Это можно сделать с помощью процедуры на основе градиента, в которой градиенты стоимости распространяются обратно через вычислительный граф к переменным действия. Результирующая последовательность действий с минимальной стоимостью обозначается(check{a}[0],dots ,check{a}[T]). Полная оптимизация может потребовать итерации шагов 2-5.

  6. действие: после сходимости к последовательности действий с низкой стоимостью актор отправляет первое действие (или первые несколько действий) в последовательности с низкой стоимостью на эффекторы. Весь процесс повторяется для следующего эпизода восприятия-действия.

  7. память: после каждого действия состояния и соответствующие стоимости от внутренней стоимости и критика сохраняются в краткосрочной памяти. Эти пары могут быть использованы позже для обучения или адаптации критика.

    Путь к автономному машинному интеллекту - 24

    Figure 4: Эпизод восприятия-действия в Режиме-2. Модуль восприятия оценивает состояние мира s[0]. Актор предлагает последовательность действий a[0], a[1],…,a[t],a[t+1],…,a[T]. Модель мира рекурсивно предсказывает оценку последовательности состояний мира, используя s[t+1] = Pred(s[t],a[t]). Стоимость C(s[t]) вычисляет энергию для каждого предсказанного состояния в последовательности, общей энергией является их сумма. С помощью процедуры оптимизации или поиска актор выводит последовательность действий, которая минимизирует общую энергию. Затем он отправляет первое действие в последовательности (или первые несколько действий) на эффекторы. Это, по сути, классическое управление с предсказанием модели с планированием на скользящем горизонте. Поскольку стоимость и модель дифференцируемы, можно использовать методы на основе градиента для поиска оптимальных последовательностей действий, как в классическом оптимальном управлении. Поскольку полная энергия аддитивна во времени, также можно использовать динамическое программирование, особенно когда пространство действий мало и дискретизировано. Пары состояний (вычисленные кодировщиком или предсказанные предиктором) и соответствующие энергии от внутренней стоимости и обучаемого критика сохраняются в краткосрочной памяти для последующего обучения критика.

Эта процедура по сути представляет собой то, что в литературе по оптимальному управлению известно как управление с предсказанием модели (MPC) с скользящим горизонтом. Отличие от классического оптимального управления заключается в том, что модель мира и функция стоимости изучаются.

В принципе, для шага 5 может использоваться любая форма стратегии оптимизации. Хотя методы оптимизации на основе градиента могут быть эффективными, когда модель мира и стоимость ведут себя корректно, ситуации, в которых отображение действие-стоимость имеет разрывы, могут потребовать использования других стратегий оптимизации, особенно если пространства состояний и/или действий могут быть дискретизированы. Эти стратегии включают динамическое программирование, комбинаторную оптимизацию, имитацию отжига и другие методы без градиентов, эвристические методы поиска (например, поиск по дереву с отсечением) и т. д.

Для упрощения процесс был описан в детерминированном случае, т. е. когда нет необходимости учитывать возможность множественных предсказаний для s[t+1], возникающих из заданного начального состояния s[t] и действия a[t]. В реальных ситуациях мир, вероятно, будет несколько непредсказуемым. Несколько состояний могут возникнуть из одного начального состояния и действия из-за того, что мир внутренне стохастичен (алеаторная неопределенность), или что представление состояния s[t] содержит неполную информацию о истинном состоянии мира (эпистемическая неопределенность), или что точность предсказания модели мира несовершенна из-за ограниченных обучающих данных, репрезентативной способности или вычислительных ограничений.

Путь к автономному машинному интеллекту - 25

Figure 5: Обучение реактивного модуля политики на основе результата рассуждений в Режиме-2. Использование Режима-2 обременительно, поскольку оно мобилизует все ресурсы агента для текущей задачи. Это включает многократный запуск модели мира на множестве временных шагов. На этой диаграмме показано, как обучить модуль политикиA ( s [ t ] )аппроксимировать действие, которое является результатом оптимизации в Режиме-2. Система сначала работает в Режиме-2 и производит оптимальную последовательность действий( check{a} [ 0 ], dots , check{a} [ T ] ). Затем параметры модуля политики настраиваются на минимизацию расхожденияD ( check{a} [ t ] ),A ( s [ t ] )между оптимальным действием и выходом модуля политики. Это приводит к созданию модуля политики, который выполняет амортизированный вывод и производит приближение для хорошей последовательности действий. Затем модуль политики может использоваться для реактивного производства действий в Режиме-1 или для инициализации последовательности действий перед выводом в Режиме-2 и, таким образом, ускорения оптимизации.

3.1.3 От Режима-2 к Режиму-1: Изучение новых навыков

Использование Режима-2 обременительно. Агент обладает только одним “движителем” модели мира. Он конфигурируется конфигуратором для текущей задачи, но может использоваться только для одной задачи за раз. Следовательно, подобно людям, агент может фокусироваться только на одной сложной задаче одновременно.

Режим-1 значительно менее обременителен, так как требует только одного прохода через модуль политики. Агент может иметь несколько модулей политики, работающих одновременно, каждый из которых специализирован для определенного набора задач.

Процесс, описанный на Рисунке 5, показывает, как модуль политикиA ( s [ t ] )может быть обучен производить аппроксимации оптимальных действий, являющихся результатом рассуждений в Режиме-2. Система работает в Режиме-2, производя оптимальную последовательность действий(check{a}[0],dots,check{a}[t],dots,check{a}[T]). Затем параметры модуля политикиA ( s [ t ] )обновляются для минимизации меры расхождения между его выходом и оптимальным действием в этот момент времениD (check{a}[t],A ( s [ t ] )). После надлежащего обучения модуль политики может использоваться для непосредственного производства действия в Режиме-1tilde{a}[0]=A ( s [ 0 ] ). Он также может использоваться для рекурсивного вычисления начального предложения последовательности действий перед оптимизацией в Режиме-2:

s [ t + 1 ]=operatorname {P r e d} left(s [ t ], a [ t ]right); quad tilde {a} [ t + 1 ]=A left(s [ t + 1 ]right)

Модуль политики можно рассматривать как выполняющий форму амортизированного вывода.

Этот процесс позволяет агенту использовать всю мощь своей модели мира и возможностей рассуждения для приобретения новых навыков, которые затем “компилируются” в реактивный модуль политики, который больше не требует тщательного планирования.

3.1.4 Рассуждения как минимизация энергии

Путь к автономному машинному интеллекту - 36

Рисунок 6: Архитектура модуля затрат. Модуль затрат состоит из внутреннего модуля затрат, который является неизменнымmathrm{I C}_{i}(s)(слева), и критика или обучаемого модуля затратmathrm{T C}_{j}(s)(справа), который поддается обучению. Как IC, так и TC состоят из нескольких подмодулей, выходные энергии которых линейно комбинируются. Каждый подмодуль придает агенту определенное поведенческое стремление. Веса в линейной комбинации,u_{i}иv_{j}, определяются модулем конфигуратора и позволяют агенту сосредоточиться на разных подцелях в разное время.

Процесс выработки подходящей последовательности действий в Режиме-2 можно рассматривать как форму рассуждений. Эта форма рассуждений основана на симуляции с использованием модели мира и оптимизации энергии по отношению к последовательностям действий. В более общем смысле “действия” можно рассматривать как латентные переменные, представляющие абстрактные преобразования из одного состояния в следующее. Этот тип планирования через симуляцию и оптимизацию может составлять тот вид рассуждений, который наиболее часто встречается в естественном интеллекте.

Многие классические формы рассуждений в ИИ на самом деле могут быть сформулированы как задачи оптимизации (или задачи удовлетворения ограничений). Это определенно верно для вероятностного вывода, выполняемого с факторными графами и вероятностными графическими моделями. Предлагаемая архитектура фактически является факторным графом, в котором модули стоимости являются логарифмическими множителями. Но тип рассуждений, который позволяет предлагаемая архитектура, выходит за рамки традиционных логических и вероятностных рассуждений. Она позволяет рассуждать через симуляцию и по аналогии.

3.2 Модуль стоимости как драйвер поведения

Общая архитектура модуля стоимости показана на Рисунке 6. Он состоит из модуля внутренней стоимости, который является неизменнымmathrm{I C}_{i}(s), и критика или обучаемой стоимостиmathrm{T C}_{j}(s), которая является обучаемой. И IC, и TC состоят из нескольких подмодулей, выходные энергии которых линейно комбинируются

C (s)=mathrm {I C} (s) + mathrm {T C} (s)mathrm {I C} (s)=sum_ {i=1} ^ {k} u _ {i} mathrm {I C} _ {i} (s)mathrm {T C} (s)=sum_ {j=1} ^ {l} v _ {j} mathrm {T C} _ {j} (s)

Каждый подмодуль придает агенту определенную поведенческую мотивацию. Веса в линейной комбинации,u_{i}иv_{j}, модулируются модулем конфигуратора и позволяют агенту фокусироваться на различных подцелях в разное время.

Модуль внутренней стоимости (IC) — это то, где определяется базовая поведенческая природа агента. Здесь косвенно задаются базовые виды поведения.

Для робота эти члены включали бы очевидные проприоцептивные измерения, соответствующие “боли”, “голоду” и “инстинктивным страхам”, измеряющие такие вещи, как перегрузки от внешних сил, опасные электрические, химические или тепловые среды, чрезмерное потребление энергии, низкий уровень запасов энергии в источнике питания и т. д.

Они также могут включать базовые драйвы, помогающие агенту изучать базовые навыки или выполнять свои миссии. Например, шагающий робот может включать внутреннюю стоимость, побуждающую его вставать и ходить. Это также может включать социальные драйвы, такие как поиск компании людей, вознаграждение от взаимодействия с людьми и похвалы от них, и ощущение их боли неприятным (сродни эмпатии у социальных животных). Другие внутренние поведенческие драйвы, такие как любопытство или совершение действий, имеющих наблюдаемый эффект, могут быть включены для максимизации разнообразия ситуаций, на которых обучается модель мира (Gottlieb et al., 2013).

IC можно рассматривать как играющий роль, аналогичную роли миндалевидного тела в мозге млекопитающих и подобных структур у других позвоночных.

Чтобы предотвратить своего рода поведенческий коллапс или неконтролируемый дрейф в сторону плохого поведения, IC должен быть неизменным и не подлежать обучению (а также внешним модификациям).

Роль критика (TC) двояка: (1) предвидеть долгосрочные результаты с минимальным использованием ресурсоемкой модели мира, и (2) позволить конфигуратору заставить агента сосредоточиться на достижении подцелей с изученной стоимостью.

В целом поведенческая природа ИИ-агента может быть задана четырьмя способами:

  1. путем явного программирования определенного поведения, активируемого при выполнении определенных условий

  2. путем определения целевой функции таким образом, чтобы желаемое поведение выполнялось агентом в результате нахождения последовательностей действий, минимизирующих цель.

  3. путем обучения агента вести себя определенным образом под прямым контролем. Агент наблюдает за действиями учителя-эксперта и обучает модуль политики Режима-1 воспроизводить его.

  4. путем обучения агента через имитационное обучение. Агент наблюдает за учителями-экспертами и выводит целевую функцию, которую, судя по всему, оптимизирует их поведение при действии. Это создает подмодуль критика для поведения в Режиме-2. Этот процесс иногда называют обратным обучением с подкреплением.

Второй метод значительно проще в инженерном плане, чем первый, поскольку он требует лишь разработки цели, а не полного поведения. Второй метод также более надежен: предопределенное поведение может быть аннулировано неожиданными условиями или изменяющейся средой. С целью агент может адаптировать свое поведение для удовлетворения цели, несмотря на неожиданные условия и изменения в среде. Второй метод использует способности агента к обучению и выводу, чтобы минимизировать количество априорных знаний, жестко заложенных проектировщиком, которые могут быть хрупкими.

3.3 Обучение критика

Путь к автономному машинному интеллекту - 48

Рисунок 7: Обучение критика. Во время эпизодов планирования модуль внутренней стоимости сохраняет тройки (время, состояние, внутренняя энергия):(tau,s_{tau},IC(s_{tau}))в ассоциативной кратковременной памяти. Во время эпизодов обучения критика критика извлекает вектор прошлого состоянияs_{tau}вместе с внутренней энергией в более поздний момент времениmathrm{IC}(s_{tau+delta}). В простейшем сценарии критик корректирует свои параметры, чтобы минимизировать меру расхождения между целевым значениемmathrm{IC}(s_{tau+delta})и прогнозируемой энергиейmathrm{C}(s_{tau}). В более сложных схемах он может использовать комбинации будущих внутренних энергий в качестве целевых значений. Обратите внимание, что последовательность состояний может содержать информацию о действиях, запланированных или предпринятых агентом.

Существенный вопрос — как обучать критика.

Главная роль критика — предсказывать будущие значения внутренней энергии. Для этого он использует модуль краткосрочной памяти. Этот модуль представляет собой ассоциативную память, в которую модуль внутренней стоимости сохраняет триплеты (время, состояние, внутренняя энергия):(tau,s_{tau},IC(s_{tau})). Сохраненные состояния и соответствующие внутренние энергии могут соответствовать воспринятому состоянию или состоянию, воображенному моделью мира во время эпизода Режима-2. Память может извлекать состояниеs_{tau}по времениtauи может извлекать энергиюIC(s_{tau})по времениtauили состояниюs_{tau}. При подходящей архитектуре памяти извлечение может включать интерполяцию ключей и извлекаемых значений. Процесс показан на Рисунке 7.

Критик может быть обучен предсказывать будущие значения внутренней энергии путем извлечения вектора прошлого состоянияs_{tau}вместе с внутренней энергией в более позднее времяmathrm{IC}(s_{tau +delta}). Затем параметры критика могут быть оптимизированы для минимизации потерь предсказания, например| IC(s_{tau +delta})- TC(s_{tau})|^{2}. Это простой сценарий. Можно разработать более сложные схемы для предсказания ожиданий дисконтированных будущих энергий или их распределений. Обратите внимание, что векторы состояния могут содержать информацию о действиях, предпринятых или воображенных актором.

На общем уровне это похоже на методы обучения критика, используемые в таких подходах обучения с подкреплением, как A2C.

Краткосрочная память может быть реализована как модуль памяти в сети ключ-значение памяти: вектор запроса сравнивается с рядом ключевых векторов, создавая вектор оценок. Оценки нормализуются и используются как коэффициенты для вывода линейной комбинации сохраненных значений. Это можно рассматривать как “мягкую” ассоциативную память, способную к интерполяции. Одним из преимуществ этого является то, что при правильной схеме выделения новых слотов ключ/значение она способна к однократному обучению, но при этом может интерполировать между ключами и является сквозной дифференцируемой.

4. Проектирование и обучение Модели Мира

Можно утверждать, что проектирование архитектур и парадигм обучения для модели мира представляет собой главное препятствие на пути реального прогресса в ИИ в ближайшие десятилетия. Одним из основных вкладов данного предложения является именно иерархическая архитектура и процедура обучения моделей мира, которые могут представлять множество исходов в своих предсказаниях.

Обучение модели мира — это типичный пример Самоконтролируемого обучения, основная идея которого заключается в завершении шаблона (pattern completion). Предсказание будущих входных данных (или временно ненаблюдаемых входных данных) является частным случаем завершения шаблона. В данной работе основная цель модели мира рассматривается как предсказание будущих представлений состояния мира.

Необходимо решить три основные проблемы. Во-первых, совершенно очевидно, что качество модели мира будет сильно зависеть от разнообразия последовательностей состояний или троек (состояние, действие, результирующее состояние), которые она способна наблюдать во время обучения. Во-вторых, поскольку мир не является полностью предсказуемым, может существовать несколько правдоподобных представлений состояния мира, которые следуют за данным представлением состояния мира и действием агента. Модель мира должна уметь осмысленно представлять эту, возможно, бесконечную совокупность правдоподобных предсказаний. В-третьих, модель мира должна уметь делать предсказания в разных временных масштабах и на разных уровнях абстракции.

Первая проблема затрагивает один из главных вопросов, касающихся обучения для процессов последовательного принятия решений: разнообразие “обучающего множества” зависит от предпринятых действий. Эта проблема обсуждается ниже в разделе 4.10.

Вторая проблема еще более серьезна: мир не является полностью предсказуемым. Следовательно, модель мира должна уметь представлять множество правдоподобных исходов из данного состояния и (необязательно) действия. Это может составлять одну из самых сложных проблем, на которую данное предложение предлагает решение. Эта проблема обсуждается ниже в разделе 4.8.

Третья проблема связана с проблемой долгосрочного предсказания и планирования. Люди планируют сложные цели на абстрактном уровне и используют высокоуровневые описания состояний мира и действий для совершения предсказаний. Высокоуровневые цели затем разбиваются на последовательности более элементарных последовательностей подцелей, используя краткосрочные предсказания от модели мира для выработки низкоуровневых действий. Этот процесс декомпозиции повторяется вплоть до миллисекундного управления мышцами, с учетом локальных условий. Вопрос о том, как модели мира могли бы представлять планы действий в различных временных масштабах и на различных уровнях абстракции, обсуждается в разделе 4.6.

4.1 Самоконтролируемое обучение

Самоконтролируемое обучение (Self-Supervised Learning, SSL) — это парадигма, в которой система обучения обучается фиксировать взаимные зависимости между своими входными данными. Конкретно это часто сводится к обучению системы сообщать нам, являются ли различные части ее входных данных согласованными друг с другом.

Например, в сценарии предсказания видео системе дают два видеоклипа, и она должна сообщить нам, в какой степени второй видеоклип является правдоподобным продолжением первого. В сценарии завершения шаблона системе дают часть входных данных (изображение, текст, аудиосигнал) вместе с предложением для остальной части входных данных, и она сообщает нам, является ли предложение правдоподобным завершением первой части. В дальнейшем мы будем обозначать наблюдаемую часть входных данных какx, а возможно, ненаблюдаемую часть — какy.

Важно, что мы не требуем, чтобы модель могла предсказыватьyизx. Причина в том, что может существовать бесконечное количествоy, совместимых с даннымx. В настройке предсказания видео существует бесконечное количество видеоклипов, которые являются правдоподобными продолжениями данного клипа. Может быть сложно или неразрешимо явно представить множество правдоподобных предсказаний. Но кажется менее затруднительным просто попросить систему сказать нам, совместим ли предложенныйyс даннымx.

Общая формулировка может быть выполнена с помощью фреймворка Энергетических Моделей (Energy-Based Models, EBM). Система представляет собой скалярную функциюF(x,y), которая выдает низкие значения энергии, когдаxиyсовместимы, и более высокие значения, когда они несовместимы. Эта концепция изображена на Рисунке 8. Точки данных — это черные точки. Энергетическая функция выдает низкие значения энергии вокруг точек данных и более высокие энергии вдали от областей с высокой плотностью данных, как символизируют контурные линии энергетического ландшафта. Неявная формулировка функции EBM позволяет системе представлять многомодальные зависимости, в которых несколько значенийyсовместимы с даннымx. Множествоy, совместимых с даннымx, может быть одной точкой, несколькими дискретными точками, многообразием или набором точек и многообразий.

Чтобы обеспечить планирование в Режиме-2, предсказательная модель мира должна быть обучена фиксировать зависимости между прошлыми и будущими восприятиями. Она должна уметь предсказывать представления будущего из представлений прошлого и настоящего. Общий принцип обучения заключается в следующем: даны два входаxиy, изучить две функции, которые вычисляют представленияs_{x}=g_{x}(x)иs_{y}=g_{y}(y), такие, что (1)s_{x}иs_{y}максимально информативны оxиyи (2)s_{y}может быть легко предсказан изs_{x}. Этот принцип обеспечивает компромисс между предсказуемостью эволюции мира в пространстве представления и сбором как можно большего количества информации о состоянии мира в представлении.

Какие концепции могла бы изучить такая система SSL, обучаясь на видео? Наша гипотеза состоит в том, что может быть приобретена иерархия абстрактных концепций о том, как работает мир.

Изучение представления небольшого участка изображения таким образом, чтобы он был предсказуем из соседних участков, окружающих его в пространстве и времени, побудило бы систему извлекать локальные края и контуры на изображениях, а также обнаруживать движущиеся контуры на видео. Изучение представлений изображений, при котором представление сцены с одной точки зрения предсказуемо из представления той же сцены с немного другой точки зрения, побудило бы систему неявно представлять карту глубины. Карта глубины — это самый простой способ объяснить, как вид сцены меняется при небольшом перемещении камеры. Как только понятие глубины будет изучено, системе станет просто идентифицировать края перекрытия, а также коллективное движение участков, принадлежащих твердому объекту. Неявное представление 3D-объектов может возникнуть спонтанно. Как только понятие объекта возникает в представлении, концепции, такие как постоянство объекта, могут стать легкими для изучения: объекты, исчезающие за другими из-за параллактического движения, неизбежно появятся снова. Различие между неодушевленными и одушевленными объектами последует: неодушевленные объекты — это те, чьи траектории легко предсказуемы. Интуитивные физические концепции, такие как устойчивость, гравитация, импульс, могут последовать при обучении системы выполнять более долгосрочные предсказания на уровне представления объектов. Можно представить, что через предсказания на все более абстрактных уровнях представления и все более длительных временных масштабах все более сложные концепции о том, как работает мир, могут быть приобретены иерархическим образом.

Идея о том, что абстрактные концепции могут быть изучены через предсказание, не нова и формулировалась по-разному многими авторами в когнитивной науке, нейронауке и ИИ на протяжении нескольких десятилетий. Вопрос в том, как именно это сделать.

OCR изображение

OCR изображение

Рисунок 8: Самоконтролируемое обучение (SSL) и Энергетические Модели (EBM). SSL — это парадигма обучения, в которой система обучения обучается “заполнять пробелы” или, точнее, фиксировать зависимости между наблюдаемыми частями входных данных и возможно ненаблюдаемыми частями. Часть входного сигнала наблюдается и обозначаетсяx(розовым), а часть входного сигнала либо наблюдается, либо не наблюдается и обозначаетсяy(синим). В сценарии временного предсказанияxпредставляет прошлые и настоящие наблюдения, аyпредставляет будущие наблюдения. В сценарии общего завершения шаблона различные части входных данных могут наблюдаться или не наблюдаться в разное время. Система обучения обучается фиксировать зависимости междуxиyчерез скалярную энергетическую функциюF(x,y), которая принимает низкие значения, когдаxиyсогласованы или совместимы, и более высокие значения, еслиxиyнесогласованны или несовместимы. В сценарии предсказания видео система выдала бы низкое значение энергии, если видеоклипyявляется правдоподобным продолжением видеоклипаx. Эта формулировка на основе энергетической модели (EBM) позволяет системе представлять многомодальные зависимости, в которых несколько значенийy(возможно, бесконечное множество) могут быть совместимы с даннымx. На правой панели представлен энергетический ландшафт, в котором темные диски представляют точки данных, а замкнутые линии представляют контуры (линии уровня) энергетической функции.

OCR изображение

OCR изображение

Рисунок 9: Энергетическая модель с латентными переменными (LVEBM).

Чтобы оценить степень совместимости междуxиy, EBM может нуждаться в помощи латентной переменнойz. Латентная переменная может рассматриваться как параметризация множества возможных отношений междуxи множеством совместимыхy. Латентные переменные представляют информацию оy, которая не может быть извлечена изx. Например, еслиx— это вид объекта, аy— другой вид того же объекта,zможет параметризовать перемещение камеры между двумя видами. Вывод (inference) заключается в поиске латентной переменной, которая минимизирует энергиюcheck{z}=operatorname{argmin}_{zin mathcal{Z}} E_{w}(x,y,z).Результирующая энергияF_{w}(x,y)=E_{w}(x,y,check{z})зависит только отxиy. В примере с двойным видом вывод находит движение камеры, которое лучше всего объясняет, какxмогло быть преобразовано вy.

4.2 Обработка неопределенности с помощью латентных переменных

Как указывалось выше, одна из главных проблем заключается в том, чтобы дать модели возможность представлять множество предсказаний. Это может потребовать использования латентной переменной. Латентная переменная — это входная переменная, значение которой не наблюдается, а выводится. Латентная переменная может рассматриваться как параметризация множества возможных отношений междуxи множеством совместимыхy. Латентные переменные используются для представления информации оy, которая не может быть извлечена изx.

Представьте сценарий, в которомx— это фотография сцены, аy— фотография той же сцены с немного другой точки зрения. Чтобы определить, действительно лиxиyявляются видами одной и той же сцены, может потребоваться вывести перемещение камеры между двумя видами. Аналогично, еслиx— это фотография автомобиля, подъезжающего к развилке дороги, аy— фотография того же автомобиля несколько секунд спустя на одной из ветвей развилки, совместимость междуxиyзависит от бинарной латентной переменной, которую можно вывести: повернула ли машина налево или направо.

В сценарии временного предсказания латентная переменная представляет то, что нельзя предсказать оy(будущем) исключительно изxи прошлых наблюдений (прошлого). Она должна содержать всю информацию, которая была бы полезна для предсказания, но не наблюдаема или не известна. Я могу не знать, повернет ли водитель передо мной налево или направо, ускорится или затормозит, но я могу представить эти варианты латентной переменной.

Энергетическая модель с латентными переменными (LVEBM) — это параметризованная энергетическая функция, зависящая отx,yиz:E_{w}(x,y,z).При предъявлении пары(x,y)процедура вывода EBM находит значение латентной переменнойz, которая минимизирует энергию

check {z}=underset {z in mathcal {Z}} {operatorname {a r g m i n}} E _ {w} (x, y, z)

Этот вывод латентной переменной через минимизацию позволяет нам исключитьzиз энергетической функции:

F _ {w} (x, y)=min _ {z in mathcal {Z}} E _ {w} (x, y, z)=E _ {w} (x, y, check {z})

ТехническиF_{w}(x,y)следовало бы называть свободной энергией при нулевой температуре, но мы продолжим называть ее энергией.

4.3 Обучение Энергетических Моделей

Прежде чем обсуждать обучение EBM, важно отметить, что определение EBM не делает никаких ссылок на вероятностное моделирование. Хотя многие EBM могут быть легко преобразованы в вероятностные модели, например, через распределение Гиббса, это вовсе не является необходимостью. Следовательно, энергетическая функция рассматривается как фундаментальный объект и не предполагается неявно представляющим ненормализованный логарифм распределения вероятностей.

Обучение EBM заключается в построении архитектуры (например, глубокой нейронной сети) для вычисления энергетической функцииF_{w}(x,y), параметризованной вектором параметровw. Процесс обучения должен искать такой векторw, который придаст энергетической функции правильную форму. Для данногоxиз обучающего множества хорошо обученнаяF_{w}(x,y)будет выдавать более низкие энергии для значенийy, которые связаны сxв обучающем множестве, и более высокие энергии для других значенийy.

При наличии обучающего образца( x,y), обучение EBM сводится к разработке подходящего функционала потерьL(x,y,F_{w}(x,y)), который может быть выражен напрямую как функция от вектора параметровL(x,y,w), и такой, что минимизация этих потерь сделает энергию обучающего образцаF_{w}(x,y)ниже, чем энергииF_{w}(x,hat{y})для любогоhat{y}, отличного отy.

Сделать энергию обучающего образца низкой легко: достаточно, чтобы потери были возрастающей функцией энергии, а энергия имела нижнюю границу.

Трудный вопрос заключается в том, как гарантировать, что энергииhat{y}, отличных отy, будут выше, чем энергияy. Без специального положения, гарантирующего, чтоF_{w}(x,y^{prime})>F_{w}(x,y)всякий раз, когдаhat{y}neq y, энергетический ландшафт может подвергнуться коллапсу: при данномxэнергетический ландшафт может стать “плоским”, по существу давая одну и ту же энергию всем значениямy.

Какие архитектуры EBM подвержены коллапсу? Подвержен ли EBM коллапсу, зависит от его архитектуры. Рисунок 10 показывает ряд стандартных архитектур и указывает, могут ли они подвергнуться коллапсу.

Обычная предсказательная или детерминистическая генеративная архитектура (Рисунок 10(a)) не может коллапсировать. Для любогоxвыдается единственныйtilde{y}. Энергия равна нулю всякий раз, когдаy=tilde{y}. Любойy, отличный отtilde{y}, будет иметь более высокую энергию, покаD(y,tilde{y})строго больше нуля, когдаyотличается отtilde{y}.

Генеративная архитектура с латентными переменными (недетерминистическая генеративная) (Рисунок 10(b)) может коллапсировать, когда латентная переменная имеет слишком большую информационную емкость. Когда латентная переменнаяzизменяется по множествуmathcal{Z}, предсказаниеtilde{y}изменяется по множествуoperatorname{Pred}(s_{x},mathcal{Z}), которое должно соответствовать множествуy, совместимых сx. Еслиmathcal{Z}слишком “велико”, то область низкоэнергетическихyможет быть больше области с высокой плотностью данных. Еслиzимеет ту же размерность, что иy, система вполне может давать нулевую энергию всему пространствуy.

Автоэнкодер (AE) (Рисунок 10(c)) может коллапсировать, когда представлениеs_{y}имеет слишком большую информационную емкость. Например, если размерностьs_{y}равна или выше, чем уy, AE может изучить тождественную функцию, выдавая ошибку реконструкции, равную нулю по всему пространствуy.

OCR изображение

OCR изображение

Рисунок 10: Несколько стандартных архитектур и их способность к коллапсу.

(a) Детерминистическая генеративная архитектура: не может коллапсировать, потому что может выдать только один выход. Для данногоxтолько одно значениеyможет иметь нулевую энергию:y=tilde{y}. Другие значенияyбудут иметь более высокую энергию, еслиD(u,tilde{y})больше нуля приyneqtilde{y}.

(b) Недетерминистическая генеративная архитектура: может коллапсировать, когда латентная переменная имеет чрезмерную информационную емкость. Если для данногоxи для всехyсуществуетz, которое дает нулевую энергию предсказания (например, еслиzимеет ту же или более высокую размерность, что иy), все пространствоyбудет иметь низкую энергию. Информационная емкостьzдолжна быть такой, чтобы изменениеzпо своему множеству порождало все правдоподобныеtilde{y}для данногоx.

(c) Автоэнкодер: может коллапсировать, если система изучает тождественную функцию или если она может корректно реконструировать область пространстваy, которая намного больше области с высокой плотностью данных, тем самым давая низкую энергию слишком большой области.

(d) Простая архитектура совместного вложения: может коллапсировать, если энкодеры игнорируют входные данные и производят представления, которые остаются постоянными и равными, или если энкодеры инвариантны по слишком широким областям пространства.

Наконец, Архитектура Совместного Вложения (Joint Embedding Architecture, JEA) (Рисунок 10(d)) может коллапсировать, когда информация, переносимаяs_{x}и/илиs_{y}, недостаточна. Если энкодеры игнорируют входные данные и выдают постоянные и равные кодыs_{x}=s_{y}, все пространство будет иметь нулевую энергию.

Это лишь несколько примеров архитектур.

Как нам разработать функцию потерь для предотвращения коллапса? Существует два подхода: контрастивные методы и регуляризованные методы. Далее я буду утверждать, что контрастивные методы имеют недостатки и что регуляризованные (неконтрастивные) методы с гораздо большей вероятностью будут предпочтительнее в долгосрочной перспективе.

Контрастивные методы заключаются в использовании функционала потерь, минимизация которого имеет эффект “продавливания” энергий обучающих образцов( x,y)вниз и “подтягивания” энергий подходящим образом галлюцинируемых “контрастивных” образцов( x,hat{y})вверх. Контрастивный образецhat{y}должен быть выбран таким образом, чтобы гарантировать, что EBM присваивает более высокие энергии точкам вне областей с высокой плотностью данных. Это переводится в разработку потерь, которые являются возрастающей функциейF_{w}(x,y)и убывающей функциейF_{w}(x,hat{y}), по крайней мере, когдаF_{w}(x,hat{y})не достаточно выше, чемF_{w}(x,y). Существует много таких контрастивных функций потерь,

OCR изображение

OCR изображение

Рисунок 11: Контрастивные и регуляризованные методы обучения EBM. Концептуальная диаграмма энергетического ландшафта показана слева. Обучающие образцы — синие точки. Область низкой энергии показана оранжевым (линия уровня энергетической функции).

Контрастивные методы (вверху справа) продавливают энергию обучающих образцов (синие точки) вниз и подтягивают энергии подходящим образом размещенных контрастивных образцов (зеленые точки) вверх.

Регуляризованные методы (внизу справа) продавливают энергию обучающих образцов вниз и используют член регуляризации, который минимизирует объем областей с низкой энергией. Эта регуляризация имеет эффект “усадки-обертывания” (shrink-wrapping) областей с высокой плотностью данных внутри областей с низкой энергией, насколько позволяет гибкость энергетической функции.

Одна из проблем контрастивных методов заключается в том, что энергия будет подтягиваться только там, где были размещены контрастивные образцы. Необходимо разработать методы, которые предпочтительно размещают контрастивные образцы в областях с низкой энергией, что и делают методы Монте-Карло и MCMC. Однако недостатком контрастивных методов является то, что количество контрастивных образцов, необходимых для придания энергетической поверхности хорошей формы, может расти экспоненциально с увеличением размерности пространстваy.

некоторые из которых принимают одну триаду( x,y,hat{y} ), другие требуют пакет положительных и контрастивных значенийy.

Простой пример контрастивных функций потерь выглядит следующим образом:

L (w, x, y, hat {y})=H left(F _ {w} (x, y), F _ {w} (x, hat {y}), m (y, hat {y})right)

гдеH— это возрастающая функция отF_{w}(x,y)и убывающая функция отF_{w}(x,hat{y})всякий раз, когда последняя меньше первой плюс положительная функция маржиm(y,hat{y}). Простой пример такой потери — это потеря шарнира, зависящая от расстояния:

L (w, x, y, hat {y})=left[ F _ {w} (x, y) - F _ {w} (x, hat {y}) + mu | | y - hat {y} | | ^ {2} right] ^ {+}

где[ a ]^{+}— это тождественная функция, когдаaположительно, и ноль в противном случае. Это заставляет энергию расти по крайней мере квадратично с расстоянием до многообразия данных. Другие контрастивные функционалы потерь принимают во внимание несколько контрастивных образцов:

L (w, x, y, hat {y} [ 1 ], dots , hat {y} [ K ])=H left(F _ {w} (x, y), F _ {w} (x, hat {y} [ 1 ]), dots , F _ {w} (x, hat {y} [ K ])right)

Которая должна быть возрастающей функцией первого аргумента и убывающей функцией всех остальных аргументов. Примером такой потери является популярная InfoNCE:

L (w, x, y, hat {y} [ 1 ], dots , hat {y} [ K ])=F _ {w} (x, y) + log left[ exp left(- F _ {w} (x, y)right) + sum_ {k=1} ^ {K} exp left(- F _ {w} (x, hat {y} [ k ])right) right]

Контрастивные методы очень популярны, особенно для архитектур сиамских сетей, обучаемых на парах, гдеx— это искаженная или поврежденная версияy, аhat{y}— другой случайный (или подходящим образом выбранный) обучающий образец. Сюда входят такие методы, как оригинальная сиамская сеть, а также более поздние методы, включая DrLIM, PIRL, MoCO, SimCLR, CPT и другие. Контрастивные методы также включают такие классические методы, как вероятностные модели, обученные с максимальным правдоподобием, которые не нормализуются автоматически. Контрастивные образцыhat{y}часто производятся с использованием методов Монте-Карло, методов Марковских цепей Монте-Карло или их приближенных версий, таких как Контрастивная Дивергенция. Генеративные Состязательные Сети также могут рассматриваться как контрастивные методы, в которыхhat{y}производится обучаемой сетью генератора. Денойзинг Автоэнкодеры и их частный случай, Маскированные Автоэнкодеры, также являются примерами контрастивных методов обучения, в которыхhat{y}генерируется путем искажения чистогоy. Более подробное обсуждение различных контрастивных методов приведено в приложении 8.3.3.

Но с контрастивными методами есть две основные проблемы. Во-первых, нужно разработать схему генерации или выбора подходящихhat{y}. Во-вторых, когдаyнаходится в пространстве высокой размерности и если EBM гибок, может потребоваться очень большое количество контрастивных образцов, чтобы гарантировать, что энергия будет выше во всех измерениях, не занятых локальным распределением данных. Из-за проклятия размерности, в худшем случае количество контрастивных образцов может расти экспоненциально с размерностью представления. Это основная причина, по которой я буду выступать против контрастивных методов.

Регуляризованные методы обучения EBM гораздо более перспективны в долгосрочной перспективе, чем контрастивные методы, поскольку они могут избежать проклятия размерности, от которого страдают контрастивные методы. Они заключаются в построении функционала потерь, который имеет эффект “продавливания” энергий обучающих образцов вниз и одновременной минимизации объема пространстваy, которому модель сопоставляет низкую энергию. Объем области с низкой энергией измеряется членом регуляризации в энергии и/или в потерях. Минимизируя этот член регуляризации, одновременно понижая энергии точек данных, области с низкой энергией будут “усаживаться-обертываться” вокруг областей с высокой плотностью данных. Главное преимущество неконтрастивных регуляризованных методов заключается в том, что они с меньшей вероятностью, чем контрастивные методы, станут жертвами проклятия размерности. Главный вопрос заключается именно в том, как спроектировать такие регуляризаторы, минимизирующие объем. Ответ сильно зависит от архитектуры модели, что обсуждается в следующих разделах. Однако неконтрастивные методы существуют уже давно. Примеры включают разреженное моделирование, разреженные автоэнкодеры и автоэнкодеры с шумными латентными переменными, такие как VAE.

Важно отметить, что контрастивные и регуляризованные методы не являются несовместимыми друг с другом и могут использоваться одновременно на одной и той же модели.

Как бы регуляризованные методы применялись к архитектурам на Рисунке 10(b-d)?

В генеративной архитектуре с латентными переменными ограничение информационной емкостиzограничит объем пространстваy, который может иметь низкую энергию. Еслиzдискретно с возможнымиkзначениями, самое большееkточек в пространствеyбудут иметь нулевую энергию. Еслиmathcal{Z}— это многообразие размерностиd, то область пространстваyс нулевой энергией будет иметь не болееdизмерений.

Аналогично, в архитектуре автоэнкодера ограничение информационной емкостиs_{y}ограничит объем пространстваy, который может быть реконструирован с низкой энергией.

Наконец, в Архитектуре Совместного Вложения максимизация информации, которуюs_{x}содержит оx, аs_{y}содержит оy, минимизирует объем пространстваy, который может иметь низкую энергию.

Далее мы сосредоточимся на архитектуре для SSL — Архитектуре Совместного Предиктивного Вложения (JEPA), которую можно рассматривать как комбинацию Архитектуры Совместного Вложения и Генеративной Архитектуры с Латентными Переменными. JEPA является негенеративной в том смысле, что она на самом деле не предсказываетy, а предсказывает представлениеy,s_{y}из представленияx,s_{x}.

4.4 Архитектура Совместного Предиктивного Вложения (JEPA)

Центральным элементом этой статьи является Архитектура Совместного Предиктивного Вложения (JEPA). JEPA не является генеративной в том смысле, что она не может быть легко использована для предсказанияyизx. Она просто фиксирует зависимости междуxиyбез явной генерации предсказанийy.

Обобщенная JEPA показана на Рисунке 12. Две переменныеxиyподаются на два энкодера, производящих два представленияs_{x}иs_{y}. Эти два энкодера могут быть разными. Не требуется, чтобы они обладали одинаковой архитектурой, а также не требуется, чтобы они разделяли свои параметры. Это позволяетxиyбыть разными по природе (например, видео и аудио). Модуль предсказателя предсказывает представлениеyиз представленияx. Предсказатель может зависеть от латентной переменнойz. Энергия — это просто ошибка предсказания в пространстве представлений:

E _ {w} (x, y, z)=D left(s _ {y}, operatorname {P r e d} left(s _ {x}, zright)right)

Общая энергия получается путем минимизации поz:

check {z}=underset {z in mathcal {Z}} {operatorname {a r g m i n}} E _ {w} (x, y, z)=underset {z in mathcal {Z}} {operatorname {a r g m i n}} D left(s _ {y}, operatorname {P r e d} left(s _ {x}, zright)right)F _ {w} (x, y)=min _ {z in mathcal {Z}} E _ {w} (x, y, z)=D left(s _ {y}, operatorname {P r e d} left(s _ {x}, check {z}right)right)

Главное преимущество JEPA заключается в том, что она выполняет предсказания в пространстве представлений, избегая необходимости предсказывать каждую детальy. Это обеспечивается тем, что энкодерyможет выбрать производить абстрактное представление, из которого устранены нерелевантные детали.

Но есть два способа, которыми JEPA может представлять множественность значенийy, совместимых сx. Первый — это свойства инвариантности энкодераy, второй — латентная переменнаяz, как объяснено ниже.

Мультимодальность через инвариантность энкодера: Функция энкодераs_{y}=operatorname{Enc}(y)может обладать свойствами инвариантности. Если всеyиз набора отображаются в одно и то же значениеs_{y}, все этиyбудут иметь одинаковые энергии. С JEPA мы теряем способность генерировать выходные данные, но получаем мощный способ представлять многомодальные зависимости между входами и выходами.

OCR изображение

OCR изображение

Рисунок 12: Архитектура Совместного Предиктивного Вложения (JEPA) состоит из двух ветвей кодирования. Первая ветвь вычисляетs_{x}, представлениеx, а вторая ветвь —s_{y}, представлениеy. Энкодерам не обязательно быть идентичными. Модуль предсказателя предсказываетs_{y}изs_{x}с возможной помощью латентной переменнойz. Энергия — это ошибка предсказания. Простые вариации JEPA могут не использовать предсказатель, заставляя два представления быть равными, или могут использовать фиксированный предсказатель без латентной переменной, или могут использовать простые латентные переменные, такие как дискретные переменные.

Главное преимущество JEPA заключается в том, что она выполняет предсказания в пространстве представлений, избегая необходимости предсказывать каждую детальyи позволяя устранять нерелевантные детали энкодерами. Точнее, главное преимущество этой архитектуры для представления многомодальных зависимостей двоякое: (1) функция энкодераs_{y}=operatorname{Enc}(y)может обладать свойствами инвариантности, которые заставят ее выдавать одно и то жеs_{y}для набора различныхy. Это делает энергию постоянной на этом наборе и позволяет модели фиксировать сложные многомодальные зависимости; (2) Латентная переменнаяz, при изменении по множествуmathcal{Z}, может произвести набор правдоподобных предсказанийoperatorname{Pred}(s_{x},mathcal{Z})=left{tilde{s}_{y}=operatorname{Pred}(s_{x},z)right} forall zinmathcal{Z}.

Еслиx— это видеоклип автомобиля, приближающегося к развилке дороги,s_{x}иs_{y}могут представлять положение, ориентацию, скорость и другие характеристики автомобиля до и после развилки соответственно, игнорируя нерелевантные детали, такие как деревья вдоль дороги или текстура тротуара.zможет представлять, выберет ли автомобиль левую ветвь или правую ветвь дороги.

Мультимодальность через предсказатель с латентной переменной: Предсказатель может использовать латентную переменнуюzдля захвата информации, необходимой для предсказанияs_{y}, которая отсутствует вs_{x}. Когдаzизменяется по множествуmathcal{Z}, предсказатель производит набор правдоподобных предсказанийoperatorname{Pred}(s_{x},mathcal{Z})=left{tilde{s}_{y}=operatorname{Pred}(s_{x},z)forall zinmathcal{Z}right}. Например, еслиx— это видеоклип автомобиля, приближающегося к развилке дороги,s_{x}иs_{y}могут представлять прошлые и будущие положения, ориентации, скорости и другие характеристики автомобиля, игнорируя нерелевантные детали, такие как деревья вдоль дороги или текстура тротуара. Латентная переменнаяzможет быть бинарной переменной, указывающей, свернет ли автомобиль на левую ветвь (z=0) или на правую ветвь (z=1) дороги. Если автомобиль сворачивает налево, значениеz=0даст более низкую энергиюD(s_{y},tilde{s}_{y}), чемz=1.

4.5 Обучение JEPA

Как и любая EBM, JEPA может быть обучена контрастивными методами. Но, как указывалось выше, контрастивные методы имеют тенденцию становиться очень неэффективными в высокой размерности. Релевантная размерность здесь — это размерностьs_{y}, которая может быть значительно меньше, чемy, но все еще слишком высока для эффективного обучения.

OCR изображение

OCR изображение

Рисунок 13: Неконтрастивное обучение JEPA.

Главная привлекательность JEPA заключается в том, что они могут быть обучены неконтрастивными методами. Основной принцип такого обучения заключается в том, что (1)s_{x}должен быть максимально информативен оx; (2)s_{y}должен быть максимально информативен оy; (3)s_{y}должен быть легко предсказуем изs_{x}; и (4)zдолжен иметь минимальное информационное содержание. Критерии 1, 2 и 4 коллективно предотвращают коллапс энергетической функции.

Примерами таких неконтрастивных критериев для обучения JEPA являются VICReg и Barlow Twins. Как и любая EBM, JEPA могут также обучаться контрастивными методами. Но это сталкивается с проклятием размерности и ограничивает практическую размерностьs_{y}.

Что делает JEPA особенно интересными, так это то, что мы можем разработать неконтрастивные методы для их обучения. Как объяснено в разделе 4.3, неконтрастивные методы используют регуляризаторы, которые измеряют объем пространства, который может принимать низкие значения энергии. В случае JEPA это можно сделать с помощью четырех критериев, как показано на Рисунке 13:

  1. максимизировать информационное содержаниеs_{x}оx

  2. максимизировать информационное содержаниеs_{y}оy

  3. сделатьs_{y}легко предсказуемым изs_{x}

  4. минимизировать информационное содержание латентной переменнойz, используемой в предсказании.

Критерии 1 и 2 предотвращают уплощение энергетической поверхности из-за информационного коллапса. Они гарантируют, чтоs_{x}иs_{y}несут как можно больше информации о своих входах. Без этих критериев система могла бы решить сделатьs_{x}иs_{y}постоянными или слабо информативными, что сделало бы энергию постоянной на больших участках входного пространства.

Критерий 3 обеспечивается членом энергииD ( s_{y},tilde{s}_{y} )и гарантирует, чтоyпредсказуем изxв пространстве представлений.

Критерий 4 предотвращает попадание системы в другой тип информационного коллапса, заставляя модель предсказыватьs_{y}с минимальной помощью латентной переменной.

Этот тип коллапса можно понять с помощью следующего мысленного эксперимента. Представьте, чтоzимеет ту же размерность, что иs_{y}. Предположим, что предсказатель — это параметризованная функция (например, нейронная сеть), которая может решить игнорироватьs_{x}и просто копироватьzна свой выходtilde{s}_{y}=z. Для любогоs_{y}можно установитьtilde{z}=s_{y}, что сделает энергиюD(s_{y},tilde{s}_{y})нулевой. Это соответствует полностью плоскому и коллапсировавшему энергетическому ландшафту. Как нам предотвратить этот коллапс?

Как предотвратить этот коллапс?

Ограничивая или минимизируя информационное содержание латентной переменной.

Как это можно сделать?

Сделавzдискретной, низкоразмерной, разреженной или шумной, среди других методов.

Несколько конкретных примеров могут помочь создать интуитивное понимание явления. Предположим, чтоD ( s_{y},tilde{s}_{y})=||s_{y}-tilde{s}_{y}||^{2}и чтоzдискретна сKвозможными целочисленными значениями [0, K-1]. Для данногоxможет быть толькоKвозможных значенийtilde{s}_{y}:

operatorname {P r e d} left(s _ {x}, 0right), operatorname {P r e d} left(s _ {x}, 1right), dots , operatorname {P r e d} left(s _ {x}, K - 1right).

Следовательно, это могут быть единственные значенияs_{y}с нулевой энергией, и их всегоK. Рассмотрим точкуs_{y}, которая начинается сmathrm{Pred}(s_{x},0)и движется кmathrm{Pred}(s_{x},1). Ее энергия начнется с нуля, будет расти квадратично по мере удаленияs_{y}отmathrm{Pred}(s_{x},0), покаs_{y}. Когдаs_{y}станет ближе кmathrm{Pred}(s_{x},1), чем кmathrm{Pred}(s_{x},0), энергия будет уменьшаться, достигая нуля, когдаs_{y}достигнетmathrm{Pred}(s_{x},1). В пространстве представлений энергия будет минимумомKквадратичных энергетических ям.

Аналогично, представьте, чтоz— это вектор, размерностьdкоторого ниже, чем уtilde{s}_{y}. Тогда, предполагая, чтоoperatorname{Pred}(s_{x},z)является гладкой функцией отz, множество возможных предсказаний будет не более чемd-мерным многообразием в пространствеs_{y}.

Более того, представьте, что энергетическая функция дополнена членом регуляризации наzвидаR ( z )=alpha sum_{i=1}^{d} left| z_{i} right|, т.е. нормаL_{1}вектораz. Это приведет к тому, чтоcheck{z}будет разреженным. Как и в классическом разреженном кодировании, это приведет к тому, что область низкой энергии будет аппроксимироваться объединением низкоразмерных многообразий (объединением низкоразмерных линейных подпространств, еслиoperatorname {P r e d} left( s_{x}, z right)линейно поz), размерность которых будет минимизирована регуляризаторомL_{1}.

Сделатьzстохастической выборкой из распределения, чья энтропия максимизирована, также будет иметь правильный эффект регуляризации. Это основа Вариационных Автоэнкодеров и подобных моделей.

Более полное обсуждение регуляризаторов, которые могут минимизировать информационное содержание латентных переменных, выходит за рамки этой статьи. Пока мы можем упомянуть четыре класса методов: дискретизация/квантование (например, как в VQ-VAE (Walker et al., 2021)), минимизация размерности/ранга (например, как в Implicit Rank-Minimizing AE (Jing et al., 2020)), разреживание (как в линейном разреженном моделировании (Olshausen and Field, 1996), LISTA (Gregor and LeCun, 2010b), и нелинейном разреженном моделировании (Evtimova and LeCun, 2022))), и фаззификация (как в шумных AE (Doi et al., 2007), VAE (Kingma and Welling, 2013), и вариантах, используемых в задачах управления (Henaff et al., 2019)).

Способность JEPA предсказывать в пространстве представлений делает ее значительно более предпочтительной, чем генеративные модели, которые напрямую производят предсказаниеy. В сценарии предсказания видео практически невозможно предсказать каждое значение пикселя каждого будущего кадра. Детали текстуры ковра, листья дерева, колышущиеся на ветру, или рябь на пруду не могут быть точно предсказаны, по крайней мере, не на длительные периоды времени и не без потребления огромных ресурсов. Значительным преимуществом JEPA является то, что она может выбрать игнорировать детали входных данных, которые нелегко предсказать. Тем не менее, Критерии 1 и 2 гарантируют, что информационное содержание игнорируемых деталей сведено к минимуму.

OCR изображение

OCR изображение

Рисунок 14: Обучение JEPA с помощью VICReg.

VICReg — это неконтрастивный метод обучения вложений. Информационное содержание представленийs_{x}иs_{y}максимизируется путем их отображения в вложения более высокой размерностиv_{x}иv_{y}через экспандер (например, обучаемую нейронную сеть с несколькими слоями). Функция потерь приближает ковариационную матрицу вложений к единичной матрице (например, вычисленную по пакету). VICReg можно рассматривать как метод, контрастивный по измерениям, в отличие от методов, контрастивных по образцам.

Как мы можем реализовать Критерии 1 и 2?

Как мы можем реализовать Критерии 1 и 2? Другими словами, имея параметризованную детерминистическую функцию кодированияs_{y}=mathrm{Enc}_{w}(y), как нам максимизировать информационное содержаниеs_{y}?

Еслиmathrm{Enc}_{w}(y)обратима,s_{y}содержит всю информацию оy, но это может быть субоптимально для Критерия 3, так какs_{y}будет содержать много нерелевантных или трудно предсказуемых деталей оy. Точнее,s_{y}максимально информативен оy, если функцияmathrm{Enc}_{w}(y)минимально сюръективна, т.е. если объем множествy, которые отображаются в одно и то жеs_{y}, минимален. То же самое рассуждение применимо к энкодеруx. Чтобы превратить этот критерий в дифференцируемую функцию потерь, нам нужно сделать некоторые предположения.

4.5.1 VICReg

Метод VICReg (Bardes et al., 2021) делает несколько предположений о распределенияхs_{x}иs_{y}. Графическое представление показано на Рисунке 14. Чтобы максимизировать информационное содержаниеs_{x}, VICReg использует следующие два подкритерия: (1) компонентыs_{x}не должны быть постоянными, (2) компонентыs_{x}должны быть как можно более независимы друг от друга. Это аппроксимируется сначала нелинейным отображениемs_{x}иs_{y}в вложения более высокой размерностиv_{x}иv_{y}через обучаемый модуль экспандера (например, нейронную сеть с несколькими слоями) и использованием функции потерь с двумя дифференцируемыми членами потерь, вычисляемыми по пакету образцов:

  1. Дисперсия: потеря шарнира, которая поддерживает стандартное отклонение каждого компонентаs_{y}иv_{y}выше порогового значения по пакету.

  2. Ковариация: ковариационная потеря, в которой ковариация между парами различных компонентовv_{y}подталкивается к нулю. Это имеет эффект декорреляции компонентовv_{y}, что, в свою очередь, сделает компонентыs_{y}в некоторой степени независимыми.

Те же критерии применяются отдельно кs_{x}иv_{x}.

Третий критерий VICReg — это ошибка предсказания представленияD ( s_{y},tilde{s}_{y} ). В простейших реализациях VICReg предсказатель является константным (равен тождественной функции), делая представления инвариантными к преобразованию, которое превращаетxвy. В более сложных версиях предсказатель может не иметь латентной переменной или может зависеть от латентной переменной, которая является либо дискретной, низкоразмерной, либо стохастической.

Четвертый критерий необходим, когда предсказатель использует латентную переменную, чье информационное содержание должно быть минимизировано, например, вектор, чья размерность приближается или превосходит размерностьtilde{s}_{y}.

Простая реализация VICReg для изучения инвариантных представлений заключается в том, чтобы сделатьxиyразными видами (или искаженными версиями) одного и того же контента, установить предсказатель в тождественную функцию и определитьD ( s_{y},tilde{s}_{y})=D ( s_{y},s_{x})=||s_{y}-s_{x}||^{2}.

Вывод латентной переменной методами на основе градиента может быть обременительным. Но вычислительные затраты могут быть значительно снижены с использованием амотизированного вывода, как объяснено в Приложении 8.3.3.

В то время как контрастивные методы гарантируют, что представления различных входов в пакете различны, VICReg гарантирует, что различные компоненты представлений по пакету различны. VICReg является контрастивным по компонентам, в то время как традиционные контрастивные методы являются контрастивными по векторам, что требует большого количества контрастивных образцов.

Но наиболее перспективный аспект JEPA, обученной с VICReg и подобными неконтрастивными методами, заключается в изучении иерархических предиктивных моделей мира, что мы рассмотрим в следующем разделе.

4.5.2 Смещение JEPA в сторону изучения “полезных” представлений

С перечисленными выше критериями обучения JEPA находит баланс между полнотой и предсказуемостью представлений. Что предсказуемо, а что не получает представления, определяется неявно архитектурами энкодеров и предсказателя. Они определяют индуктивное смещение, которое определяет, какая информация предсказуема или нет.

Но было бы полезно иметь способ сместить систему в сторону представлений, которые содержат информацию, релевантную для класса задач. Это можно сделать, добавив головки предсказания, которые принимаютtilde{s}_{y}в качестве входа и обучаются предсказывать переменные, которые легко выводятся из данных и известны как релевантные для задачи.

4.6 Иерархическая JEPA (H-JEPA)

OCR изображение

OCR изображение

Рисунок 15: Иерархическая JEPA (H-JEPA)

Способность JEPA изучать абстрактные представления, в которых может выполняться точное предсказание, позволяет иерархическое наложение. На этой диаграмме JEPA-1 извлекает низкоуровневые представления и выполняет краткосрочные предсказания. JEPA-2 берет представления, извлеченные JEPA-1, в качестве входов и извлекает высокоуровневые представления, с которыми могут выполняться более долгосрочные предсказания. Более абстрактные представления игнорируют детали входов, которые трудно предсказать в долгосрочной перспективе, позволяя им выполнять долгосрочные предсказания с более грубыми описаниями состояния мира.

Модели JEPA, обученные неконтрастивно, могут составить наш лучший инструмент для изучения моделей мира, способных изучать релевантные абстракции. При обучении с VICReg и подобными критериями, JEPA может выбрать обучить свои энкодеры устранять нерелевантные детали входов, чтобы сделать представления более предсказуемыми. Другими словами, JEPA будет изучать абстрактные представления, которые делают мир предсказуемым. Непредсказуемые детали будут устранены свойствами инвариантности энкодера или будут вытеснены в латентную переменную предсказателя. Объем игнорируемой таким образом информации будет минимизирован критериями обучения и регуляризатором латентной переменной.

Важно отметить, что генеративные модели с латентными переменными не способны устранять нерелевантные детали иначе, как вытесняя их в латентную переменную. Это связано с тем, что они не производят абстрактных (и инвариантных) представленийy. Вот почему мы выступаем против использования генеративных архитектур.

Способность JEPA изучать абстракции предполагает расширение архитектуры для обработки предсказаний в нескольких временных масштабах и на нескольких уровнях абстракции. Интуитивно понятно, что низкоуровневые представления содержат много деталей о входе и могут использоваться для краткосрочного предсказания. Но может быть трудно произвести точные долгосрочные предсказания с тем же уровнем деталей. И наоборот, высокоуровневые абстрактные представления могут позволить долгосрочные предсказания, но ценой устранения многих деталей.

Возьмем конкретный пример. При вождении автомобиля, учитывая предложенную последовательность действий с рулем и педалями в течение следующих нескольких секунд, водители могут точно предсказать траекторию своего автомобиля на тот же период. Детали траектории на более длительные периоды предсказать труднее, так как они могут зависеть от других автомобилей, светофоров, пешеходов и других внешних событий, которые несколько непредсказуемы. Но водитель все же может делать точные предсказания на более высоком уровне абстракции: игнорируя детали траекторий, другие автомобили, дорожные знаки и т.д., автомобиль, вероятно, прибудет в пункт назначения в предсказуемые сроки. Подробная траектория будет отсутствовать на этом уровне описания. Но приблизительная траектория, нарисованная на карте, представлена. Дискретная латентная переменная может использоваться для представления нескольких альтернативных маршрутов.

Рисунок 15 показывает возможную архитектуру для многоуровневого, многомасштабного предсказания состояния мира. Переменныеx_{0}, x_{1}, x_{2}представляют последовательность наблюдений. Сеть первого уровня, обозначенная JEPA-1, выполняет краткосрочные предсказания с использованием низкоуровневых представлений. Сеть второго уровня JEPA-2 выполняет более долгосрочные предсказания с использованием высокоуровневых представлений. Можно представить архитектуры такого типа со многими уровнями, возможно, используя сверточные и другие модули, и используя временное объединение между уровнями для огрубления представления и выполнения более долгосрочных предсказаний. Обучение может выполняться поуровнево или глобально с использованием любого неконтрастивного метода для JEPA.

Я полагаю, что способность представлять последовательности состояний мира на нескольких уровнях абстракции существенна для интеллектуального поведения. С многоуровневыми представлениями состояний мира и действий сложная задача может быть разложена на последовательно более детальные подзадачи, реализованные в последовательности действий с учетом локальных условий. Например, планирование сложной задачи, такой как поездка на работу, может быть разложено на поездку на машине до вокзала, посадку на поезд и т.д. Поездка на машине до вокзала может быть разложена на выход из дома, запуск автомобиля и вождение. Выход из дома требует вставания, похода к двери, открытия двери и т.д. Эта декомпозиция спускается вплоть до миллисекундного управления мышцами, которое может быть реализовано только тогда, когда воспринимаются соответствующие условия окружающей среды (препятствия, светофоры, движущиеся объекты и т.д.).

4.7 Иерархическое планирование

Если наша модель мира способна делать прогнозы иерархически, можно ли использовать ее для иерархического рассуждения и планирования в Режиме-2?

Иерархическое планирование — сложная тема, имеющая мало решений, большинство из которых требуют, чтобы промежуточный словарь действий был предопределен. Но если следовать философии глубокого обучения, эти промежуточные представления планов действий также должны быть изучены.

На Рисунке 16 показана возможная архитектура для иерархического планирования в Режиме-2, которая может использовать иерархическую природу многомасштабной модели мира.

Восприятие кодируется в представления на нескольких уровнях абстракции каскадом кодировщиков:

s [ 0 ]=operatorname {E n c 1} (x); s 2 [ 0 ]=operatorname {E n c 2} (s [ 0 ]); dots

Прогнозирование происходит на всех уровнях. Высшие уровни выполняют долгосрочное прогнозирование, в то время как низшие уровни выполняют краткосрочные прогнозы. Общая задача определяется высокоуровневой целью, изображенной какC ( s_{2}[4] )на диаграмме. Верхний уровень выводит последовательность высокоуровневых действий (a2[2],a2[4]) для оптимизации этой цели. Эти высокоуровневые «действия» не являются реальными действиями, а представляют собой цели для прогнозируемых состояний нижнего уровня. Можно думать о них как об условиях, которым состояние нижнего уровня должно удовлетворять, чтобы высокоуровневые прогнозы были точными. Выполнение этих условий может быть вычислено модулями стоимости C(s[2]) и C(s[4]). Они принимают состояние нижнего уровня s[2] и высокоуровневое условие a2[2] и измеряют, в какой степени состояние удовлетворяет условию. С этими определенными подцелями нижний уровень может выполнить вывод и найти последовательность низкоуровневых действий, которая минимизирует промежуточные подцели C(s[2]) и C(s[4]).

OCR图片

OCR图片

Рисунок 16: Иерархический JEPA для иерархического планирования в Режиме-2.

Сложная задача определяется высокоуровневой стоимостью, вычисляемой из высокоуровневого представления состояния мираC ( s 2 [ 4 ] ). Выводится последовательность высокоуровневых абстрактных действий( a 2 [ 2 ] , a 2 [ 4 ] ), которая минимизируетC ( s 2 [ 4 ] ). Выведенные абстрактные действия передаются в модули стоимости низшего уровняC ( s 2 ] ),C ( s 4 ], которые определяют подцели для нижнего слоя. Затем нижний слой выводит последовательность действий, которая минимизирует стоимости подцелей. Хотя здесь показана только двухуровневая иерархия, концепцию можно легко распространить на несколько уровней.

Описанный здесь процесс является последовательным нисходящим, но лучшим подходом была бы совместная оптимизация действий во всех слоях.

Только что описанный процесс является нисходящим и жадным. Но можно с выгодой итерировать оптимизацию так, чтобы последовательности действий высокого и низкого уровня оптимизировались совместно. Модули стоимости могут быть настроены конфигуратором для текущей ситуации.

Идея о том, что действие — это merely условие, которое должно быть удовлетворено нижележащим уровнем, на самом деле не нова в теории управления. Например, классический пропорциональный сервомеханизм можно рассматривать как получающий целевое состояние. Квадратичная стоимость измеряет квадрат расстояния между целью и текущим состоянием, а управление просто пропорционально отрицательному градиенту стоимости по отношению к переменным действияя.

4.8 Обработка неопределенности

Реальный мир не полностью предсказуем. Неопределенность в прогнозах будущих состояний мира может быть вызвана рядом причин:

OCR图片

OCR图片

Рисунок 17: Иерархический JEPA для иерархического планирования в Режиме-2 в неопределенной среде. Реалистичные среды не полностью предсказуемы, даже при использовании высокоабстрактных представлений. Неопределенность в прогнозах может быть обработана предикторами с латентными (скрытыми) переменными. Латентные переменные (красные круги) содержат информацию о прогнозе, которая не может быть выведена из предыдущего наблюдения. Латентные переменные должны быть регуляризованы для предотвращения коллапса энергии и чтобы заставить систему прогнозировать как можно больше без их помощи.

Во время планирования латентные переменные выбираются из распределений, полученных применением распределения Гиббса к регуляризаторам. Каждая выборка приводит к разному прогнозу. Чтобы получить согласованные латентные последовательности, параметры регуляризатора могут быть функциями предыдущих состояний и извлеченных воспоминаний.

По мере развития прогнозирования количество сгенерированных траекторий состояний может расти экспоненциально. Если каждая латентная переменная имеет k возможных дискретных значений, количество возможных траекторий будет расти какk^{t}, где t — количество временных шагов. Необходимо использовать стратегии направленного поиска и отсечения (pruning). При наличии нескольких прогнозируемых траекторий могут быть вычислены оптимальные последовательности действий, которые минимизируют среднюю стоимость или комбинацию среднего и дисперсии стоимости, чтобы минимизировать риск.

  • мир по своей природе стохастичен (алеаторическая неопределенность, тип 1)

  • мир детерминирован, но хаотичен, следовательно, его трудно предсказать без бесконечно точного восприятия (алеаторическая неопределенность, тип 2)

  • мир детерминирован, но частично наблюдаем (алеаторическая неопределенность тип 3).

  • мир полностью наблюдаем, но датчики дают лишь частичную информацию о состоянии мира (эпистемическая неопределенность, тип 1)

  • представление состояния мира, извлеченное модулем восприятия, не содержит полной информации, необходимой для точного прогнозирования (эпистемическая неопределенность, тип 2).

  • модель мира неточна из-за ограничений своей репрезентативной способности (ограниченная рациональность или эпистемическая неопределенность, тип 3).

  • модель мира неточна из-за того, что была обучена на ограниченном количестве данных (эпистемическая неопределенность, тип 4).

Большая часть литературы по обучению с подкреплением сосредоточена на работе со стохастической природой среды. С самого начала часто предполагается, что модели, критики и политики должны представлять распределения. В настоящей работе мы переносим возможную стохастичность прогнозируемой переменной в латентную переменную, которая может быть оптимизирована, спрогнозирована или выбрана. Это то, что в литературе по МО часто называют «трюком с перепараметризацией». Нам не нужно использовать этот трюк здесь, поскольку мы рассматриваем параметризацию прогнозов с помощью латентных переменных как фундаментальную.

Рисунок 17 представляет эпизод иерархического планирования в условиях неопределенности.

Прогноз на данном уровне и временном шаге, например s2[2], требует выборки соответствующей латентной переменной z2[2]. Выборка может поступать из распределения, отрицательный логарифм которого является регуляризатором R2(z2[2])). Параметры регуляризатора могут быть постоянными (например, фиксированный гауссиан), спрогнозированы на основе доступных данных с использованием амортизированного вывода (например, мультиномиальное или гауссовское распределение, параметры которого вычислены из s2[0]) или произведены конфигуратором. Использование предыдущих прогнозов для настройки регуляризатора латентных переменных подталкивает систему к генерации «хороших» траекторий.

По мере развития прогнозирования количество сгенерированных траекторий состояний может расти экспоненциально: если каждая латентная переменная имеет k возможных дискретных значений, количество возможных траекторий будет расти какk^{t}, где t — количество временных шагов. Могут быть использованы стратегии направленного поиска и отсечения, как в классическом поиске по дереву Монте-Карло (MCTS). В случае непрерывных латентных переменных можно производить выборку латент из непрерывных распределений, определяемых регуляризатором.

При наличии выборки всех латент можно вывести оптимальные последовательности действий на каждом уровне. Однако процесс прогнозирования может потребоваться повторить для нескольких реализаций латент, чтобы охватить множество правдоподобных исходов. Процесс вывода может использоваться для нескольких прогнозов, чтобы произвести действие, которое не только минимизирует ожидаемую стоимость, но и минимизирует неопределенность в ожидаемой стоимости.

4.8.1 Архитектура Модели Мира

Детали архитектуры модели мира должны зависеть от типа среды, в которой функционирует агент.

Вероятно, что лучшие архитектуры модулей в JEPA должны включать какой-то механизм стробирования или динамической маршрутизации.

Например, лучший способ обработки низкоуровневых краткосрочных прогнозов в видео — это извлечение простых локальных векторов признаков и перемещение этих векторов признаков от одного кадра к следующему в зависимости от предсказанных движений. Латентные переменные могут кодировать карту перемещений, которая может модулировать соединения маршрутизации между одним кадром и следующим.

Для долгосрочного прогнозирования на более высоком уровне абстракции релевантными признаками являются объекты и их взаимодействия. Эволюцию лучше всего моделировать архитектурой трансформера, который обладает свойством эквивариантности к перестановке и подходит для захвата взаимодействий между дискретными объектами (Vaswani et al., 2017; Carion et al., 2020; Battaglia et al., 2016).

Разделение Модели Мира и Модели Эго: Естественный мир сложен и в некоторой степени непредсказуем, требуя мощной модели с латентными переменными для учета непредсказуемости.

С другой стороны, сам агент несколько более предсказуем: конкретное действие на исполнительном органе произведет движение, которое часто можно предсказать детерминированно. Это говорит о том, что агент должен обладать отдельной моделью самого себя, возможно, без латентных переменных (Sobal et al., 2022), так как эффект действий на проприоцепцию несколько легче предсказать, чем эволюцию внешнего мира или влияние действий на него.

В свою очередь, модель эго (эго-модель), которую агент имеет о себе, может использоваться в качестве шаблона для модели других агентов в сценарии с несколькими агентами.

4.9 Отслеживание состояния мира

Традиционно модули в архитектурах глубокого обучения обмениваются состояниями через векторы или многомерные массивы. Но это, как правило, очень неэффективный метод, когда состояние моделируемого объекта меняется незначительно от одного момента времени к другому.

Типичное действие агента изменит лишь небольшую часть состояния мира. Если бутылку перемещают с кухни в столовую, состояния бутылки, кухни и столовой изменятся. Но остальная часть мира останется незатронутой.

Это говорит о том, что состояние мира должно поддерживаться в своего рода перезаписываемой памяти. Всякий раз, когда происходит событие, должна обновляться только та часть памяти состояния мира, на которую повлияло событие, в то время как остальная часть должна оставаться неизменной.

Для этой цели можно использовать обычную ассоциативную память «ключ-значение», подобную той, что предлагалась в контексте сетей с памятью (Bordes et al., 2015; Sukhbaatar et al., 2015; Miller et al., 2016), и сетей сущностей (Henaff et al., 2017).

Выход модели мира в данный временной шаг — это набор пар «запрос-значение»( q[i],v[i]), которые используются для изменения существующих записей в памяти состояния мира или для добавления новых записей.

По заданному запросу q память состояния мира возвращает

operatorname {M e m} (q)=sum_ {j} c _ {j} v _ {j}tilde {c} _ {j}=operatorname {M a t c h} left(k _ {j}, qright)c=mathrm {N o r m a l i z e} (tilde {c})

гдеk_{j}— это ключи,v_{j}— хранимые значения, функция Match(k, q) измеряет расхождение или несходство между ключом и запросом, векторcсодержит скалярные коэффициентыc_{j}, а функция Normalize(tilde{c}) выполняет своего рода конкурентную нормализацию или пороговое значение, например, часто используемоеc_{j}=exp (tilde{c}_{j}) / [gamma +sum_{k}exp (tilde{c}_{k})], гдеgamma— положительная константа.

Запись значения r с использованием запроса (или адреса) q в память может быть выполнена путем обновления существующих записей:

tilde {c} _ {j}=operatorname {M a t c h} left(k _ {j}, qright)c=mathrm {N o r m a l i z e} (tilde {c})v _ {j}=mathrm {U p d a t e} left(r, v _ {j}, c _ {j}right)

Функция Update(r,v,c) может быть такой же простой, как cr + (1-c)v.

Если запрос далек от всех ключей, память может выделить новую запись, ключом которой является q, а соответствующим значением — r. Константаgammaв примере функции Normalize выше может служить порогом для приемлемого расхождения ключ-запрос.

Можно рассматривать каждую запись как представляющую состояние сущности в мире. В приведенном выше примере с бутылкой модель мира может содержать ключиk_{mathrm{bottle}}, k_{mathrm{kitchen}}, k_{mathrm{dining-room}}, представляющие соответственно бутылку, кухню и столовую. Начальное значениеv_{mathrm{bottle}}кодирует ее местоположение как «кухня», начальное значениеv_{mathrm{kitchen}}кодирует ее содержимое как включающее бутылку, а начальное значениеv_{mathrm{dining-room}}кодирует ее содержимое как не включающее бутылку. После события местоположение и содержимое обновляются.

Все эти операции могут быть выполнены дифференцируемым образом и, следовательно, позволят распространять градиенты через них.

4.10 Потоки данных

Многие знания о мире можно изучить путем чистого наблюдения. Законы движения физических объектов, в принципе, могут быть выведены из наблюдения без необходимости вмешательства. Но эффективное обучение модели мира может потребовать более активного или «агентного» сбора информации.

Можно перечислить пять режимов сбора информации, с помощью которых агент может узнать, как работает мир:

  1. пассивное наблюдение: агент получает сенсорный поток (например, видео, аудио и т.д.)

  2. активная фовеация (перемещение фокуса): агент получает поток, в котором фокус внимания может быть направлен без влияния на окружающую среду. Например, наблюдение за сценой с возможностью ориентировать датчики зрения и звука, или получение широкоугольного видео и/или аудиопотока высокого разрешения, в котором можно направлять фокус внимания.

  3. пассивная агентность: сенсорные потоки, в которых наблюдается другой агент, воздействующий на среду, что позволяет выводить причинно-следственные эффекты действий агента на состояние среды.

  4. активное эго-движение: агент получает сенсорные потоки из реальной или виртуальной среды, в которой положение датчиков может быть изменено без существенного влияния на окружающую среду. Это может включать управляемые активные датчики (например, дальномеры, тепловые датчики, химические датчики), а также тактильные датчики.

  5. активная агентность: сенсорные потоки, на которые влияют действия агента. Это позволяет создавать причинно-следственные модели, в которых агент может научиться предсказывать последствия своих действий. Этот режим выводит на первый план дилемму исследования-использования (exploration-exploitation).

В сложной среде может быть непрактично собирать достаточно пассивных данных, чтобы модель мира охватила достаточную часть поведения среды. Режимы 2, 4 и 5 позволяют агенту собирать информацию, которая максимизирует его понимание среды. Но для этого могут потребоваться модули внутренней мотивации, которые направляют внимание, любопытство и исследование в те уголки пространства состояний, где прогнозы модели мира в настоящее время неточны или неопределенны.

Главный открытый вопрос заключается в том, сколько можно изучить с помощью пассивного наблюдения (режимы 1, 2, 4), сколько требует эго-движения (режим 3) и сколько требует полной агентности (режим 5).

5. Проектирование и обучение Актора

Роль модуля актора тройная:

  1. вывод оптимальных последовательностей действий, минимизирующих стоимость, с учетом прогнозов, произведенных моделью мира для действий в Режиме-2.

  2. генерация множественных конфигураций латентных переменных, представляющих часть состояния мира, которую агент не знает.

  3. обучение сетей политик для производства действий в Режиме-1.

Между действием и латентной переменной нет концептуальной разницы. Конфигурации обоих наборов переменных должны исследоваться актором. Для латентных переменных конфигурации должны исследоваться для планирования в условиях неопределенности. Для переменных действия конфигурации должны исследоваться для производства оптимальной, минимизирующей стоимость. В состязательных сценариях (например, в играх) должны исследоваться конфигурации латент, которые максимизируют стоимость. Фактически, актор играет роль оптимизатора и исследователя.

Когда модель мира и стоимость хорошо себя ведут, модуль актора может использовать процесс оптимизации на основе градиента для вывода оптимальной последовательности действий. Для этого он получает оценки градиента стоимости, вычисленные обратным распространением градиентов через функцию стоимости и развернутую модель мира. Он использует эти оценки для обновления последовательности действий.

Когда модель мира или стоимость не так хорошо себя ведут, поиск оптимальной последовательности действий на основе градиента может потерпеть неудачу. В этом случае может быть применен другой метод поиска/планирования. Если пространство действий дискретно или может быть дискретизировано, можно использовать методы динамического программирования или приближенного динамического программирования, такие как лучевой поиск или поиск по дереву Монте-Карло. Фактически, в этом контексте может использоваться любой метод планирования, разработанный в контексте оптимального управления, робототехники или «классического» ИИ.

После того как оптимальная последовательность действий получена в процессе планирования / вывода / оптимизации, можно использовать эти действия в качестве целей для обучения сети политики. Сеть политики впоследствии может использоваться для быстрого действия или просто для инициализации предлагаемой последовательности действий в хорошей начальной точке перед фазой оптимизации. Можно обучить несколько сетей политик для нескольких задач.

Актор также производит конфигурации латентных переменных. Эти латентные переменные представляют часть состояния мира, которую агент не знает. В идеале актор систематически исследовал бы вероятные конфигурации латент. В идеале регуляризатор для латент, R1 и R2 на Рисунке 17, представлял бы логарифмические априорные значения, из которых можно было бы сделать выборку латент. Но аналогично сети политики, можно разработать модуль амортизированного вывода латент, который изучает распределения латентных переменных. Хорошие распределения производили бы правдоподобные прогнозы. Распределение может зависеть от всех переменных, доступных в это время.

6. Проектирование Конфигуратора

Конфигуратор — это главный контроллер агента. Он принимает входные данные от всех остальных модулей и модулирует их параметры и графы соединений. Модуляция может маршрутизировать сигналы, активировать подсети, фокусировать внимание и т.д. В сценарии, в котором предиктор и верхние слои кодировщика восприятия являются блоками трансформеров, выходы конфигуратора могут составлять дополнительные входные токены для этих блоков трансформеров, тем самым модулируя их графы соединений и функции.

Модуль конфигуратора необходим по двум причинам: повторное использование оборудования и разделение знаний. Есть очевидное преимущество в возможности повторного использования одной и той же схемы для нескольких задач, особенно если задачи могут выполняться последовательно и если объем ресурсов (например, память параметров) ограничен. Но есть еще одно преимущество: повторное использование знаний. Разумной гипотезой является то, что модель мира, обученная для данной среды, может использоваться для ряда различных задач с незначительными изменениями. Можно представить «универсальную» модель мира для среды с небольшой частью параметров, модулируемых конфигуратором для текущей задачи. Это будет более эффективно с точки зрения данных и вычислений, чем наличие отдельных моделей мира для каждого навыка. Недостатком является то, что агент может выполнять только одну задачу за раз.

Конфигуратор может подготовить модуль восприятия к конкретной задаче, модулируя параметры на различных уровнях. Человеческая система восприятия может быть подготовлена к конкретной задаче, такой как обнаружение предмета в загроможденном ящике, обнаружение фруктов или добычи в лесу, чтение, подсчет определенных событий, сборка двух частей и т.д. Для задач, требующих быстрого обнаружения простых мотивов, конфигуратор может модулировать веса низкоуровневых слоев в сверточной архитектуре. Для задач, связанных с выполнением отношений между объектами (например, сборка двух частей с винтами), конфигурация может выполняться путем модуляции токенов в высокоуровневых модулях трансформеров.

Часть предиктора модели мира должна иметь возможность выполнять широкий спектр функций в зависимости от поставленной задачи. Для предикторов, выполняющих краткосрочные прогнозы на низком уровне абстракции, конфигурация может означать динамическую маршрутизацию сигналов. В представлении низкоуровневого массива признаков в ретинотопической карте прогнозирование может быть сведено к локальным перемещениям отдельных векторов признаков, сопровождаемым небольшими преобразованиями этих векторов. Это может быть выгодно реализовано с помощью локальных схем стробирования/маршрутизации. Для долгосрочного прогнозирования на более высоких уровнях абстракции может быть предпочтительнее использовать архитектуру трансформера. Блоки трансформеров особенно подходят для объектно-ориентированного рассуждения, в котором объекты взаимодействуют. Причина в том, что функция блоков трансформеров эквивариантна перестановке. Благодаря этому свойству не нужно беспокоиться о том, какой объект назначен какому входному токену: результат будет идентичен и согласован с входным назначением. Недавние работы в области робототехники на основе моделей предложили использовать трансформер, работающий на уровне целой траектории, налагая ограничения на схемы внимания для настройки предиктора на причинное прогнозирование или другие задачи (Janner et al., 2021).

Удобно, что функцию блока трансформера легко настроить, добавляя дополнительные входные токены. Эти дополнительные входы имеют эффект модуляции графа соединений, используемого остальной частью сети, тем самым позволяя задавать широкий спектр функций вход-выход.

Возможно, самая важная функция конфигуратора — это установка подцелей для агента и настройка модуля стоимости для этой подцели. Как упоминалось в Разделе 3.2, простой способ сделать стоимость настраиваемой — это модуляция весов линейной комбинации элементарных подмодулей стоимости. Это может быть уместно для неизменяемого подмодуля внутренней стоимости (Intrinsic Cost): сложная модуляция внутренней стоимости может затруднить контроль основных влечений агента, включая условия стоимости, которые реализуют защитные механизмы безопасности. Напротив, можно представить более сложные архитектуры, позволяющие гибко модулировать обучаемую часть критика (Trainable Critic). Как и в случае с предиктором, если высокоуровневая стоимость формулируется как набор желаемых отношений между объектами («гайка установлена на винт?»), можно использовать архитектуру трансформера, обученную измерять, в какой степени состояние мира расходится с условием, которое должно быть выполнено. Как и в предикторе, дополнительные входы токенов могут использоваться для модуляции функции.

Один вопрос остается без ответа: как конфигуратор может научиться разбивать сложную задачу на последовательность подцелей, каждая из которых может быть выполнена агентом. Я оставлю этот вопрос открытым для будущего исследования.

7. Связанные работы

Большинство идей, представленных в статье, не новы и обсуждались подробно в различных формах в когнитивной науке, нейробиологии, оптимальном управлении, робототехнике, ИИ и машинном обучении, особенно в обучении с подкреплением.

Возможно, главный оригинальный вклад статьи заключается в

  • общей когнитивной архитектуре, в которой все модули дифференцируемы и многие из них обучаемы.

  • H-JEPA: негенеративная иерархическая архитектура для предиктивных моделей мира, которая изучает представления на нескольких уровнях абстракции и нескольких временных масштабах.

  • семействе неконтрастных парадигм самообучения (self-supervised learning), которые создают представления, являющиеся одновременно информативными и предсказуемыми.

  • способе использования H-JEPA в качестве основы предиктивных моделей мира для иерархического планирования в условиях неопределенности.

Ниже приведена попытка связать настоящее предложение с соответствующими предыдущими работами. Учитывая объем предложения, ссылки не могут быть исчерпывающими.

7.1 Обучаемые Модели Мира, Прогнозирующее Управление Моделью, Иерархическое Планирование

Использование моделей в оптимальном управлении восходит к ранним временам с методом Келли-Брайсона (см. (Bryson and Ho, 1969) и ссылки в нем, или обзор (Morari and Lee, 1997)). Некоторые методы допускали онлайн идентификацию систем (Richalet et al., 1978).

Использование нейронных сетей для изучения моделей для управления — старая идея, восходящая к началу 1990-х годов (Jordan and Rumelhart, 1992; Narendra and Parthasarathy, 1990; Miller et al., 1995).

В контексте оптимального управления изучение сети политики, подобной Режиму-1, известно как прямое обратное управление.

Идея вывода в стиле Режима-2 над действиями с использованием предиктивной модели в контексте обучения с подкреплением также является старой идеей, например, архитектура Dyna Саттона (Sutton, 1991). См. (Bertsekas, 2019) для обширного обзора.

Идея обучаемых моделей недавно вновь вызвала интерес в различных контекстах (Ha and Schmidhuber, 2018b; Ha and Schmidhuber, 2018a; Hafner et al., 2018; Hafner et al., 2020) (см. (Moerland et al., 2020) для недавнего обзора обучения с подкреплением на основе моделей).

Изучение моделей мира особенно важно в контексте робототехники, особенно для захвата и манипулирования, где эффективность выборки имеет первостепенное значение, а симуляция часто неточна. Фактически, поскольку классические подходы обучения с подкреплением требуют слишком много испытаний для реальных приложений, интересные достижения в изучении моделей для управления появились в исследованиях робототехники на основе МО (Agrawal et al., 2016; Finn and Levine, 2017; Chua et al., 2018; Srinivas et al., 2018; Yu et al., 2020; Yarats et al., 2021). Для недавнего обзора см. (Levine, 2021) и ссылки в нем.

Сложной настройкой является та, в которой основной вход является визуальным, и модель мира должна быть изучена из видео. Ранние попытки обучить предиктивные модели без латентных переменных из простого видео давали размытые прогнозы (Lerer et al., 2016). Чтобы справиться с неопределенностью в прогнозах, можно использовать различные разновидности моделей с латентными переменными, такие как генеративные состязательные сети (GAN) (Goodfellow et al., 2014), вариационные автоэнкодеры (VAE) (Kingma and Welling, 2013), векторно-квантованные VAE (VQ-VAE) (van den Oord et al., 2017). Вариации этих методов были применены к прогнозированию видео и помогают представлять мультимодальные выходы и уменьшать размытость с помощью GAN (Mathieu et al., 2015; Luc et al., 2020), VAE (Babaeizadeh et al., 2017; Denton and Fergus, 2018; Henaff et al., 2019), или VQ-VAE (Walker et al., 2021). Хотя многие из этих методов не применялись к задачам управления, некоторые были применены к прогнозированию траекторий транспортных средств для автономного вождения (Henaff et al., 2019; Mercat et al., 2020), или к различным задачам управления роботами (Oh et al., 2015; Fragkiadaki et al., 2015; Agrawal et al., 2016; Finn et al., 2016; Nagabandi et al., 2017; Babaeizadeh et al., 2017; Srinivas et al., 2018). В отличие от предлагаемого JEPA, эти модели являются генеративными. Ключевой вопрос о том, как представить неопределенность в прогнозе, остается открытым.

Альтернативой регуляризованным моделям с латентными переменными являются контрастные методы, такие как контрастное предиктивное кодирование (CPC) (Henaff et al., 2019), которое применялось для изучения визуальных представлений через прогнозирование видео (van den Oord et al., 2018).

Для решения проблемы мультимодальности/размытости другие работы предложили выполнять прогнозирование видео в пространствах представлений. В некоторых работах пространство представлений получается из конвейера зрения, который был обучен в режиме с учителем, например, для выполнения семантической сегментации (Luc et al., 2017; Luc et al., 2018). К сожалению, требование наличия предварительно обученного конвейера зрения снижает общую применимость этих методов для изучения моделей мира путем наблюдения.

В том же духе, что и JEPA, были предложения по автоматическому изучению представлений видеокадров, чтобы их можно было легко предсказать. Эти предложения, как правило, ограничены изучением низкоуровневых признаков и часто используют реконструкцию через декодер как способ предотвращения коллапса (Goroshin et al., 2015a; Srivastava et al., 2015). Некоторые авторы предложили использовать временную инвариантность (или согласованность) для разделения содержимого области изображения и его параметров реализации (Wiskott and Sejnowski, 2002; Gregor and LeCun, 2010a; Goroshin et al., 2015b).

По крайней мере, одна недавняя работа применила неконтрастные методы SSL к архитектуре совместных вложений для управления роботами с некоторым успехом (Pari et al., 2021; ?).

Контрастные методы, примененные к совместным вложениям и прогнозированию, были успешно применены к распознаванию речи (Baevski et al., 2020) (см. (Mohamed et al., 2022) для недавнего обзора SSL в речи).

Для выполнения прогнозирования траекторий состояний недавние работы выступают за использование трансформеров, как предложено в настоящей статье. Трансформеры идеальны для представления динамики дискретных взаимодействующих объектов и были успешно применены к прогнозированию траекторий автомобилей (Mercat et al., 2020).

Интересным предложением является архитектура траекторного трансформера, в которой трансформер получает последовательность предсказанных состояний на протяжении всего эпизода (Janner et al., 2021). Паттерн внимания может быть ограничен, чтобы заставить систему обращать внимание только на прошлое, чтобы она могла работать в причинном режиме (не заглядывая в будущее), и обучена предсказывать следующее состояние, действия и стоимость из ранее наблюдаемых или предсказанных состояний, действий и стоимостей.

Иерархическое планирование — в основном нерешенная проблема. Уэйн и Эбботт предложили архитектуру, которая использует стек обученных прямых моделей, определяющих промежуточные цели для нижних слоев (Wayne and Abbott, 2014). Некоторые недавние работы определяют промежуточные цели для роботов в терминах параметров позы (Gehring et al., 2021). Более недавним предложением является система Director (Hafner et al., 2022), которая содержит иерархическую модель мира и архитектуру планирования, обученную сквозным образом через обучение с подкреплением.

Идея внутренней мотивации для обучения агента изучалась в контексте робототехники (Gottlieb et al., 2013). Наличие внутренней стоимости (Intrinsic Cost) обеспечивает дифференцируемый и эффективный способ побудить агента следовать определенному поведению и изучать определенные навыки.

7.2 Энергетические модели и архитектуры совместных вложений

Для многих авторов энергетическая модель (EBM) обозначает вероятностную модель, распределение которой является нормализованной отрицательной экспонентой энергетической функции.

В этой статье EBM обозначает гораздо более широкую категорию моделей, которые рассматривают энергетическую функцию как фундаментальную и напрямую манипулируют ее ландшафтом посредством обучения. В прошлом было предложено много методов, которые напрямую манипулируют энергией. Фактически, все традиционные методы обучения на основе оптимизации могут быть интерпретированы как методы на основе энергии (LeCun et al., 2006). В частности, методы дискриминативного обучения для задач структурного прогнозирования могут быть сформулированы как EBM (LeCun et al., 1998; LeCun et al., 2006).

Большинство подходов EBM для обучения без учителя или самообучения были контрастными. Самым ранним примером является машина Больцмана (Hinton and Sejnowski, 1983), которая является вероятностной генеративной энергетической моделью, обученной контрастно.

Архитектуры совместных вложений (JEA), обученные с помощью контрастных методов и методов максимизации взаимной информации, имеют долгую историю. Первой неконтрастной JEA была (Becker and Hinton, 1992), основанная на максимизации меры взаимной информации между представлениями из двух ветвей, видящих разные виды одной и той же сцены. Возможно, первым контрастным методом для JEA является так называемая «Сиамская сеть» (Bromley et al., 1994). Она была обучена контрастно для проверки подписей, сделанных от руки на планшете.

Идея JEA оставалась в значительной степени нетронутой более десяти лет, пока она не была возрождена в серии статей моей группы (Chopra et al., 2005; Hadsell et al., 2006) и группы Джеффри Хинтона (Goldberger et al., 2005). После возрождения глубокого обучения несколько статей использовали JEA для мелкозернистого распознавания, включая распознавание лиц (Taigman et al., 2014).

С появлением подходов SSL использование JEA, обученных контрастно, взорвалось в последние годы такими методами, как PIRL (Misra and Maaten, 2020), MoCo и MoCo-v2 (He et al., 2020; Chen et al., 2020b), и SimCLR (Chen et al., 2020a).

Некоторые методы можно рассматривать как подходы «дистилляции», в которых одна ветвь сиамской сети является учителем, чьи выходы используются в качестве целей для другой ветви. Это включает методы, в которых выходные векторы квантуются до дискретных прототипов кластеров (см. (Caron et al., 2020) и предшественников).

В последние годы появился ряд новых неконтрастных методов, таких как BYOL (Grill et al., 2020). Но класс неконтрастных методов, предлагаемых в настоящем предложении, предотвращает коллапс путем максимизации информационного содержания вложений. Это включает Barlow Twins (Zbontar et al., 2021), VICReg (Bardes et al., 2021), методы отбеливания (Ermolov et al., 2021) и методы максимального уменьшения скорости кодирования (см. (Dai et al., 2022) и ссылки в нем).

7.3 Человеческое и животное познание

Ограничения современных подходов к машинному обучению по сравнению с человеческим обучением очевидны (Lake et al., 2017a; Zaadnoordijk et al., 2022).

Маленькие дети быстро усваивают абстрактные концепции (Murphy, 2002), и модели, которые позволяют им ориентироваться, формировать цели и планировать сложные последовательности действий для их достижения (Gopnik and Meltzoff, 1997; Spelke and Kinzler, 2007; Carey, 2009; Gopnik et al., 2001).

В когнитивной науке идея о том, что мозг строит предиктивные модели мира, является распространенной, и вдохновила попытки воспроизвести этот процесс в машинах (Lake et al., 2017b; Orhan et al., 2020). Некоторые усилия были направлены на создание наборов видеоданных для тестирования интуитивного физического здравого смысла в машинах и младенцах (Riochet et al., 2019).

Способность планировать — хорошо изученная особенность человеческого интеллекта (Mattar and Lengyel, 2022). Есть доказательства того, что люди строят упрощенные представления мира для планирования, в которых несущественные детали абстрагируются (Ho et al., 2022).

Сознание — довольно спекулятивная тема из-за трудности определения того, что такое сознание. Я не буду спекулировать о том, может ли какая-то версия предложенной архитектуры обладать свойством, ассимилируемым с сознанием, а упомяну только работу Деэна и соавторов, которые предложили два типа сознания, называемые ими C1 и C2. C1 в значительной степени связан с модуляцией внимания, в то время как C2 требует способности самоконтроля, возможно, ассимилируемой с тем, что должен делать модуль конфигуратора в настоящем предложении (Dehaene et al., 2021).

8. Обсуждение, Ограничения, Более широкая значимость

Построение когнитивной архитектуры настоящего предложения, реализация всех деталей и заставление системы работать для нетривиальных задач не будет легкой задачей. Путь к успеху, вероятно, усеян непредвиденными препятствиями. Вероятно, потребуется много лет, чтобы решить их все.

8.1 Чего не хватает в Предлагаемой Модели?

Много тяжелой работы необходимо проделать, чтобы реализовать предложенную архитектуру и превратить ее в функциональную систему. Могут быть недостатки и ловушки, которые могут показаться неразрешимыми в рамках спецификаций предложенной архитектуры.

Первый вопрос заключается в том, можно ли построить и обучить иерархический JEPA из видео. Сможет ли он изучить тип иерархии абстрактных концепций, упомянутый в разделе 4.1?

Один несколько открытый вопрос относительно JEPA — как именно регуляризовать латентную переменную, чтобы минимизировать ее информационное содержание. Предложен ряд возможных механизмов: сделать латентную переменную дискретной, низкоразмерной, разреженной или стохастической. Но неясно, какой подход в конечном итоге будет лучшим.

Текущее предложение не предписывает конкретный способ, с помощью которого актор может выводить реализации латентных переменных и оптимальные последовательности действий. Хотя дифференцируемость всех модулей делает возможным в принципе использование оптимизации на основе градиента для вывода оптимальных последовательностей действий, задача оптимизации может быть очень сложной на практике. В частности, когда пространство действий дискретно или когда функция от действий к стоимости очень негладкая, методы на основе градиента могут быть неэффективными, требуя использования других (безградиентных) методов поиска (динамическое программирование, распространение убеждений, MCTS, SAT и т.д.).

Реализация множественных конфигураций латентных переменных при планировании/рассуждении в Режиме-2 может потребовать дополнительных механизмов, не описанных в настоящем предложении. Люди, кажется, наделены способностью спонтанно переключаться между альтернативными интерпретациями восприятия, что демонстрируется кубом Неккера и другими визуальными иллюзиями, имеющими несколько одинаково правдоподобных интерпретаций. В контексте настоящей модели различные интерпретации неоднозначного восприятия могут быть представлены разными значениями латентной переменной. В то время как можно представить ряд механизмов исследования для систематического исследования пространства возможных значений латентных переменных, такой механизм здесь не описан.

Настоящее предложение не уточняет детали архитектуры различных модулей. Например, вероятно, что предиктор потребует какого-то механизма динамической маршрутизации и стробирования в своей микроархитектуре. Предикторы для низкоуровневого представления, возможно, должны быть специализированы для представления своего рода небольших преобразований представления, которые могут произойти в краткосрочной перспективе. Модули предикторов, работающие с высокоуровневыми представлениями, могут потребовать более общих архитектур, манипулирующих объектами и их отношениями. Но ничто из этого не указано в настоящем предложении.

Аналогично, точная архитектура и функция краткосрочной памяти и то, как она может использоваться для представления убеждений о состоянии мира, в некоторой степени размыты. Оригинальная система Memory Network и ее преемники содержали идею, что нейронная сеть может использовать ассоциативную память как рабочую память для хранения и извлечения убеждений о состоянии мира между вычислительными циклами (Bordes et al., 2015; Sukhbaatar et al., 2015). Но заставить такую архитектуру работать для сложного планирования и управления может оказаться сложным.

Из всех наименее понятных аспектов текущего предложения модуль конфигуратора является самым загадочным. В частности, при планировании сложной задачи конфигуратор должен идентифицировать последовательности подцелей и настраивать агента на последовательное достижение этих подцелей. Точно как это сделать, не указано.

Это лишь список предвидимых вопросов, но многие вопросы и проблемы неизбежно возникнут при сборке экземпляров предлагаемых систем.

8.2 Более широкая значимость Предлагаемого Подхода

Хотя предложенная архитектура не специально разработана для моделирования автономного интеллекта, рассуждений и обучения у людей и других животных, можно провести некоторые параллели.

Нижеследующее несколько спекулятивно и предоставляется как способ связать некоторые концепции в когнитивной науке и нейробиологии, вдохновившие настоящую работу.

8.2.1 Может ли эта Архитектура стать Основой Модели Животного Интеллекта?

Многие модули в предложенной архитектуре имеют аналоги в мозге млекопитающих, выполняющие схожие функции.

Модуль восприятия соответствует зрительным, слуховым и другим сенсорным областям коры, а также некоторым ассоциативным областям. Модель мира и критик соответствуют различным частям префронтальной коры. Модуль внутренней стоимости (intrinsic cost) соответствует структурам в базальных ганглиях, участвующим в вознаграждении, включая миндалевидное тело. Обучаемый критик может соответствовать части префронтальной коры, участвующей в предсказании вознаграждения. Функция краткосрочной памяти пересекается с тем, что известно о гиппокампе. Конфигуратор может соответствовать структурам в префронтальной коры, которые выполняют исполнительный контроль и модулируют внимание. Актор объединяет области в премоторной коре, которые разрабатывают и кодируют двигательные планы.

Идея предиктивной модели мира давно является видной концепцией в когнитивной науке, а идея предиктивного кодирования — видной концепцией в нейробиологии. Архитектура JEPA и соответствующий неконтрастный метод самообучения в некоторой степени согласуются с идеями предиктивного кодирования и эффективного кодирования.

Предложенная архитектура имеет единый механизм модели мира, который может быть настроен для текущей задачи конфигуратором. Я утверждал, что это может не только дать вычислительное преимущество за счет повторного использования оборудования, но и позволить делиться знаниями между несколькими задачами. Гипотеза о едином, настраиваемом механизме модели мира в человеческом мозге может объяснить, почему люди могут по существу выполнять только одну «сознательную» задачу рассуждения и планирования за раз. Высокоспекулятивная идея заключается в том, что иллюзия сознания может быть побочным эффектом модуля, подобного конфигуратору, в мозге, который наблюдает за функцией остального мозга и настраивает его для текущей задачи. Возможно, если бы мозг был достаточно большим, чтобы содержать много независимых, ненастраиваемых моделей мира, конфигуратор был бы не нужен, и иллюзия сознания исчезла бы.

Каков субстрат эмоций у животных и людей? Мгновенные эмоции (например, боль, удовольствие, голод и т.д.) могут быть результатом структур мозга, играющих роль, аналогичную модулю внутренней стоимости в предложенной архитектуре. Другие эмоции, такие как страх или ликование, могут быть результатом предвосхищения исхода структурами мозга, функция которых аналогична обучаемому критику.

Наличие модуля стоимости, который управляет поведением агента путем поиска оптимальных действий, предполагает, что автономные интеллектуальные агенты типа предложенного здесь неизбежно будут обладать эквивалентом эмоций. Аналогично животным и людям, машинные эмоции будут продуктом внутренней стоимости или предвосхищения исходов от обучаемого критика.

8.2.2 Может ли это быть Путь к Машинному Здравому Смыслу?

Широко распространено мнение, что ни одна из существующих систем ИИ не обладает каким-либо уровнем здравого смысла, даже на уровне, который можно наблюдать у домашней кошки. Животные, кажется, способны усвоить достаточно фоновых знаний о том, как работает мир, чтобы проявлять определенный уровень здравого смысла. Напротив, системы ИИ, даже при (предварительном) обучении в режиме самообучения (например, из текста), кажется, проявляют очень ограниченные уровни здравого смысла, что делает их несколько хрупкими.

Например, большие языковые модели (LLM), кажется, обладают удивительно большим объемом фоновых знаний, извлеченных из письменного текста. Но многие знания человеческого здравого смысла не представлены ни в каком тексте и являются результатом нашего взаимодействия с физическим миром. Поскольку LLM не имеют прямого опыта взаимодействия с лежащей в основе реальностью, тип знаний здравого смысла, который они демонстрируют, очень поверхностен и может быть оторван от реальности.

Возможная характеристика здравого смысла — это способность использовать модели мира для заполнения пробелов, например, предсказание будущего или, в более общем смысле, заполнение информации о мире, недоступной из восприятия или памяти. При таком определении здравый смысл — это способность, возникающая из набора моделей мира или из единого механизма модели, настраиваемого для обработки текущей ситуации. Этот взгляд на здравый смысл squarely лежит в лагере «обоснованного интеллекта» (grounded intelligence): здравый смысл — это набор моделей от низких уровней абстракции до высоких уровней, вплоть до знаний, приобретенных через язык.

Может ли SSL, примененный к настраиваемому H-JEPA, составить субстрат машинного здравого смысла? Сможет ли должным образом обученный и настроенный H-JEPA вложить достаточно предиктивных знаний и захватить достаточно зависимостей о мире, чтобы проявить определенный уровень здравого смысла?

Я предполагаю, что здравый смысл может возникнуть из изучения моделей мира, которые фиксируют самосогласованность и взаимные зависимости наблюдений в мире, позволяя агенту заполнять недостающую информацию и обнаруживать нарушения его модели мира.

8.3 Дело ли все в масштабировании? Достаточно ли вознаграждения?

В этом разделе рассматривается несколько потенциальных путей к интеллекту человеческого уровня, предложенных в последние годы. Удивительная сила больших архитектур трансформеров, обученных предсказывать текст и другие модальности, заставила некоторых утверждать, что нам нужно просто масштабировать эти модели (Brown et al., 2020; Brown et al., 2020). Удивительная сила обучения с подкреплением для игр и других простых сред заставила других утверждать, что вознаграждения достаточно (Silver et al., 2021). Наконец, ограничения текущих систем глубокого обучения, когда дело доходит до рассуждений, заставили некоторых утверждать, что системы глубокого обучения должны быть дополнены жестко заданными схемами для обеспечения манипулирования символами (Marcus and Davis, 2019).

8.3.1 Масштабирования недостаточно

Большие языковые модели (LLM) и, в более общем плане, крупномасштабные архитектуры трансформеров, обученные с использованием формы генеративного самообучения, были удивительно успешны в захвате знаний, присутствующих в тексте. Это привело к дебатам в сообществе ИИ о том, можно ли достичь ИИ человеческого уровня путем масштабирования этих архитектур. Моя позиция в этих дебатах заключается в том, что я не верю, что масштабирования достаточно по двум основным причинам.

Во-первых, текущие модели работают с «токенизированными» данными и являются генеративными. Каждая модальность входа должна быть превращена в последовательность (или набор) «токенов», закодированных как векторы. Хотя это хорошо работает для текста, который уже является последовательностью дискретных токенов, это менее подходит для непрерывных сигналов высокой размерности, таких как видео. Тип обучения SSL, используемый для моделей в стиле LLM, можно рассматривать как своего рода модель без латентных переменных, обученную с помощью специфического контрастного метода, называемого денозйзинговым автоэнкодером (Vincent et al., 2010), или в данном случае маскированным автоэнкодером (Devlin et al., 2018). Следовательно, они подвержены ограничениям генеративных моделей, моделей без латентных переменных и контрастных методов. Генеративные модели испытывают трудности с представлением сложных неопределенностей в непрерывных пространствах. LLM упрощают представление неопределенности в прогнозе, имея дело только с дискретными объектами из конечной коллекции (например, слова из словаря). Представление неопределенности относительно предсказываемого слова сводится к созданию вектора, компоненты которого являются оценками или вероятностями для каждого слова (или дискретного токена) в словаре. Но этот подход не работает для высокоразмерных непрерывных модальностей, таких как видео. Для представления таких данных необходимо устранить нерелевантную информацию о моделируемой переменной через кодировщик, как в JEPA. Кроме того, высокая размерность сигнала делает невозможным представление неопределенности через нормализованное распределение.

Во-вторых, текущие модели способны только на очень ограниченные формы рассуждений. Отсутствие абстрактных латентных переменных в этих моделях исключает исследование множественных интерпретаций восприятия и поиск оптимальных курсов действий для достижения цели. Фактически, динамическое определение цели в таких моделях по существу невозможно.

8.3.2 Вознаграждения недостаточно

Предложенная архитектура разработана для минимизации количества действий, которые система должна предпринять в реальном мире, чтобы изучить задачу. Это делается путем изучения модели мира, которая захватывает как можно больше знаний о мире без совершения действий в мире. Она использует внутренние стоимости (intrinsic costs), которые являются дифференцируемыми функциями измеренных или предсказанных состояний мира. Это делает предложение более похожим на оптимальное управление, чем на обучение с подкреплением. В предложенной модели большая часть обучения происходит на уровне модели мира (кодировщик восприятия и предиктор). В этом контексте, какова роль обучения с подкреплением (RL)?

В большинстве настроек RL вознаграждение (или стоимость, которая является отрицательным вознаграждением) передается агенту средой. Другими словами, модулем внутренней стоимости является сама среда и, следовательно, неизвестной функцией. Значение функции может быть исследовано путем наблюдения за состоянием мира, совершения действия и наблюдения за результирующим вознаграждением. Градиент вознаграждения по отношению к действию или состоянию неизвестен и должен быть оценен путем многократных попыток действий, как в методах градиента политики. В методах «Актор-Критик» функция вознаграждения аппроксимируется модулем критика, который обучен аппроксимировать ожидаемые будущие значения вознаграждения. Критик обеспечивает дифференцируемую аппроксимацию функции вознаграждения.

Но RL без моделей крайне неэффективен с точки зрения выборки, по крайней мере, по сравнению с человеческим и животным обучением, требуя очень большого количества попыток для изучения навыка. Скалярные вознаграждения предоставляют низкоинформативную обратную связь для обучающейся системы. Как следствие, чистая система RL требует очень большого количества попыток для изучения даже относительно простых задач. RL на основе моделей явно имеет потенциал быть значительно более эффективным с точки зрения выборки. Но возникает вопрос, как обучать модель мира: обучается ли она на основе действий и получения вознаграждений или на основе прогнозирования состояния мира? В последнем случае вознаграждения явно недостаточно: большинство параметров в системах обучаются для прогнозирования большого количества наблюдений в мире. Вопреки названию недавнего программного документа Silver et al. (Silver et al., 2021), вознаграждение играет относительно незначительную роль в этом сценарии.

8.3.3 Нужны ли нам символы для рассуждения?

В предлагаемой архитектуре рассуждение сводится к минимизации энергии или удовлетворению ограничений актором с использованием различных методов поиска для нахождения подходящей комбинации действий и латентных переменных, как указано в разделе 3.1.4.

Если действия и латентные переменные непрерывны, и если модули предсказания и стоимости дифференцируемы и ведут себя относительно хорошо, можно использовать градиентные методы для выполнения поиска. Но могут возникать ситуации, когда выход предиктора быстро изменяется как функция действия, и где пространство действий по сути является разрывным. Это, вероятно, будет происходить на высоких уровнях абстракции, где выборы с большей вероятностью носят качественный характер. Высокоуровневое решение для беспилотного автомобиля может соответствовать «повороту налево или направо на развилке», тогда как низкоуровневая версия была бы последовательностью углов поворота колёс.

Если пространство действий дискретно с низкой мощностью множества, актор может использовать методы полного перебора. Если мощность множества действий, а следовательно и коэффициент ветвления, слишком велики, актору, возможно, придётся прибегнуть к эвристическим методам поиска, включая поиск по дереву Монте-Карло, или другим безградиентным методам. Если функция стоимости удовлетворяет уравнениям Беллмана, можно использовать динамическое программирование.

Но преимущество эффективности градиентных методов поиска по сравнению с безградиентными методами поиска побуждает нас искать способы, при которых процедура обучения модели мира находит иерархические представления, с которыми задача планирования/рассуждения представляет собой непрерывную релаксацию в противном случае дискретной задачи.

Остаётся вопрос, может ли предлагаемый здесь тип рассуждения охватить все формы рассуждения, на которые способны люди и животные.

Благодарности

Идеи в этой статье являются квинтэссенцией многолетних взаимодействий со многими людьми. Невозможно перечислить их всех здесь.

Я перечислю некоторых из наиболее значимых: Леон Ботту, Йошуа Бенджио, Джеффри Хинтон, Роб Фергус и Джитендра Малик; Эммануэль Дюпу и Станислас Деан; Микаэль Энафф,

Альфредо Канциани и Николя Карион из NYU; Ли Цзин, Юбэй Чен, Рэндалл Балестриеро и Стефан Дени из FAIR; Влад Собаль, Цзячэнь Чжу и Катрина Евтимова из NYU.

Я благодарен следующим коллегам за их комментарии к рукописи: Оливье Делалло, Гас Ся, Йошуа Бенджио и Эммануэль Дюпу.

Ссылки

Agrawal, P., Nair, A., Abbeel, P., Malik, J., and Levine, S. (2016). Learning to poke by poking: Experiential learning of intuitive physics. CoRR, abs/1606.07419.

Babaeizadeh, M., Finn, C., Erhan, D., Campbell, R. H., and Levine, S. (2017). Stochastic variational video prediction. CoRR, abs/1710.11252.

Baevski, A., Zhou, Y., Mohamed, A., and Auli, M. (2020). wav2vec 2.0: A framework for self-supervised learning of speech representations. In Larochelle, H., Ranzato, M., Hadsell, R., Balcan, M., and Lin, H., editors, Advances in Neural Information Processing Systems, volume 33, pages 12449-12460. Curran Associates, Inc.

Bardes, A., Ponce, J., and LeCun, Y. (2021). Vicreg: Variance-invariance-covariance regularization for self-supervised learning. In International Conference on Learning Representations (ICLR 2022). arXiv preprint arXiv:2105.04906.

Battaglia, P., Pascanu, R., Lai, M., Jimenez Rezende, D., et al. (2016). Interaction networks for learning about objects, relations and physics. Advances in neural information processing systems, 29.

Becker, S. and Hinton, G. E. (1992). Self-organizing neural network that discovers surfaces in random-dot stereograms. Nature, 355(6356):161-163.

Bertsekas, D. (2019). Reinforcement learning and optimal control. Athena Scientific.

Bordes, A., Usunier, N., Chopra, S., and Weston, J. (2015). Large-scale simple question answering with memory networks. arXiv:1506.02075.

Bromley, J., Guyon, I., LeCun, Y., Sackinger, E., and Shah, R. (1994). Signature verification using a “siamese” time delay neural network. In NeurIPS.

Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D., Wu, J., Winter, C., Hesse, C., Chen, M., Sigler, E., Litwin, M., Gray, S., Chess, B., Clark, J., Berner, C., McCandlish, S., Radford, A., Sutskever, I., and Amodei, D. (2020). Language models are few-shot learners. In Larochelle, H., Ranzato, M., Hadsell, R., Balcan, M., and Lin, H., editors, Advances in Neural Information Processing Systems, volume 33, pages 1877- 1901. Curran Associates, Inc.

Bryson, A. and Ho, Y. (1969). Applied optimal control. Blaisdell, Waltham, MA.

Carey, S. (2009). The Origin of Concepts. Oxford University Press, New York, New York, USA.

Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A., and Zagoruyko, S. (2020). End-to-end object detection with transformers. In 16th European Conference, Glasgow, UK (ECCV 2020), page 213-229.

Caron, M., Misra, I., Mairal, J., Goyal, P., Bojanowski, P., and Joulin, A. (2020). Unsupervised learning of visual features by contrasting cluster assignments. In Advances in Neural Information Processing Systems.

Carreira-Perpiñan, M. A. and Hinton, G. (2005). On contrastive divergence learning. In Cowell, R. G. and Ghahramani, Z., editors, Proceedings of the Tenth International Workshop on Artificial Intelligence and Statistics, volume R5 of Proceedings of Machine Learning Research, pages 33-40. PMLR. Reissued by PMLR on 30 March 2021.

Chen, T., Kornblith, S., Swersky, K., Norouzi, M., and Hinton, G. (2020a). Big selfsupervised models are strong semi-supervised learners. In NeurIPS.

Chen, X., Fan, H., Girshick, R., and He, K. (2020b). Improved baselines with momentum contrastive learning. arXiv preprint arXiv:2003.04297.

Chopra, S., Hadsell, R., and LeCun, Y. (2005). Learning a similarity metric discriminatively with application to face verification. In 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05), volume 1, pages 539-546. IEEE.

Chua, K., Calandra, R., McAllister, R., and Levine, S. (2018). Deep reinforcement learning in a handful of trials using probabilistic dynamics models. CoRR, abs/1805.12114.

Craik, K. J. W. (1943). The nature of explanation. University Press, Macmillan.

Dai, X., Tong, S., Li, M., Wu, Z., Psenka, M., Chan, K. H. R., Zhai, P., Yu, Y., Yuan, X., Shum, H.-Y., and Ma, Y. (2022). Ctrl: Closed-loop transcription to an ldr via minimaxing rate reduction. Entropy, 24(4):456.

Dehaene, S., Lau, H., and Kouider, S. (2021). What is consciousness, and could machines have it? Robotics, AI, and Humanity, pages 43-56.

Denton, E. and Fergus, R. (2018). Stochastic video generation with a learned prior. arXiv preprint arXiv 1802.07687.

Devlin, J., Chang, M.-W., Lee, K., and Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.

Doi, E., Balcan, D. C., and Lewicki, M. S. (2007). Robust coding over noisy overcomplete channels. IEEE Transactions on Image Processing, 16(2):442-452.

Ermolov, A., Siarohin, A., Sangineto, E., and Sebe, N. (2021). Whitening for self-supervised representation learning.

Evtimova, K. and LeCun, Y. (2022). Sparse coding with multi-layer decoders using variance regularization. arXiv:2112.09214.

Finn, C., Goodfellow, I. J., and Levine, S. (2016). Unsupervised learning for physical interaction through video prediction. CoRR, abs/1605.07157.

Finn, C. and Levine, S. (2017). Deep visual foresight for planning robot motion. In 2017 IEEE International Conference on Robotics and Automation (ICRA), pages 2786-2793. IEEE.

Fragkiadaki, K., Agrawal, P., Levine, S., and Malik, J. (2015). Learning visual predictive models of physics for playing billiards. CoRR, abs/1511.07404.

Gehring, J., Synnaeve, G., Krause, A., and Usunier, N. (2021). Hierarchical skills for efficient exploration. Advances in Neural Information Processing Systems, 34:11553-11564.

Goldberger, J., S.Roweis, Hinton, G., and Salakhutdinov, R. (2005). Neighbourhood components analysis. In Saul, L. K., Weiss, Y., and Bottou, L., editors, Advances in Neural Information Processing Systems 17, pages 513-520. MIT Press, Cambridge, MA.

Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., and Bengio, Y. (2014). Generative adversarial nets. In Advances in Neural Information Processing Systems, pages 2672-2680.

Gopnik, A. and Meltzoff, A. N. (1997). Words, Thoughts, and Theories. MIT Press, Cambridge, MA.

Gopnik, A., Meltzoff, A. N., and Kuhl, P. K. (2001). The Scientist in the Crib: What Early Learning Tells Us About the Mind. Perennial, New York, NY.

Goroshin, R., Bruna, J., Tompson, J., Eigen, D., and LeCun, Y. (2015a). Unsupervised feature learning from temporal data. In International Conference on Computer Vision (ICCV 2015).

Goroshin, R., Mathieu, M., and LeCun, Y. (2015b). Learning to linearize under uncertainty. In Advances in Neural Information Processing Systems (NIPS 2015), volume 28.

Gottlieb, J., Oudeyer, P. Y., Lopes, M., and Baranes, A. (2013). Information-seeking curiosity, and attention: Computational and neural mechanisms. Trends in Cognitive Sciences, 17:585-593.

Gregor, K. and LeCun, Y. (2010a). Emergence of complex-like cells in a temporal product network with local receptive fields. arXiv preprint arXiv:1006.0448.

Gregor, K. and LeCun, Y. (2010b). Learning fast approximations of sparse coding. In Proc. International Conference on Machine learning (ICML’10).

Grill, J.-B., Strub, F., Altché, F., Tallec, C., Richemond, P. H., Buchatskaya, E., Doersch, C., Pires, B. A., Guo, Z. D., Azar, M. G., Piot, B., Kavukcuoglu, K., Munos, R., and Valko, M. (2020). Bootstrap your own latent: A new approach to self-supervised learning. In NeurIPS.

Ha, D. and Schmidhuber, J. (2018a). Recurrent world models facilitate policy evolution. In Bengio, S., Wallach, H., Larochelle, H., Grauman, K., Cesa-Bianchi, N., and Garnett, R., editors, Advances in Neural Information Processing Systems, volume 31.

Ha, D. and Schmidhuber, J. (2018b). World models. arXiv preprint arXiv:1803.10122.

Hadsell, R., Chopra, S., and LeCun, Y. (2006). Dimensionality reduction by learning an invariant mapping. In CVPR.

Hafner, D., Lee, K.-H., Fischer, I., and Abbeel, P. (2022). Deep hierarchical planning from pixels. arXiv preprint arXiv:2206.04114.

Hafner, D., Lillicrap, T., Fischer, I., Villegas, R., Ha, D., Lee, H., and Davidson, J. (2018). Learning latent dynamics for planning from pixels. arXiv 1811.04551.

Hafner, D., Lillicrap, T., Norouzi, M., and Ba, J. (2020). Mastering atari with discrete world models. arXiv preprint arXiv:2010.02193.

He, K., Fan, H., Wu, Y., Xie, S., and Girshick, R. (2020). Momentum contrast for unsupervised visual representation learning. In CVPR.

Henaff, M., Canziani, A., and LeCun, Y. (2019). Model-predictive policy learning with uncertainty regularization for driving in dense traffic. In ICLR-19. arXiv:1901.02705.

Henaff, M., Weston, J., Szlam, A., Bordes, A., and LeCun, Y. (2017). Tracking the world state with recurrent entity networks. In International Conference on Learning Representations (ICLR 2017).

Hinton, G. and Sejnowski, T. (1983). Optimal perceptual inference. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 448-453, Washington 1983. IEEE, New York.

Ho, M. K., Abel, D., Correa, C. G., Littman, M. L., Cohen, J. D., and Griffiths, T. L. (2022). People construct simplified mental representations to plan. Nature, 606(7912):129-136.

Henaff, O. J., Srinivas, A., De Fauw, J., Razavi, A., Doersch, C., Eslami, S. M. A., and van den Oord, A. (2019). Data-efficient image recognition with contrastive predictive coding. In ICML.

Janner, M., Li, Q., and Levine, S. (2021). Offline reinforcement learning as one big sequence modeling problem. In Advances in Neural Information Processing Systems.

Jing, L., Zbontar, J., et al. (2020). Implicit rank-minimizing autoencoder. Advances in Neural Information Processing Systems, 33:14736-14746.

Jordan, M. I. and Rumelhart, D. E. (1992). Forward models: Supervised learning with a distal teacher. Cognitive science, 16(3):307-354.

Kahneman, D. (2011). Thinking, fast and slow. Macmillan.

Kingma, D. P. and Welling, M. (2013). Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114.

Lake, B. M., Ullman, T. D., Tenenbaum, J. B., and Gershman, S. J. (2017a). Building machines that learn and think like people. Behavioral and brain sciences, 40.

Lake, B. M., Ullman, T. D., Tenenbaum, J. B., and Gershman, S. J. (2017b). Building machines that learn and think like people. Behavioral and Brain Sciences, 40:E253.

LeCun, Y., Bottou, L., Bengio, Y., and Haffner, P. (1998). Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278-2324.

LeCun, Y., Chopra, S., Hadsell, R., Ranzato, M., and Huang, F. (2006). A tutorial on energy-based learning. In Bakir, G., Hofman, T., Schölkopf, B., Smola, A., and Taskar, B., editors, Predicting Structured Data. MIT Press.

Lerer, A., Gross, S., and Fergus, R. (2016). Learning physical intuition of block towers by example. In Proceedings of the 33nd International Conference on Machine Learning, ICML 2016, New York City, NY, USA, June 19-24, 2016, pages 430-438.

Levine, S. (2021). Understanding the world through action. arXiv:2110.12543. https:// arxiv.org/abs/2110.12543.

Luc, P., Clark, A., Dieleman, S., Casas, D. d. L., Doron, Y., Cassirer, A., and Simonyan, K. (2020). Transformation-based adversarial video prediction on large-scale data. arXiv preprint arXiv:2003.04035.

Luc, P., Couprie, C., Lecun, Y., and Verbeek, J. (2018). Predicting future instance segmentation by forecasting convolutional features. In Proceedings of the european conference on computer vision (ECCV), pages 584-599.

Luc, P., Neverova, N., Couprie, C., Verbeek, J., and LeCun, Y. (2017). Predicting deeper into the future of semantic segmentation. In Proceedings of the IEEE international conference on computer vision, pages 648-657.

Marcus, G. and Davis, E. (2019). Rebooting AI: Building artificial intelligence we can trust. Vintage.

Mathieu, M., Couprie, C., and LeCun, Y. (2015). Deep multi-scale video prediction beyond mean square error. In ICLR 16. arXiv preprint arXiv:1511.05440.

Mattar, M. G. and Lengyel, M. (2022). Planning in the brain. Neuron, 110(6):914-934.

Mercat, J., Gilles, T., El Zoghby, N., Sandou, G., Beauvois, D., and Gil, G. P. (2020). Multihead attention for multi-modal joint vehicle motion forecasting. In 2020 IEEE International Conference on Robotics and Automation (ICRA), pages 9638-9644. IEEE.

Miller, A. H., Fisch, A., Dodge, J., Karimi, A.-H., Bordes, A., and Weston, J. (2016). Key-value memory networks for directly reading documents. In EMNLP-16.

Miller, W. T., Sutton, R. S., and Werbos, P. J. (1995). Neural networks for control. MIT press.

Misra, I. and Maaten, L. v. d. (2020). Self-supervised learning of pretext-invariant representations. In CVPR.

Moerland, Thomas, M., Broekens, J., and Jonker, Catholijn, M. (2020). Model-based reinforcement learning: A survey. arXiv:2006.16712. https://arxiv.org/abs/2006. 16712.

Mohamed, A., Lee, H.-y., Borgholt, L., Havtorn, J. D., Edin, J., Igel, C., Kirchhoff, K., Li, S.-W., Livescu, K., Maaløe, L., et al. (2022). Self-supervised speech representation learning: A review. arXiv preprint arXiv:2205.10643.

Morari, M. and Lee, J. H. (1997). Model predictive control: Past, present and future. Computers and Chemical Engineering, 23:667-682.

Murphy, G. L. (2002). The Big Book of Concepts. MIT Press, Cambridge, MA.

Nagabandi, A., Kahn, G., Fearing, R. S., and Levine, S. (2017). Neural network dynamics for model-based deep reinforcement learning with model-free fine-tuning. CoRR, abs/1708.02596.

Narendra, K. and Parthasarathy, K. (1990). Identification and control of dynamical systems using neural networks. IEEE Transactions on neural networks, 1(1):4-27.

Oh, J., Guo, X., Lee, H., Lewis, R. L., and Singh, S. (2015). Action-conditional video prediction using deep networks in atari games. Advances in neural information processing systems, 28.

Olshausen, B. A. and Field, D. J. (1996). Emergence of simple-cell receptive field properties by learning a sparse code for natural images. Nature, 381(6583):607-609.

Orhan, E., Gupta, V., and Lake, B. M. (2020). Self-supervised learning through the eyes of a child. Advances in Neural Information Processing Systems, 33:9960-9971.

Pari, J., Shafiullah, N. M., Arunachalam, S. P., and Pinto, L. (2021). The surprising effectiveness of representation learning for visual imitation. In Robotics Science and Systems 2022. arXiv preprint arXiv:2112.01511.

Richalet, J., Rault, A., Testud, J. L., and Papon, J. (1978). Model predictive heuristic control: Applications to industrial processes. Automatica, 14(5):413-428.

Riochet, R., Castro, M. Y., Bernard, M., Lerer, A., Fergus, R., Izard, V., and Dupoux, E. (2019). Intphys: A benchmark for visual intuitive physics reasoning. arXiv:1803.07616.

Silver, D., Singh, S., Precup, D., and Sutton, R. S. (2021). Reward is enough. Artificial Intelligence, 299:103535.

Sobal, V., Canziani, A., Carion, N., Cho, K., and LeCun, Y. (2022). Separating the world and ego models for self-driving. arXiv:2204.07184.

Spelke, E. S. and Kinzler, K. D. (2007). Core knowledge. Developmental Science, 10:89-96.

Srinivas, A., Jabri, A., Abbeel, P., Levine, S., and Finn, C. (2018). Universal planning networks. CoRR, abs/1804.00645.

Srivastava, N., Mansimov, E., and Salakhudinov, R. (2015). Unsupervised learning of video representations using lstms. In Bach, F. and Blei, D., editors, Proceedings of the 32nd International Conference on Machine Learning, volume 37 of Proceedings of Machine Learning Research, pages 843-852, Lille, France. PMLR.

Sukhbaatar, S., Weston, J., Fergus, R., et al. (2015). End-to-end memory networks. Advances in neural information processing systems, 28.

Sutton, R. S. (1991). Dyna, an integrated architecture for learning, planning, and reacting. ACM Sigart Bulletin, 2(4):160-163.

Taigman, Y., Yang, M., Ranzato, M., and Wolf, L. (2014). Deepface: Closing the gap to human-level performance in face verification. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 1701-1708.

van den Oord, A., Li, Y., and Vinyals, O. (2018). Representation learning with contrastive predictive coding. arXiv preprint arXiv:1807.03748.

van den Oord, A., Vinyals, O., and Kavukcuoglu, K. (2017). Neural discrete representation learning. In Guyon, I., Luxburg, U. V., Bengio, S., Wallach, H., Fergus, R., Vishwanathan, S., and Garnett, R., editors, Advances in Neural Information Processing Systems, volume 30.

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., and Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.

Vincent, P., Larochelle, H., Lajoie, I., Bengio, Y., Manzagol, P.-A., and Bottou, L. (2010). Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion. Journal of machine learning research, 11(12).

Walker, J., Razavi, A., and Oord, A. v. d. (2021). Predicting video with vqvae. arXiv preprint arXiv:2103.01950.

Wayne, G. and Abbott, L. (2014). Hierarchical control using networks trained with higherlevel forward models. Neural Computation, 26(10):2163-2193.

Wiskott, L. and Sejnowski, T. J. (2002). Slow feature analysis: Unsupervised learning of invariances. Neural computation, 14(4):715-770.

Yarats, D., Kostrikov, I., and Fergus, R. (2021). Image augmentation is all you need: Regularizing deep reinforcement learning from pixels. In ICLR.

Yu, T., Thomas, G., Yu, L., Ermon, S., Zou, J., Levine, S., Finn, C., and Ma, T. (2020). Mopo: Model-based offline policy optimization. arXiv preprint arXiv:2005.13239.

Zaadnoordijk, L., Besold, T., and Cusack, R. (2022). Lessons from infant learning for unsupervised machine learning. Nature Machine Intelligence, 4:510-520.

Путь к автономному машинному интеллекту - 475

Рисунок 18: Символы, используемые в архитектурных диаграммах.

В архитектурных диаграммах используются символы, обычно применяемые для построения фактовых графов — круги для переменных, прямоугольники для факторов — а также закругленные прямоугольники для представления детерминированных функций. Заполненные круги обозначают наблюдаемые переменные, или переменные, которые являются выходами детерминированных функций.

Полые круги обозначают скрытые переменные, т. е. переменные, которые необходимо вывести путем минимизации некоторых затрат или отобрать из распределения.

Красные прямоугольники представляют энергетические термины. Эти модули имеют неявный скалярный выход, который аддитивно вносит вклад в общую энергию системы. Это похоже на соглашение, используемое для факторных графов. Закругленные прямоугольники представляют детерминированные функции, которые могут иметь один или несколько входов. При заданном наборе входов выход считается легко вычисляемым и уникальным. Обычно предполагается, что функция дифференцируема. Она может содержать обучаемые параметры.

Недетерминированные функции представлены, как показано справа. Они состоят из детерминированной функции g(x,z), в которой одним из входов является скрытая переменная z. Скрытая переменная рассматривается как изменяющаяся в пределах уровня, заданного термином регуляризующей энергии R(z). Когда z варьируется в наборе уровнейmathcal{Z}_{h}={z|R(z)<h}, выходtilde{y}будет варьироваться в набореmathcal{Y}_{h}={y|y=g(x,z),forall zinmathcal{Z}_{h}}

В некоторых случаях энергетический член может быть преобразован в вероятностное распределение (см. текст).

Приложение: Символы и обозначения

Архитектурные диаграммы в этой статье используют символы, показанные на рисунке 18.

Мы используем символы, в некоторой степени похожие на представление факторных графов: круги для переменных, прямоугольники для факторов. Однако есть два основных различия. Во-первых, факторы представляют аддитивные энергетические члены, а не мультипликативные вероятностные факторы. Во-вторых, мы используем дополнительный символ — прямоугольники со скруглёнными углами — для представления детерминированных функций с чёткой направленностью от входов к выходам.

Более точно:

  • Закрашенные круги представляют наблюдаемые переменные или переменные, являющиеся выходами детерминированных функций.

  • Пустые круги представляют латентные переменные, т.е. переменные, которые должны быть выведены путём минимизации некоторой стоимости, варьирования по множеству или выборки из распределения.

  • Красные прямоугольники представляют энергетические члены. Эти модули имеют неявный скалярный выход, который аддитивно вносит вклад в полную энергию системы.

  • Прямоугольники со скруглёнными углами представляют детерминированные функции, которые могут иметь один или несколько входов. При заданном наборе входов предполагается, что выход легко вычислим и единственен. Обычно предполагается, что функция дифференцируема. Она может содержать обучаемые параметры. Такой модуль обычно реализуется как глубокая нейронная сеть.

Недетерминированные функции не имеют выделенного символа, но должны представляться как комбинация детерминированных функций, энергетических модулей и латентных переменных. Пример показан справа на рисунке 18. Недетерминированная функция представляется детерминированной функциейtilde{y}=g(x,z), выход которой зависит от латентной переменной z. Латентная переменная подаётся в регуляризующий энергетический членR(z).Сначала определимmathcal{Z}_{h}как уровневое множество z, т.е. множество z, для которыхR(z)меньше порога h:

mathcal {Z} _ {h}={z / R (z) < h }

Когдаzварьируется поmathcal{Z}_{h}, выход будет варьироваться по множеству:

mathcal {Y} _ {h}={y | y=g (x, z), forall z in mathcal {Z} _ {h} }

В некоторых случаях эта схема может использоваться для представления вероятностных распределений. Сначала энергетический член преобразуется в вероятностное распределение с использованием формулы Гиббса–Больцмана:

P (z)=frac {exp (- R (z))}{int_ {z ^ {prime}} exp (- R left(z ^ {prime}right))}

Выборка латентной переменной из этого распределения подразумевает распределение по y:

P (y | x)=int_ {z} delta (y - g (x, z)) P (z)

гдеdelta()— дельта-функция Дирака.

Путь к автономному машинному интеллекту - 490

Рисунок 19: Амортизированное выводение с EBM. Энкодер обучается порождатьtilde{z}=mathrm{Enc}(s_{x},y), чтобы аппроксимировать значение латентной переменной, минимизирующей энергиюtilde{z}=operatorname* {argmin}_{zin mathcal{Z}} E_{w}(x,y,z).РегуляризаторR(z)играет существенную роль в ограничении информации, которую z содержит о y. Это особенно важно здесь, поскольку система имеет доступ к y и может «жульничать», передавая полную информацию о y через энкодер.

Приложение: Амортизированный вывод для латентных переменных

Вывод в моделях с латентными переменными состоит в выполнении оптимизации

check{z}=operatorname{argmin}_{zin mathcal{Z}} E_{w}(x,y,z).Когда z непрерывна, это может наилучшим образом выполняться посредством оптимизации на основе градиента, которая включает распространение градиентов назад через модель вплоть до z на протяжении нескольких итераций. В генеративных архитектурах это может быть дорогостоящим, поскольку требует обратного распространения через декодер и предиктор. Один из способов снизить стоимость вывода — использовать амортизированный вывод. Идея состоит в том, чтобы обучить нейронную сеть предсказывать приближённое решение задачи оптимизации вывода.

Архитектура показана на Рисунке 20. Кодировщикtilde{z}=mathrm{Enc}(s_{x},y)обучается минимизировать меру расхожденияH(check{z},tilde{z})между выходом кодировщика и оптимальной латентной переменнойcheck{z}=operatorname* {argmin}_{zin mathcal{Z}} E_{w}(x,y,z).После обучения предсказаниеtilde{z}может использоваться как оценкаcheck{z}или как начальное значение для оптимизации вывода.

OCR图片

OCR图片

Рисунок 20: Амортизированный вывод с регуляризованной генеративной архитектурой EBM с латентными переменными. Кодировщик обучается выдаватьtilde{z}=operatorname{Enc}(s_{x},y)для аппроксимации значенияtilde{z}, минимизирующего энергию. РегуляризаторR(z)играет ключевую роль в ограничении информации, которую z содержит о y. Это особенно важно здесь, поскольку система имеет доступ к y и может «жульничать», перенося полную информацию о y через кодировщик.

РегуляризаторR(z)ещё более важен, чем в случае обычного вывода, поскольку путь предсказания имеет доступ к y и может «жульничать», перенося полную информацию о y через кодировщик. Без регуляризатора, ограничивающего информацию, это привело бы к коллапсу энергетической функции, поскольку позволило бы идеально реконструировать любой y. Регуляризатор предназначен для минимизации информации, которуюcheck{z}может содержать о y.

Вариационные автокодировщики и разрежённые автокодировщики в стиле LISTA относятся к семейству регуляризованных GLVEBM с амортизированным выводом. Большинство этих моделей являются безусловными и не имеют ни x, ни модуля Enc(x).

Приложение: Функции потерь для контрастивного обучения EBM

О контрастивных методах можно сказать многое. В таблице 1 перечислены несколько примеров контрастивных методов, вместе с их стратегией выбора контрастивных выборокhat{y}и их функционалом потерь.

Строки 1–2 в таблице — это точные методы максимального правдоподобия. Они предполагают, что градиент логарифма функции разбиения можно вычислить точно. Строки 2–4 — это приближённые методы максимального правдоподобия. Строки 5–10 не интерпретируются в рамках вероятностной модели.

Строка 1: Максимальное условное правдоподобие для дискретного y используется всякий раз, когда энергию нужно превратить в распределение вероятностей через формулу ГиббсаP ( y | x )=exp(-F_{w}(x,y)) / sum_{y^{prime}in mathcal{Y}}exp(-F_{w}(x,y^{prime})). Функция потерь — отрицательное логарифмическое условное правдоподобие. Это преобладающий подход, когда y — дискретная переменная из конечного множества (например, при классификации).

Строки 2 и 3: Максимальное условное правдоподобие используется для любой модели, которая должна выдавать вероятностные оценки. Строка 2 применима только к вычислимо-разрешимым моделям, в которых интеграл в контрастивном члене (или его градиент) можно вычислить аналитически. Строка 3 относится к ситуациям, когда интеграл неразрешим и его градиент должен аппроксимироваться методами Монте-Карло. Тогда задача сводится к разработке хороших методов выборки значенийhat{y}из распределения Гиббса модели:P_{w}(y|x)=exp(-beta F_{w}(x,y) / int_{y^{prime}}exp(-beta F_{w}(x,y^{prime}))

Строка 4: Контрастивная дивергенция. Методы выборки MCMC для строки 3 могут требовать много времени для перемешивания. Можно начать с обучающего примера и позволить марковской цепи эволюционировать в течение короткого времени, а затем принять или отклонить полученный образец так, чтобы соблюдалось детальное равновесие (Carreira-Perpiñan и Hinton, 2005).

Строка 5: Попарный hinge, также известный как triplet-loss, заставляет энергию правильного выхода быть ниже энергии контрастивного выхода как минимум на величину зазора m(y,hat{y}), который может расти с мерой расхождения между y иhat{y}. Трудность состоит в том, чтобы найти подходящие контрастивные выборки с низкой и «угрожающей» энергией — задача, иногда называемая «поиском сложных отрицательных примеров» (hard negative mining).

Строки 6–8: Min-hinge, Square-hinge, Square-exp. Предполагается, что энергия имеет нижнюю границу. Минимизируется энергия правильного выхода и энергия контрастивных выходов подталкивается выше зазора, равногоm ( y,hat{y} )для строк 6 и 7, и бесконечности для строки 8.

Строка 8: Логистическая. Как и в попарном hinge, логистическая функция потерь максимизирует разность между энергиями контрастивного выхода и правильного выхода. В отличие от попарного hinge, эта разность стремится к бесконечности, но с быстро убывающей силой.

Строка 9: GAN. GAN отличается от других контрастивных методов способом генерации контрастивных выборок. Контрастивные выборки создаются сетью-генератором, обучаемой преимущественно генерировать примеры с низкой энергией согласно модели. В принципе можно использовать любую функцию потерь, если она возрастает с энергией правильного выхода и убывает с энергией контрастивной выборки.

Строка 10: Автокодировщик с подавлением шума. Denoising AE создаёт контрастивные выборки, искажая выходы обучающих примеров. Искажение может выполняться добавлением шума или маскированием частей выхода. Энергетическая функция — это ошибка реконструкции,

следовательно энергия обучается быть нулевой на многообразии данных и возрастать сD ( y,hat{y} )по мере того, какhat{y}удаляется от y на многообразии данных.

Путь к автономному машинному интеллекту - 515

Таблица 1: Список контрастивных методов и функций потерь для обучения моделей на основе энергии. Все они используют функции потерь с двумя членами: один уменьшает энергию обучающего примера, а другой увеличивает энергии одного или нескольких контрастивных примеров.

Они различаются стратегией, которую применяют для генерации контрастивных примеров, и точной формой функции потерь.

Точные или приближённые методы максимального правдоподобия (строки 1–4) используются всякий раз, когда модели необходимо выдавать вероятностные оценки. Когда второй член трудно вычислим, его градиент может быть приближён с помощью методов Монте-Карло, которые можно рассматривать как частные способы полученияhat{y}. Многие контрастивные самоконтролируемые методы для архитектур совместного вложения (сиамские сети) используют строку 1 (InfoNCE).

Ряд контрастивных методов (строки 5–8) основан на поискеhat{y}, который является «сильно нарушающим», то есть отличным от желаемого y, но которому модель приписывает низкую энергию. Пары энергий для y иhat{y}подаются в функцию потерь, которая стремится сделать первую низкой, а вторую — более высокой. Это можно реализовать с помощью различных функций потерь, включая hinge-loss.

GAN (строка 9) — это контрастивные методы, в которых контрастивные примеры создаются генераторной сетью, входом которой является случайный вектор. Генератор обучается производить примеры, которым модель в данный момент приписывает низкую энергию, но должна приписывать высокую.

Денойзинговые автокодировщики (строка 10) применяют процесс искажения к обучающим примерам для получения контрастивных примеровhat{y}=N(y).Функция энергии — это ошибка реконструкцииF_{w}(y)=D(y,g_{w}(y)), гдеD()— симметричная мера расхождения, аg_{w}(y)— параметризованная функция. При обученииg_{w}()отображатьhat{y}в y энергия дляhat{y}обучается равнойD(hat{y},y), тогда как энергия y обучается быть нулевой.

Автор: barinov274

Источник

  • Запись добавлена: 28.02.2026 в 19:19
  • Оставлено в
    Rambler's Top100