- BrainTools - https://www.braintools.ru -

Что произойдет, если засунуть ЛЛМ в пластмассовую коробочку на ножках?

По всей видимости, домашние роботы на подходе. Не огромные андроиды в человеческий рост и  на двух ногах, но маленькие компаньоны на сервоприводах. Которые научаться понимать человека и будут учиться через эмпирический опыт [1] самостоятельно.

Знакомьтесь, Growbot

Growbot в первой итерации.

Источник: Art of the problem.

Источник: Art of the problem.

Как это часто бывает, удивительные находки и открытия случаются из любопытства. Так и произошло с ютубером Art of the problem [2], который однажды озадачился внезапной мыслью: а что если наделить большую языковую модель физическим телом и отправить познавать полный загадок мир?

Так появился удивительный проект Growbot. И создать по кусочкам его тело оказалось гораздо более простой задачей, чем 20 лет назад, когда автор канала только начал погружение в робототехнику.

Выполняет ротационное приветствие.

Источник: Art of the problem.

Источник: Art of the problem.

Мышление [3] этого робо-малыша опирается на процессор, обошедшийся всего лишь в $15. По словам автора, 20 лет назад этот же проц достойно бы украсил любую “зверь-машину”, потянув все самые крутые игрушки. (Возможно даже “Крузис”).

Бесстрашно путешествовать по гостиной и коридору ему помогают два недорогих сервомоторчика и IMU-датчик движения, вычисляющий ускорение, наклоны и повороты по трем пространственным осям. Он нужен роботу, чтобы понимать, стоит ли он на месте, падает, наклоняется или же теряет равновесие, чтобы оперативно позвать на помощь человека. 

5-мегапиксельная камера, служащая роботу глазами.

Источник: Art of the problem.

Источник: Art of the problem.

За зрение [4] отвечает 5-мегапиксельная камера за 5 долларов: неплохой размен — пиксель по доллару. Речь и понимание обеспечивают маленький микрофон и динамик, эмоциональные сигналы и реакцию [5] транслирует светодиодное кольцо, а питается этот дивный организм батарейкой от дрона в 7,4 вольт. В общей сложности, конструкция обошлась всего лишь в 80 долларов по амазоновским ценам. А “ноги” Growbot’a на первых порах вообще были сделаны из Лего деталек.

Growbot пытается осознать суть наблюдаемого (кота).

Источник: Art of the problem.

Источник: Art of the problem.

Хардварная часть понятна, там ничего сверхъестественного. Но как работает его мышление? Для начала нужно было найти способ научить робота движению и балансировке без заранее записанных в его память [6] команд. 

Выбор пал на метод массивных параллельных 3D-симуляций, которые посредством обучения [7] через подкрепление [8] (reinforcement learning) позволяют роботу “познакомиться” с виртуальной копией ландшафта. В ней он совершает тысячи попыток научиться ходить, пока не откроет подходящие для себя секвенции движений, чтобы затем перенести их уже в реальный мир.

3D-симуляция — это компьютерная модель робота, его суставов, веса, трения, датчиков и окружающей среды. Если симуляций несколько, то робот учится не в одной «идеальной» среде, а в наборе вариантов с разным скольжением, неровностями, ошибками параметров и даже слегка отличающейся механикой. Это нужно, чтобы он не «подгонялся» только под один сценарий и лучше работал в непредсказуемых условиях реальности. 

Как закаляется сталь

Для обучения Growbot’а ходьбе была сделана кастомная нейросеть, состоящая из двух компонентов. Первый — это инпут, входный канал, которому “скармливались” данные IMU-датчика, а точнее пять последних наблюдений, чтобы робот мог немного ориентироваться в “пережитом” опыте. На канале выхода, аутпуте, была задействована стратегическая сеть (policy network)  — ключевой компонент в машинном обучении и обучении с подкреплением, которые задает дальнейшие решение на основе предыдущего фидбэка.

Кастомная нейросеть, с помощью которой робота учили ходить.

Источник: Art of the problem.

Источник: Art of the problem.
Источник: Art of the problem.

Источник: Art of the problem.

Автор с самого начала планировал ориентироваться на природу, прежде всего человеческую и внимательно изучал моторику нашей анатомии. В итоге, кастомная нейронка должна была давать 50 “оборотов” в секунду, чтобы примерно имитировать безусловные рефлексы [9] человеческого движения. 

В результате, после симуляций робот научился вставать на ноги, передвигаться по разным незнакомым поверхностям и крутиться юлой вокруг своей оси. Особенно забавно то, что его неуклюжие робкие движения чем-то напоминают первые шаги ребенка. И как ребенок он учился на пробах и ошибках.

3D-копия Growbot’а одиноко скитается по трехмерному измерению.

Источник: Art of the problem.

Источник: Art of the problem.

Но это двигательная система. А как научить его разговаривать? Для этой задачи автор протестировал нескольких языковых моделей, придя к следующим результатам:

  • Gemini Flash — показал способность понимать изображения и генерировать логические команды примерно за 1 секунду, и в 100 раз дешевле тяжелых моделей

  • Claude Sonnet — оказался лучшим для сложных задач: довольно быстрый и умный.

  • Claude Haiku — быстрый, но менее надежный и предсказуемый, а также склонный к драматизму в репликах.

ЛЛМ серверы соединяются с процессором робота напрямую, беспроводным способом. Кстати, интересный момент: автор сперва собирался преобразовать сырые сенсорные данные в текстовые описания — «наклон вперед», «падение» — но потом обнаружил, что языковые модели понимают эти данные и без дополнительной интерпретации. 

Следующим шагом было научить робота понимать и обрабатывать собственные ощущения. Языковые модели хорошо справились с задачей, декодируя сырые данные со скоростью в 0,4 секунды и позволяли роботу не только понять, что с ним происходит, но и описать это человеческим языком: “меня наклонили вперед на 40 градусов”, “мной трясут” и так далее. 

Временами Growbot может ударяться в поэтику с высоким штилем и сравнивать тестовую тряску с качанием парусника на волнах. А внутри его мыслей, при обработки сенсорных данных проскакивали такие странные выводы как “Должно быть это сознание. Оно подобно хрупкому пламени свечи”.

Обучение в “диснеевском” режиме 

Затем автору пришла другая интересная мысль в голову: если робот может так красноречиво описывать происходящее с ним, способен ли он как-то оперировать с этими данными самостоятельно?

Growbot’у был разрешен доступ к его собственным моторам. Ансамбль нейронок позволял ему писать код для действий, что называется, “на лету”, а затем этот код добавлялся к уже имевшимся данным в его стратегической сети. В итоге он с легкостью выполнял никогда не получившиеся им прежде команды. Например, “притвориться мертвым” или “шагай, как старик”.

Growbot отказывается идти спать. Диодные индикаторы горят гневным красным светом.

Источник: Art of the problem.

Источник: Art of the problem.

В свою очередь, это открытие натолкнуло на следующую мысль: попытаться заставить робота скоординировать речь, движения, световые сигналы и звуковые эффекты, чтобы они выражали цельную реакцию. Как будто свойственную персонажу мультфильма — отсюда и название этого тренировочного режима, “диснеевский”.

С повышенной температурой языковой модели, позволяющей добиться большей вариативности в речи и действиях робота, автору удавалось получить удивительно живые реакций. Робот мог драматично “упасть”, воздев конечности к небу со словами “Ты предал меня”, если его просьба быть поднятым в воздух оставалась проигнорированной. В другой раз, по предварительному промту, он мог начать капризничать, отказываясь “идти спать”.

Способность к импровизации в различных сценариях у Growbot’а также заметно повысилась со временем. Он научился ломать башенки из деталек для игры “Дженга”, находить способ встать на ноги самостоятельно, если его переворачивали на бок и даже играть в прятки — он сам додумался спрятаться за проводами компьютера, надеясь таки образом скрыться от от хозяина.

Что на самом деле снится роботам?

А снится им работа над ошибками. Как выяснилось, со временем память Growbot’а заполнялась профилями отсканированных им людей, выученными уроками и… кучами мусора. Противоречивая информация начинала вызывать галлюцинации и баги в поведении [10]

Отрывок мыслей Growbot’а: “Человек в очках — часто трясет меня. Но каждое встряхивание в итоге сменяется поглаживаниями. Это не угроза. Так он(а) учит меня, обновляет профиль.”

Источник: Art of the problem.

Источник: Art of the problem.

Тогда автор ввел функцию под названием “Сны”. Периодически он отправляю всё содержимое памяти в самую умную модель ансамбля — Claude Sonnet в даном случае — и писал ей промт «прочистить» роботу голову: иными словами, найти противоречия, извлечь уроки из пережитого опыта, улучшить стратегию и даже скорректировать его личность. 

Кстати, в этот же момент стало ясно, что языковые модели далеко не со всем могут справиться. Например, им не очень удается мимесис — то есть повторение [11] или имитация — какого-либо продемонстрированного человеком движения. Так например, подвигав роботом из стороны в сторону, автор попросил его воспроизвести движения. Увы, все на что хватило БЯМ — это серия непонятных конвульсий. Забавных, но неверных.

В идеале, для такого сценария контролирующая робота нейронка должна предсказывать физические последствия действий до того, как их совершить, а также спрогнозировать возможные последствия.

В 2022 году проект Daydreamer показал что это возможно, а также продемонстрировал как это работает. Робот-собака учился ходить без симуляций, на чистом реальном опыте, постоянно предсказывая следующие состояния. Предсказание будущих состояний заставляет сеть неявно усваивать физику, импульс и свойства объектов.

Источник: actuia.com.

Источник: actuia.com [12].

Здесь, опять же, на помощь приходит человеческая нейрофизиология. В устройстве нашего мозга [13] подобную функцию выполняет мозжечок [14]

Имея собственные полушария [15], он немного похож на уменьшенную копию головного мозга, внутри которого он сидит, как маленькая матрешка внутри большой. Данный орган берет на себя фактически роль предиктивной модели — предсказывает ближайшие 0,1 секунды будущего и делает это молниеносно, всего за 0,02 секунды. Моторная кора получает этот прогноз и отправляет мышцам скоординированные последовательности команд, которые компенсируют временную задержку и позволяют выполнить ожидаемое действие наиболее эффективно.

Подобный подход для создания искусственного интеллекта [16] продвигает Ян ЛеКун, основатель AMI Labs. По его мнению, ЛЛМ всего лишь способны предсказать следующее слово и потому им не хватает глубинной модели реальности. 

Ян ЛеКун считается одним из ведущих исследователей искусственного интеллекта в мире.

Источник: Wall Street Journal. 

Источник: Wall Street Journal. 

ЛеКун считает, что подлинный интеллект требует системы, которая способна наблюдать за миром, строить его абстрактные представления и мысленно «проверять» действия, прежде чем воплощать их непосредственно в реальности. Автор Growbot’а разделяет это мнение. Но вот как интегрировать этот принцип в смешную коробочку на ножках пока что неясно.

Интересно, но похожий принцип применялся еще в 90-х годах. когда свет увидела культовая игра “Creatures” [17] в жанре симулятора жизни. Существа по имени норны во время сна [18] прокручивали в голове сценарии различных действий, чтобы уяснить насколько они вредны или полезны для их успешного выживания.

Life sucks. And then you die from a broken 'Digestive Function' | Second  Person Shooter

Источник: secondpersonshooter.com [19]

Будущее наступает (на наши пятки)

Бирюзовый цвет радости.

Источник: Art of the problem.

Источник: Art of the problem.

Ну а пока у автора канала Art of the problem масса планов. Он собирается поставить производство собратьев Growbot’а на поток, чтобы каждый мог заказать набор “собери сам” и за один вечер дать жизнь забавному, немного неуклюжему, но крайне общительному роботу. Меньше чем за 100 долларов, кстати — звучит вполне неплохо. И кто знает: может это станет судьбоносным витком в развитии робототехники уже сегодня?

Автор: DimaIam

Источник [20]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/32163

URLs in this post:

[1] опыт: http://www.braintools.ru/article/6952

[2] Art of the problem: https://www.google.com/url?sa=t&source=web&rct=j&opi=89978449&url=https://www.youtube.com/watch%3Fv%3DS67z2aekBrI&ved=2ahUKEwjs8oLp6JqVAxUSDRAIHTJzGFkQwqsBegQIGxAB&usg=AOvVaw3VnYfGSRTVqpcRZSa5bz6D

[3] Мышление: http://www.braintools.ru/thinking

[4] зрение: http://www.braintools.ru/article/6238

[5] реакцию: http://www.braintools.ru/article/1549

[6] память: http://www.braintools.ru/article/4140

[7] обучения: http://www.braintools.ru/article/5125

[8] подкрепление: http://www.braintools.ru/article/5528

[9] рефлексы: http://www.braintools.ru/article/8998

[10] поведении: http://www.braintools.ru/article/9372

[11] повторение: http://www.braintools.ru/article/4012

[12] actuia.com: http://actuia.com

[13] мозга: http://www.braintools.ru/parts-of-the-brain

[14] мозжечок: http://www.braintools.ru/parts-of-the-brain/cerebellum

[15] полушария: http://www.braintools.ru/article/6919

[16] интеллекта: http://www.braintools.ru/article/7605

[17] культовая игра “Creatures”: https://habr.com/ru/companies/studyai/articles/1031334/

[18] сна: http://www.braintools.ru/article/9809

[19] secondpersonshooter.com: http://secondpersonshooter.com

[20] Источник: https://habr.com/ru/companies/studyai/articles/1050508/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1050508

www.BrainTools.ru

Rambler's Top100