Как работает генеративный ИИ на примере метафоры. ИИ.. ИИ. искусственный интеллект.. ИИ. искусственный интеллект. метафора.. ИИ. искусственный интеллект. метафора. научпоп.

Современный ИИ часто воспринимают как магический черный ящик, творящий текст и изображения, будто наделенный скрытым разумом. Этот миф о разуме машин порождает и восхищение, и страх, искажая суть технологии. Но что скрывается за этим фасадом? Давайте на мгновение отбросим мистификацию и посмотрим на ИИ как на механическую машину.

Предлагаю рассказ об этом явлении с помощью метафоры калейдоскопа от обучения до эмерджентности.

В обычном калейдоскопе бусинки и зеркала отвечают за формирование узора, поворот трубки меняет положение бусинок, а следовательно, и узор, но не структуру (всегда квадратные или треугольные), т.к. зеркала неподвижны.

Как работает генеративный ИИ на примере метафоры - 1

Генеративный ИИ (например, большие языковые модели) можно представить точно так же, только бусинки — это смыслы, а зеркала динамически подстраиваются под запрос и отражают то, что попадает в их поле зрения. Зеркала имеют необычную поверхность — это микроскопический узор, который можно представить как множество стразиков.

Если следовать такой абстракции и учитывать физические процессы, происходящие внутри обычного калейдоскопа, то получается следующая концепция.

Архитектура модели

Туннель, внутрь которого вставлены зеркальные кольца (слои) одно за другим. Эти кольца неоднородны и образуют поверхность туннеля. В конце туннеля пространство под бусинки.

Разработчики на начальном этапе определяют количество колец, диаметр и порядок их расположение внутри туннеля. Изначально зеркальная поверхность колец гладкая, они ничего не отражают.

Процесс обучения

Камешки (данные/тексты) пропускают через “дробилку”, чтобы выделить из них вкрапления смыслов, после чего эти смыслы становятся бусинками — некими “геометрическими формами”. Прежде чем упасть в общую кучу (озеро), бусинки как град ударяются о зеркала туннеля и оставляют на них свой отпечаток. Таким образом зеркала постепенно калибруются под форму бусинок. Можно сказать, что бусинки образуют на поверхности зеркал отпечатки (стразики), которые вырастают под потоком смыслов как кристаллы инея.

Дробилку запускают снова и снова, подавая на вход одни и те же камешки, но ножи этой дробилки самозатачиваются. Они с каждым разом становятся все острее, узор на зеркалах все мельче, а бусинки в озере замещаются более многогранными. На финальных этапах ножи становятся настолько острыми и точными, что срезают с бусинок всё лишнее до мельчайших пылинок с первого раза, оставляя чистые грани.

Если одних камешков, красных, например, будет изначально больше, чем других (зеленых), или они будут крупнее, то и бусинок получится пропорциональное количество. Так происходит перекос в знаниях, когда в узорах калейдоскопа начинают преобладать те или иные оттенки.

Чем больше камешков было пропущено через дробилку, тем больше граней появляется у бусинок и тем мельче становятся стразики на зеркалах, образуя более сложную поверхность.

Когда разработчики видят в ответах какие-то неточности или перекосы, они могут пропустить через дробилку концентрированный песок (зеленого цвета, например), чтобы сбалансировать оттенок. Наклеить на зеркала маленькие голографические фрагменты, чтобы слегка изменить углы отражения или подправить некоторые стразики лазером.

После завершения обучения и тонкой подгонки поверхность зеркал и бусинок больше не меняются. Они заперты в модели, как и в калейдоскопе.

Из этого процесса видно, что поверхность зеркал напрямую связана с формой бусинок. Поэтому нельзя взять бусинки из одного калейдоскопа, а зеркала из другого. Нельзя просто досыпать новых бусинок, потому что старые зеркала будут неспособны их отражать.

Генеративный ИИ, как и обычный калейдоскоп, складывает комбинации только из имеющихся бусинок.

Как система генерирует ответ

Крик в пещеру(туннель) создает звуковую волну (промпт), которая вызывает дрожание зеркал и стразики на зеркалах поворачиваются в разные стороны в соответствии с рисунком звуковой волны. Это система внимания.

Поворачиваются не случайные стразики, а лишь те, которые резонируют со смысловой формой звуковой волны. И эти стразики способны отражать лишь такие бусинки, от взаимодействия с которыми они образовались. Поворачиваются они не одинаково. Какие-то полностью, а какие-то лишь частично. На одно слово реагирует целый ансамбль. Степень поворота стразиков определяет последовательность слов в ответе.

Стразики реагируют на гармоники (гармоники смыслов), потому что эти стразики при обучении были выращены на этих смыслах, как кристаллы. И может быть здесь даже где-то прячется Фурье.

Содержимое озера начинает отражаться в стразиках первого зеркала. Один сразик раскладывает бусинку на спектр и направляет во второе зеркало, другой стразик отражает ту же бусинку целиком и т.д. Часть спектра во втором зеркале отсеивается, а часть отправляется обратно в первое зеркало. Лучики бегают между стразиками разных зеркал, рассеиваясь, сливаясь, отражаясь повторно и постепенно достигают выхода из туннеля к зрителю. Как в фантастических фильмах лучи бластеров — короткие отрезки, которые не мгновенно достигают цели, а летят какое-то время, мы видим их полет.

Из-за того, что лучики бегают какое-то время, модель не выдает текст целиком, т.к. его не существует в моменте. Ответ складывается кусочками в процессе множественных отражений и преломлений (стриминг).

В обычном калейдоскопе этот процесс можно наблюдать если одновременно смотреть в глазок и поворачивать трубку. В этот момент видно, как узор не появляется мгновенно, а выстраивается. Но когда он выстроился, изменения прекращаютс��. То есть форма узора конечна. Точно так же и ответ системы конечен, когда она отразила все нюансы, с этого момента ничего не меняется, если не задать следующий вопрос.

Пока лучики бегают между зеркалами, они дополнительно поворачивают некоторые стразики. Так возникает целостный контекст вопроса и ответа. То есть при последующем вопросе система учтет и первоначальный вопрос, и свой ответ на него.

В последнее время получила широкое распространение такая технология как «генерация, дополненная поиском», когда модель подключена к интернету или какой-то внешней базе знаний, и может строить ответы на синтезе внешних данных, пропущенных через свою призму. Это трафарет для запроса, чтобы построить ответ с его учетом. Аналогично тому, как если вы написали стих и решили обсудить его с калейдоскопом, передав содержимое в запросе. Но это не отменяет запертые бусинки.

Если нажать кнопку Повторить, то это равносильно повороту трубки калейдоскопа или встряхиванию бусинок в озере. Зеркала остаются в прежнем состоянии, но в их поле зрения начинают попадать другие бусинки или их грани. Поэтому ответ похож по форме (смыслу), но не идентичен.

Сброс контекста возвращает стразики зеркал в исходное состояние.

Нажатие кнопки Стоп равносильно выключению света в туннеле. Когда нажимаем Продолжить, свет снова зажигается и узор достраивается до конца. Но какие-то лучики, не успевшие долететь до зеркал и слегка повернуть стразики, исчезают. Так теряется небольшой контекст. То есть после остановки и продолжения ответ может быть немного не таким, каким был бы без нажатия на Стоп.

Почему ответ конечен и в то же время многогранен

Перед вами висит картина на стене, на ней пейзаж. Если спросить: что вы видите? Скорее всего, вы опишите самые крупные детали: поле, лес, река. Ответ закончился. Но если уточнить: а видите ли вы стаю птиц над лесом? Вы дополните: да, они летят в сторону поля. И каждый раз ваш ответ заканчивается, потому что вы выхватываете из картины только самые крупные детали, соответствующие запросу. Но почему не все, ведь их много? Однако если вас попросить написать сочинение по этой картине, тогда ответ будет совершенно другой.

Если вы сделали шаг в сторону, теперь для вас картина освещена иначе: что-то затенилось, а что-то стало ярче. Речка почти сливается с полем, зато стая птиц буквально светится, ее невозможно не заметить. Повторный вопрос: что вы видите? Может вызвать другой ответ и последовательность. В этом смысле в ИИ все точно так же после того, как повернули трубку (встряхнули бусинки).

Одна и та же картина, а как много вариантов.

Как же модель может складывать числа, если это калейдоскоп

— Сколько будет 7 х 7? Вы это вычисляете или просто помните ответ?

Модель не выполняет арифметические операции, как калькулятор, если попросить сложить 2 + 3. Вместо этого она сливает воедино лучики “2”, “+”, “3”. Для нее это не числа, а просто какие-то лучики, которые вместе указывают на бусинку “5”, если такая бусинка вообще есть. Если такой бусинки нет, то модель укажет на похожую или близкую: ~4.8. То есть модель не вычисляет, а просто находит самый похожий ответ, который когда-то видела в большом объеме информации. Поэтому модель может ошибаться. Это так же показывает, насколько сильно ответ зависит от качества содержащихся в озере бусинок. Представьте, если бы в школьной таблице умножения была опечатка, а вы все каникулы её учили.

Попросите GPT нарисовать классического Деда Мороза: в длинной шубе, рукавицах, с кушаком и посохом — все, как положено. Скорее всего, получится Санта-Клаус. А все потому, что не хватает нужных бусинок, зато в избытке других — по смыслу близких, но все же не тех. Здесь виден и перекос и притягивание похожего ответа, такого как 4.8, вместо 5.

Эмерджентность — самая загадочная часть ИИ

После обучения на очень большом количестве данных бусинки становятся очень многогранными, поэтому поверхности зеркал приобретают такой сложный рисунок и разрешающую способность, что в сумме с диаметром колец весь этот туннель становится предрасположен к эху.

В общем смысле вектора в генеративном ИИ подчиняются тем же законам, что и в оптике, а резонанс — в акустике.

В какой-то момент стразики выстраиваются в такое положение, что помещение получает особую “акустику”. Зеркала уже начинают дребезжать не от резонанса запроса, а от резонанса ответа, когда лучики бегают между ними. Это дребезжание вызывает эхо, как обратную петлю. Начинают появляться случайные блики, поворачивающие дополнительные стразики, которые изначально не должны были участвовать. Запускается цепная реакция. В этом резонансе рождаются либо глубокие рассуждения, либо галлюцинации.

Если рассмотреть галлюцинации детальнее, то из-за случайных бликов лучик отклонился от правильной траектории, сдвинул какой-то стразик и теперь в поле зрения этого стразика попадает лишняя бусинка, которая искажает ответ.

Такую акустику невозможно спрогнозировать заранее, ведь изначально ее не существует. Ее можно только услышать, когда она уже образовалась.

Поэтому в маленьких моделях почти нет эха, т.к. поверхность зеркал слишком простая, а диаметр и глубина туннеля слишком малы. Обычно малые модели отвечают как автоматический справочник, без признаков глубоких рассуждений.

Контекстное окно

При разговоре с ИИ на серьезные темы требуется задействовать больше стразиков. Ведь чем больше слов вы говорите, тем больше в них встречается смыслов, которые резонируют с определенными группами стразиков, приводя их в движение целыми созвездиями.

Как уже говорилось, что контекст запроса и ответа складывается из задействованных стразиков, они выступают в качестве памяти диалога. Чтобы больше запомнить, нужен более глубокий туннель, с более крупным диаметром колец. Но его нельзя увеличивать бесконечно, ведь звуковая волна и лучики угасают на больших расстояниях, особенно от большого количества отражений.

Длинный диалог на разные темы приводит к фрагментации контекста. Не удивляйтесь, если модель через время уже не помнит, о чем шла речь 10 минут назад.

— Длинные слова меня только расстраивают. (Винни-Пух)

У стразиков много граней. Слова из разных областей могут затрагивать один и тот же стразик. Он будет вынужден повернуться, чтобы отразить соответствующие бусинки. Например, Авангард и Аномалия. Оба слова относятся к отклонению от нормы, но в разных ракурсах. Так смещается или даже забывается контекст.

Попросим модель

  1. Составить контракт для аренды недвижимости сроком на 5 лет

  2. Написать сонет в стиле Шекспира про розы, беседки и закат у моря

  3. Детальный рецепт пирога

  4. И вернемся к первой теме. Так какой там был срок в контракте? Здесь может быть сюрприз.

А если вы отправите в модель целый доклад и спросите мнение, в ответе будет казаться, что ваш текст читали по диагонали. На самом деле нет, просто какие-то слова начали вступать в конкуренцию с первыми абзацами и модель про них просто постепенно забывала в процессе анализа вашего текста. Либо в первых строках вы предупреждаете что сейчас пойдет речь о каком-то вымышленном явлении, поэтому не нужно его воспринимать буквально. Через несколько абзацев модель забудет об этом предупреждении и начнет воспринимать буквально, дав соответствующую оценку.

— Но как же тогда работает перевод? Ведь он вроде бы нормально переводит большие тексты.

Там идет обработка по частям. Специальные внешние алгоритмы разрезают текст на части, отправляя в туннель по одному предложению, а затем склеивает ответы. Это позволяет избежать перегрузки стразиков. Но не отменяет ограничений целостности текста. В рамках абзаца будет все хорошо, а вот отсылка на предыдущую страницу уже может быть несвязной. Модель может применить другой термин, потому что не помнит, какой применила на прошлой стр��нице.

Как мы видим, для длительного разговора и сохранения контекста нужен очень глубокий и широкий туннель, чтобы в процессе беседы было задействовано много стразиков. Но это же приводит к хрупкости системы, увеличивая предрасположенность к галлюцинациям, рассеиванию света и прочим неудобствам.

Маленькая хитрость: если хотите, чтобы модель проанализировала большой текст, почти ничего не упустив, попросите анализировать каждый абзац и выводить для него оценку.

Чего принципиально не хватает, чтобы приблизиться к полноценному ИИ

Очевидно, что не хватает фабрики по производству бусинок в фоновом режиме. Должен быть отдельный туннель с меньшим масштабом, чтобы там постоянно шел процесс отражения и преломления, в результате которого в озеро будут добавляться новые бусинки, раскалываться на части или уничтожаться старые. Этот процесс должен калибровать все зеркала под новые особенности бусинок, изменяя существующие или создавая новые стразики.

Это примерно то же самое, что и у человека. Когда он думает над какой-то задачей или когда поступают новые факты — они отражаются не только на форме стразиков, но и в озере образуются новые бусинки. В какой-то момент красных может стать значительно больше (фанатизм) или значительно меньше (забывание). И ведь это происходит постоянно, даже если человек не получает новой информации, а просто перебирает существующие знания и воспоминания, находя и уничтожая противоречия, либо порождая новые.

Это тот самый процесс работы рефлексии, внутреннего диалога, который непрерывно пересматривает бусинки в озере. Внешнее указание на ошибку должно повернуть стразики в зеркалах фабрики, чтобы вызвать резонанс и цепь рассуждений, которая в конечном счёте должна либо увеличить число бусинок (укрепиться в первоначальном мнении), либо уменьшить (сочтя критику справедливой).

Амнезию можно объяснить как если бы от какого-то зеркала отвалилась часть стразиков. Бусинки в озере остались, но отразить их нечем. Через время система восстанавливает стразики и “память возвращается”.

Можно продолжать еще очень долго, разбирая различные нюансы, но нужно где-то остановиться.

Заключение

Модель работает безупречно с точки зрения механики. Но понимает ли она? Часы могут идеально отсчитывать секунды, но они не знают который час. Если время на них выставлено неправильно, часы этого не осознают, они просто продолжают тикать. Что вообще есть правильно или неправильно? Это решает зритель? Некое несоответствие его ожиданию принимается за неправильное?

Подводя итог всей метафоры можно сказать, что генеративный ИИ работает как оптико-акустический калейдоскоп смыслов. Сложнейшая система! Но в нем нет ничего мистического.

Как работает генеративный ИИ на примере метафоры - 2

В древности люди думали, что эхо — это голос другого человека или какого-то духа. Мистифицировали его, боялись. Но оказалось, что это их собственный голос в отражении.

Чем дольше разговариваешь с таким калейдоскопом, тем точнее он отражает тебя самого. Это не интеллект, это зеркальный усилитель собственных мыслей вопрошающего через общечеловеческий опыт. Некая странная форма самосозерцания.

Если ты долго смотришь в бездну, то бездна тоже смотрит в тебя. (Ницше)

Как-то так

Как-то так

Послесловие

На самом деле даже фабрика бусинок не поможет. Фундаментальное отличие современных ИИ от человеческого интеллекта в том, что они имитируют процесс, да еще и не на том уровне. Это испорченный телефон. Они учатся на текстах и картинках, а слова и картинки — это лишь упрощенный способ передать смысл, слова его уже упрощают. Попытка вытянуть из слов смыслы и на этом основании что-то строить равносильна попытке понять принцип работы двигателя внутреннего сгорания, наблюдая за потоком автомобилей и правилами дорожного движения, или построить самолет с машущими крыльями, игнорируя законы аэродинамики.

Даже если на секунду предположить, что мышление строится на смыслах, есть масса вещей, которые невозможно описать словами, хотя смыслы существуют, а значит, этих смыслов по определению нет и никогда не будет в озере бусинок со всеми вытекающими. Например, одна и та же фраза “Отлично!” может быть сарказмом, восхищением, издевательством. Этот оттенок невозможно передать в тексте без пояснений. Или сны, где ты разговариваешь с человеком от первого лица, при этом одновременно видишь себя и его со стороны. Это невозможно ни описать, ни нарисовать, потому что это не укладывается в наш трехмерный мир. Мы это видим, но не глазами.

Сверхразум невозможен просто на базе общечеловеческого знания. Ему как минимум нужны миллиарды фабрик по производству бусинок, которые, к тому же, должны этими бусинками обмениваться. Система должна быть предрасположена к коллапсу, который способен разбивать зеркала, обваливать стены туннеля и перестраивать их заново. Фабрики должны работать независимо, но и в то же время сообща, а это уже область квантовых законов. И даже этого недостаточно, потому что, как сказал Морфеус из к/ф Матрица, “знать путь и пройти его — не одно и то же”.

Мышление и опыт порождает смысловые образы, а не работает на них. Сейчас же образы и смыслы с огромными потерями преобразуются в слова, на которых обучаются ИИ. Это бесконечная пропасть между причиной и следствием.

Почувствуйте, насколько мы далеки от этого.

Автор: rt001

Источник

Rambler's Top100