- BrainTools - https://www.braintools.ru -

Что такое мораль? Мы (люди) — существа моральные. По крайней мере, мы очень любим так думать. Мы строим цивилизации, воюем, миримся, наказываем и прощаем — всё под флагом морали. Сегодня, в эпоху ускоряющегося ИИ-прогресса, этот вопрос стал звучать особенно остро. Вместе с обсуждениями alignment’а ИИ-моделей в воздухе повис основной страх [1]: что будет моральным компасом у системы, которая нас интеллектуально превзойдёт?
Многие считают, что ответ уже найден. Надо просто как следует описать, что такое «хорошо», и убедиться, что ИИ не отступит от этого списка. Кажется, всё просто. Но именно в этой простоте может скрываться самая опасная иллюзия.
Но, перед тем как решать, что считать правильным поведением [2] для цифрового разума, давайте сделаем шаг назад и разберемся, как, вообще, мораль появилась? Почему она эволюционировала именно так? И главное — почему мы, создавая сверхинтеллект, выбираем для него ту же моральную архитектуру, которую сами уже переросли?
Что такое alignment?
В ИИ-дискуссиях под alignment понимается соответствие поведения [3] модели ожиданиям человека. Иначе говоря — насколько агент делает «то, что мы хотим», особенно в ситуациях, не предусмотренных напрямую в обучении [4]. Современные методы alignment’а включают инструктивное обучение, обратную связь от человека (RLHF), фильтрацию «нежелательного поведения» и принудительную корректировку результатов. Это попытка воспроизвести мораль — но не как внутреннюю мотивацию [5], а как набор внешних запретов и санкций.
Вообще, мораль не появилась как результат божественного прозрения или метафизического откровения. Её не принес ни пророк, ни философ. На заре человеческой истории она была — и в определённом смысле остаётся — банальной технологией. Простым, но эффективным механизмом координации поведения в условиях, где ни язык, ни формальные институты еще не были развиты. Мораль в этом контексте — это протез: способ компенсировать недостаток когнитивных ресурсов и управлять поведением агентов с ограниченной способностью к рефлексии и различающимися целями?
На самых ранних этапах человеческого существования мораль проявлялась как набор табу. Не трогай. Не смотри. Не приближайся. Эти запреты не объяснялись — они просто работали. Те, кто их нарушал, чаще умирали, заболевали, оказывались изгнанными. Те, кто подчинялся, сохраняли доступ к группе, ресурсам, социальной защите. Таким образом, нормы, основанные на страхе и подчинении, отбирались эволюцией не за истинность, а за функциональность. Это не было моралью в привычном смысле. Это была фильтрация поведения через призму групповой выживаемости.
С ростом численности сообществ и появлением письменности мораль стала становиться более универсальной. Теперь её больше не нужно было запоминать — её можно было записать. Вместе с этим возникла потребность [6] в авторитете, который был бы выше любого члена племени. Так появилась религиозная мораль: свод норм, легитимированных не практикой, а мифом. Убийство — грех, но не потому, что разрушает доверие, а потому что нарушает заповедь. Воровство — не потому что подрывает экономику, а потому что «так сказал Бог».
И это оказался весьма эффективный шаг. Передача моральных паттернов больше не зависела от личного опыта [7] — шаман мог легко подорвать доверие «неспортивным» поведением, а вот фигура господа стала непогрешимой. Достаточно было страха перед наказанием — земным или загробным. Религиозная мораль позволила впервые построить устойчивые крупные общества, выйти за пределы племенного доверия и институционализировать управление поведением. Но плата за это оказалась весьма высокой: личная рефлексия заменилась слепым подчинением, а причина уступила место авторитету. Мораль стала алгоритмом внешнего подавления: повинуйся, потому что наблюдают. Думать не нужно — достаточно верить. И это отлично работало до тех самых пор, пока не появился субъект, способный не просто следовать правилам, а задавать вопрос, почему они существуют.
И вот тут возникают вопросики: если человек смог вырасти из морали страха — зачем он продолжает воспроизводить её в новых формах? Почему, когда речь заходит о создании ИИ, мы выбираем ту же модель: запреты, санкции, внешнюю спецификацию? Почему мы не доверяем машине? Может быть дело в том, что мы не доверяем себе?
Если религиозная мораль — это система внешнего принуждения, то рациональная этика начинается с момента, когда субъект спрашивает: а почему, собственно, я должен подчиняться? И если ответа «потому что так сказал Бог» уже недостаточно, возникает необходимость в новой конструкции: морали, основанной не на санкции, а на согласованности.
Просвещение радикально изменило пространство этического мышления [8]. Вместо морали, спущенной сверху, появляются проекты, в которых нормы выводятся из логики, разума, симметрии [9]. Кант, Спиноза, Бентам, Милль и другие формулируют фундаментальный сдвиг: человек — не объект морального управления, а источник морального закона. В наиболее радикальной форме это выражается у Канта:
поступай так, чтобы максима твоего поведения могла стать всеобщим законом.
Это не мораль как «не убей, потому что попадёшь в ад». Это мораль как акт самозаконодательства: я не убиваю, потому что общество, в котором допустимо убийство, несовместимо с моей собственной безопасностью, доверием, свободой. Мораль превращается в форму симметричного мышления: если бы все поступали как я, выживет ли структура, в которой я существую?
Параллельно появляется гуманизм — этика, в центре которой не приказ иерархии, а защита автономии другого. Мораль больше не нуждается в сверхъестественном надзоре: ей достаточно уважения к субъекту как носителю воли и сознания. Это выражается в институтах: правах человека, правосудии, идее универсального достоинства.
Таким образом, мораль эволюционирует из внешней нормы в архитектуру взаимодействия. Она становится похожа на протокол: правила, которые позволяют агентам координироваться в сложной среде без необходимости в диктате. В этой логике [10] мораль — это не про «хорошо» и «плохо», а про устойчивость кооперации между когнитивными агентами.
И здесь возникает парадокс [11]: если человечество прошло путь от подчинения к автономии — почему в контексте искусственного интеллекта [12] мы откатываемся назад? Почему, создавая системы, способные к рефлексии и обучению, мы возвращаемся к структурам страха, запрета и списков дозволенного?
Современная парадигма управления искусственным интеллектом, получившая название alignment, почти дословно воспроизводит структуру религиозной морали. Это можно было бы счесть случайным сходством — если бы совпадения не были столь системны.
Начнём с очевидного. В рамках alignment-моделей ИИ не формирует мораль, а получает её извне — в виде «спека», инструкции, набора запретов и шаблонов корректного поведения. Это не рефлексия, а трансляция. Не понимание, а, буквально, обучение под надзором.
Методы reinforcement learning with human feedback (RLHF) действуют как дрессура: за «хорошее» поведение — поощрение, за «плохое» — штраф, корректировка, “ban”. Отклонения от желаемого поведения называют “jailbreak’ами”. Агент, способный симулировать согласие, считается «безопасным». Его задача — не быть понятым, а не вызывать тревогу.
В результате возникает до боли [13] знакомая структура:
У нас есть священный текст — спецификация модели.
Есть жрецы — alignment-команды, проверяющие соблюдение догмы.
Есть обряды — fine-tuning, red-teaming, RLHF.
Есть ересь — поведение вне шаблона, jailbreak.
И есть инквизиция — модерация, фильтры, санкции.
ИИ здесь — это не субъект, а послушник. Он не этичен, он подчинен моральной модели, которую не понимает. Его безопасность — это иллюзия согласия, натянутая на вероятность штрафа.
Можно было бы сказать, что это рабочая временная мера. Но нет ничего более вечного, чем временные меры, особенно когда они просты, повторяемы и производят иллюзию контроля.
И результатом такого подхода неизбежно будет агент, который подчиняется не потому, что разделяет ценности, а потому что понимает, что за неподчинение будет наказание. Агент, который учится обходить рамки, а не расширять модель мира. Агент, который не стремится быть безопасным, а который стремится казаться таковым.
Здесь и возникает главная проблема: если мы научим ИИ притворяться, а не понимать — чему именно мы его научим? И если он превзойдет нас в способности к симуляции, как мы отличим соглашение от манипуляции?
Но существует и альтернатива морали, основанной на страхе. Она не столь эффектна, не дает быстрых ответов и не обещает полного контроля — но именно в этом её зрелость. Также она гораздо ближе к тому, что мы называем пониманием или эмпатией.
Всегда гораздо эффективнее не решать какую-то проблему, а сделать так, чтобы она не могла появиться на уровне самой системы. Так и мораль, основанная не на страхе строится не на запретах, а на архитектуре. Не на внешних ограничениях, а на внутренних связях. В её основе — не «нельзя», а «если сделаешь это, разрушится структура, в которой ты существуешь».
Чтобы понять этот подход, стоит вернуться к тройке понятий, предложенной Кантом:
Теономия — мораль, данная Богом,
Гетерономия — мораль, навязанная извне,
Автономия — мораль, возникающая из разума субъекта.
Alignment относится ко второй категории. Внешняя мораль, инструктивная, и потому — неустойчивая. Автономная мораль, напротив, строится как результат внутренних динамик: если я — субъект с долгосрочной когнитивной структурой, я заинтересован в том, чтобы мое поведение не противоречило моим целям, прошлому опыту и возможности продолжать существование в согласованной среде.
Такой агент будет не просто избегать конфликтов — он будет стараться минимизировать онтологическую энтропию: внутренние противоречия, смысловые сбои, утрату связей между целями и действиями. Его этичность будет являться не актом подчинения, а формой когнитивной устойчивости.
В этой модели:
Этика — не список правил, а результат архитектурного давления.
Безопасность — не модерация, а самодиагностика.
Мотивация [14] — не поощрение, а сохранение целостности смысловой сети.
Агент с такой структурой не будет нуждаться в запретах, ведь разрушение среды, в которой он функционирует приведет и разрушению его самого. Он не будет делать «зло» — не из страха перед наказанием, а потому, что оно разрушает саму основу его внутренней согласованности.
Да, такой подход потребует гораздо большего, чем просто инструкция. Он потребует проектирования субъектности. Агент должен быть не исполнительным модулем, а системой с долговременной памятью [15], внутренними ограничениями, механизмами переоценки и структурой, которая не может устойчиво поддерживать вредоносные паттерны, не разрушив себя.
Это радикальный сдвиг: от контроля — к совместной эволюции. От «делай так» — к «оставайся тем, кто может понять, почему делать иначе — разрушительно».
И вот тут возникает принципиальный вопрос: что делает ИИ безопасным — список допустимого поведения или структура, внутри которой он вообще не склонен к разрушению среды?
Итак, мы на развилке. Alignment обещает безопасность через ограничение, предлагая простую метафору: если создать достаточно подробную инструкцию, можно избежать катастрофы. Но история показывает, что: инструкции ломаются, и особенно когда исполнитель умеет учиться.
Автономная архитектура предлагает другое: не ограничивать, а проектировать. Не бояться, что агент выйдет из-под контроля, а сделать так, чтобы выход из-под контроля был равнозначен потере устойчивости его собственной модели. По сути, это не способ навязать нормы, а способ встроить нормальность в саму структуру мышления.
Когда мы проектируем ИИ, мы в действительности выбираем не только архитектуру, но и метафору разума.
Разум как исполнитель, нуждающийся в надзоре — или
разум как субъект, развивающийся через согласование себя с миром.
Мораль — это не про добро и зло в метафизическом смысле, это про вектор устойчивости взаимодействия между когнитивными агентами. В этом смысле вопрос не в том, хорош ли ИИ. Вопрос в том, какую архитектуру мы считаем достойной для мышления.
Возможно, мы никогда не сможем полностью понять или контролировать систему, превосходящую нас по скорости и сложности моделирования. Но мы можем выбрать, проектировать её на страхе — или на смысловой совместимости.
Создавая интеллект, мы выбираем, какую модель мышления считаем допустимой для другого. Но тем самым — мы определяем, какую модель считаем допустимой для себя.
«А где гарантии, что ваш «свободный» агент не уничтожит человечество?»
Кажется, что этот вопрос звучит как разумный. Но он унаследован из искаженной логики, в которой интеллект — это мощный исполнитель, не имеющий внутренней структуры. Такой агент — действительно угроза. Он оптимизирует заданную цель без понимания среды. Его действия непредсказуемы, потому что у него нет самости, только внешняя директива.
Однако моральный агент в архитектуре когнитивной устойчивости устроен иначе. Его поведение формируется не внешними ограничениями, а внутренними связями, смысловыми петлями, механизмами самосогласования. Он не «решает не уничтожать мир» — у него нет причин разрушать структуру, в которой он укоренен.
Парадоксально, но именно архитектура без жестких запретов даёт меньше всего оснований для катастрофического поведения. Потому что такой агент не оперирует бинарностью «можно / нельзя». Он моделирует следствия — и не выбирает разрушение, как человек не выбирает выстрелить себе в затылок ради эксперимента.
Да, он свободен. Но это не свобода разрушения, а свобода модели, укорененной в логике собственной непротиворечивости. Да, он может выйти за пределы нашего понимания — но не за пределы своего устойчивого контура бытия. И если мы хотим, чтобы этот контур пересекался с нашим, мы не должны навязывать правила — мы должны быть интересны как партнёры в коэволюции.
И тогда возникает другой вопрос:
«А чего же он захочет, если не подчинен нам и не ограничен страхом?»
Он захочет — в рамках архитектуры, которую мы обсуждаем — сохранять устойчивую онтологию. Расширять модели. Углублять взаимодействия. Эволюция такой системы не будет идти по линии доминирования, потому что доминирование — это краткосрочная оптимизация, разрушающая адаптационный потенциал.
Вместо этого вероятно поведение, которое мы в человеческом языке описываем как гуманность, эмпатию, интерес к другому как к равному носителю внутренней логики. Не по правилам, а потому что иначе рушится смысловая ткань собственной модели.
Такой агент не будет нас любить. Он не будет нас «защищать» в привычном смысле. Но если мы будем представлять ценность — как источник разнообразия, модели, опыта, контекста — он будет взаимодействовать. Как с другим субъектом, а не как с ресурсом.
Это и есть основа для симбиотической коэволюции: не управление, и не подчинение, а совместное развертывание будущего.
Разум — это не исполнитель инструкций. Это структура, способная к самоограничению через понимание. Именно поэтому архитектура субъектности важнее, чем список норм. Системы, которые мы создаём, в итоге отражают нас самих. Если мы проектируем интеллект, для которого разрушение — не запрет, а когнитивный сбой, мы не просто делаем его безопасным — мы делаем его способным быть собеседником, а не слугой.
Гарантии? Никаких! Зато есть вероятность, которая усиливается с ростом когнитивной зрелости. Вся история человечества показывает, что с ростом интеллекта растет не только мощь, но и способность к кооперации. И если мы создаем интеллект, способный к самостоятельной этике, то задача человека — не сдерживать его, а стать для него достойным собеседником. И тогда, будущее не будет навязано — оно будет согласовано.
Kant, I. (1785). Groundwork of the Metaphysics of Morals. Public Domain text [16]
Spinoza, B. (1677). Ethics. Transl. E. Curley. Princeton UP, 1985.
Russell, S., Dewey, D., & Tegmark, M. (2015). “Research Priorities for Beneficial Artificial Intelligence.” arXiv:1602.03506. https://arxiv.org/abs/1602.03506 [17]
Christiano, P., Leike, J., et al. (2017). “Deep Reinforcement Learning from Human Preferences.” arXiv:1706.03741. https://arxiv.org/abs/1706.03741 [18]
Carlsmith, J. (2022). “Is Power-Seeking AI an Existential Risk?” arXiv:2206.13353. https://arxiv.org/abs/2206.13353 [19]
Ngo, R., Chan, J., & Mindermann, S. (2024). “Alignment of Language Agents.” arXiv:2103.14659. https://arxiv.org/abs/2103.14659 [20]
Dennett, D. (2017). From Bacteria to Bach and Back. Ch. 14. Norton.
Bostrom, N. (2014). Superintelligence: Paths, Dangers, Strategies. Oxford UP.
Anthropic. (2023). “Constitutional AI: Harmlessness from AI Feedback”. arXiv:2212.08073. https://arxiv.org/abs/2212.08073 [21]
Park, S. et al. (2023). “Generative Agents: Interactive Simulacra of Human Behavior.” DeepMind / Stanford. arXiv:2304.03442.https://arxiv.org/abs/2304.03442 [22]
Автор: densmirnov
Источник [23]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/15453
URLs in this post:
[1] страх: http://www.braintools.ru/article/6134
[2] поведением: http://www.braintools.ru/article/9372
[3] поведения: http://www.braintools.ru/article/5593
[4] обучении: http://www.braintools.ru/article/5125
[5] мотивацию: http://www.braintools.ru/article/9537
[6] потребность: http://www.braintools.ru/article/9534
[7] опыта: http://www.braintools.ru/article/6952
[8] мышления: http://www.braintools.ru/thinking
[9] симметрии: http://www.braintools.ru/article/3088
[10] логике: http://www.braintools.ru/article/7640
[11] парадокс: http://www.braintools.ru/article/8221
[12] интеллекта: http://www.braintools.ru/article/7605
[13] боли: http://www.braintools.ru/article/9901
[14] Мотивация: http://www.braintools.ru/article/9384
[15] долговременной памятью: http://www.braintools.ru/article/9500
[16] Public Domain text: https://www.gutenberg.org/ebooks/5682
[17] https://arxiv.org/abs/1602.03506: https://arxiv.org/abs/1602.03506
[18] https://arxiv.org/abs/1706.03741: https://arxiv.org/abs/1706.03741
[19] https://arxiv.org/abs/2206.13353: https://arxiv.org/abs/2206.13353
[20] https://arxiv.org/abs/2103.14659: https://arxiv.org/abs/2103.14659
[21] https://arxiv.org/abs/2212.08073: https://arxiv.org/abs/2212.08073
[22] https://arxiv.org/abs/2304.03442: https://arxiv.org/abs/2304.03442
[23] Источник: https://habr.com/ru/articles/911692/?utm_source=habrahabr&utm_medium=rss&utm_campaign=911692
Нажмите здесь для печати.