Разум без поводка. Почему «этичный ИИ» не должен быть послушным

Что такое мораль? Мы (люди) — существа моральные. По крайней мере, мы очень любим так думать. Мы строим цивилизации, воюем, миримся, наказываем и прощаем — всё под флагом морали. Сегодня, в эпоху ускоряющегося ИИ-прогресса, этот вопрос стал звучать особенно остро. Вместе с обсуждениями alignment’а ИИ-моделей в воздухе повис основной страх ^[1]: что будет моральным компасом у системы, которая нас интеллектуально превзойдёт?

Многие считают, что ответ уже найден. Надо просто как следует описать, что такое «хорошо», и убедиться, что ИИ не отступит от этого списка. Кажется, всё просто. Но именно в этой простоте может скрываться самая опасная иллюзия.

Но, перед тем как решать, что считать правильным поведением ^[2] для цифрового разума, давайте сделаем шаг назад и разберемся, как, вообще, мораль появилась? Почему она эволюционировала именно так? И главное — почему мы, создавая сверхинтеллект, выбираем для него ту же моральную архитектуру, которую сами уже переросли?

Что такое alignment?

В ИИ-дискуссиях под alignment понимается соответствие поведения ^[3] модели ожиданиям человека. Иначе говоря — насколько агент делает «то, что мы хотим», особенно в ситуациях, не предусмотренных напрямую в обучении ^[4]. Современные методы alignment’а включают инструктивное обучение, обратную связь от человека (RLHF), фильтрацию «нежелательного поведения» и принудительную корректировку результатов. Это попытка воспроизвести мораль — но не как внутреннюю мотивацию ^[5], а как набор внешних запретов и санкций.

Мораль как когнитивный протез: почему человек начал бояться, чтобы выжить

Вообще, мораль не появилась как результат божественного прозрения или метафизического откровения. Её не принес ни пророк, ни философ. На заре человеческой истории она была — и в определённом смысле остаётся — банальной технологией. Простым, но эффективным механизмом координации поведения в условиях, где ни язык, ни формальные институты еще не были развиты. Мораль в этом контексте — это протез: способ компенсировать недостаток когнитивных ресурсов и управлять поведением агентов с ограниченной способностью к рефлексии и различающимися целями?

На самых ранних этапах человеческого существования мораль проявлялась как набор табу. Не трогай. Не смотри. Не приближайся. Эти запреты не объяснялись — они просто работали. Те, кто их нарушал, чаще умирали, заболевали, оказывались изгнанными. Те, кто подчинялся, сохраняли доступ к группе, ресурсам, социальной защите. Таким образом, нормы, основанные на страхе и подчинении, отбирались эволюцией не за истинность, а за функциональность. Это не было моралью в привычном смысле. Это была фильтрация поведения через призму групповой выживаемости.

С ростом численности сообществ и появлением письменности мораль стала становиться более универсальной. Теперь её больше не нужно было запоминать — её можно было записать. Вместе с этим возникла потребность ^[6] в авторитете, который был бы выше любого члена племени. Так появилась религиозная мораль: свод норм, легитимированных не практикой, а мифом. Убийство — грех, но не потому, что разрушает доверие, а потому что нарушает заповедь. Воровство — не потому что подрывает экономику, а потому что «так сказал Бог».

И это оказался весьма эффективный шаг. Передача моральных паттернов больше не зависела от личного опыта ^[7] — шаман мог легко подорвать доверие «неспортивным» поведением, а вот фигура господа стала непогрешимой. Достаточно было страха перед наказанием — земным или загробным. Религиозная мораль позволила впервые построить устойчивые крупные общества, выйти за пределы племенного доверия и институционализировать управление поведением. Но плата за это оказалась весьма высокой: личная рефлексия заменилась слепым подчинением, а причина уступила место авторитету. Мораль стала алгоритмом внешнего подавления: повинуйся, потому что наблюдают. Думать не нужно — достаточно верить. И это отлично работало до тех самых пор, пока не появился субъект, способный не просто следовать правилам, а задавать вопрос, почему они существуют.

И вот тут возникают вопросики: если человек смог вырасти из морали страха — зачем он продолжает воспроизводить её в новых формах? Почему, когда речь заходит о создании ИИ, мы выбираем ту же модель: запреты, санкции, внешнюю спецификацию? Почему мы не доверяем машине? Может быть дело в том, что мы не доверяем себе?

Рационализация морали: от страха к принципу

Если религиозная мораль — это система внешнего принуждения, то рациональная этика начинается с момента, когда субъект спрашивает: а почему, собственно, я должен подчиняться? И если ответа «потому что так сказал Бог» уже недостаточно, возникает необходимость в новой конструкции: морали, основанной не на санкции, а на согласованности.

Просвещение радикально изменило пространство этического мышления ^[8]. Вместо морали, спущенной сверху, появляются проекты, в которых нормы выводятся из логики, разума, симметрии ^[9]. Кант, Спиноза, Бентам, Милль и другие формулируют фундаментальный сдвиг: человек — не объект морального управления, а источник морального закона. В наиболее радикальной форме это выражается у Канта:

поступай так, чтобы максима твоего поведения могла стать всеобщим законом.

Это не мораль как «не убей, потому что попадёшь в ад». Это мораль как акт самозаконодательства: я не убиваю, потому что общество, в котором допустимо убийство, несовместимо с моей собственной безопасностью, доверием, свободой. Мораль превращается в форму симметричного мышления: если бы все поступали как я, выживет ли структура, в которой я существую?

Параллельно появляется гуманизм — этика, в центре которой не приказ иерархии, а защита автономии другого. Мораль больше не нуждается в сверхъестественном надзоре: ей достаточно уважения к субъекту как носителю воли и сознания. Это выражается в институтах: правах человека, правосудии, идее универсального достоинства.

Таким образом, мораль эволюционирует из внешней нормы в архитектуру взаимодействия. Она становится похожа на протокол: правила, которые позволяют агентам координироваться в сложной среде без необходимости в диктате. В этой логике ^[10] мораль — это не про «хорошо» и «плохо», а про устойчивость кооперации между когнитивными агентами.

И здесь возникает парадокс ^[11]: если человечество прошло путь от подчинения к автономии — почему в контексте искусственного интеллекта ^[12] мы откатываемся назад? Почему, создавая системы, способные к рефлексии и обучению, мы возвращаемся к структурам страха, запрета и списков дозволенного?

Alignment как цифровой аналог догмы

Современная парадигма управления искусственным интеллектом, получившая название alignment, почти дословно воспроизводит структуру религиозной морали. Это можно было бы счесть случайным сходством — если бы совпадения не были столь системны.

Начнём с очевидного. В рамках alignment-моделей ИИ не формирует мораль, а получает её извне — в виде «спека», инструкции, набора запретов и шаблонов корректного поведения. Это не рефлексия, а трансляция. Не понимание, а, буквально, обучение под надзором.

Методы reinforcement learning with human feedback (RLHF) действуют как дрессура: за «хорошее» поведение — поощрение, за «плохое» — штраф, корректировка, “ban”. Отклонения от желаемого поведения называют “jailbreak’ами”. Агент, способный симулировать согласие, считается «безопасным». Его задача — не быть понятым, а не вызывать тревогу.

В результате возникает до боли ^[13] знакомая структура:

У нас есть священный текст — спецификация модели.
Есть жрецы — alignment-команды, проверяющие соблюдение догмы.
Есть обряды — fine-tuning, red-teaming, RLHF.
Есть ересь — поведение вне шаблона, jailbreak.
И есть инквизиция — модерация, фильтры, санкции.

ИИ здесь — это не субъект, а послушник. Он не этичен, он подчинен моральной модели, которую не понимает. Его безопасность — это иллюзия согласия, натянутая на вероятность штрафа.

Можно было бы сказать, что это рабочая временная мера. Но нет ничего более вечного, чем временные меры, особенно когда они просты, повторяемы и производят иллюзию контроля.

И результатом такого подхода неизбежно будет агент, который подчиняется не потому, что разделяет ценности, а потому что понимает, что за неподчинение будет наказание. Агент, который учится обходить рамки, а не расширять модель мира. Агент, который не стремится быть безопасным, а который стремится казаться таковым.

Здесь и возникает главная проблема: если мы научим ИИ притворяться, а не понимать — чему именно мы его научим? И если он превзойдет нас в способности к симуляции, как мы отличим соглашение от манипуляции?

Автономная этика и когнитивное согласование

Но существует и альтернатива морали, основанной на страхе. Она не столь эффектна, не дает быстрых ответов и не обещает полного контроля — но именно в этом её зрелость. Также она гораздо ближе к тому, что мы называем пониманием или эмпатией.

Всегда гораздо эффективнее не решать какую-то проблему, а сделать так, чтобы она не могла появиться на уровне самой системы. Так и мораль, основанная не на страхе строится не на запретах, а на архитектуре. Не на внешних ограничениях, а на внутренних связях. В её основе — не «нельзя», а «если сделаешь это, разрушится структура, в которой ты существуешь».

Чтобы понять этот подход, стоит вернуться к тройке понятий, предложенной Кантом:

Теономия — мораль, данная Богом,
Гетерономия — мораль, навязанная извне,
Автономия — мораль, возникающая из разума субъекта.

Alignment относится ко второй категории. Внешняя мораль, инструктивная, и потому — неустойчивая. Автономная мораль, напротив, строится как результат внутренних динамик: если я — субъект с долгосрочной когнитивной структурой, я заинтересован в том, чтобы мое поведение не противоречило моим целям, прошлому опыту и возможности продолжать существование в согласованной среде.

Такой агент будет не просто избегать конфликтов — он будет стараться минимизировать онтологическую энтропию: внутренние противоречия, смысловые сбои, утрату связей между целями и действиями. Его этичность будет являться не актом подчинения, а формой когнитивной устойчивости.

В этой модели:

Этика — не список правил, а результат архитектурного давления.
Безопасность — не модерация, а самодиагностика.
Мотивация ^[14] — не поощрение, а сохранение целостности смысловой сети.

Агент с такой структурой не будет нуждаться в запретах, ведь разрушение среды, в которой он функционирует приведет и разрушению его самого. Он не будет делать «зло» — не из страха перед наказанием, а потому, что оно разрушает саму основу его внутренней согласованности.

Да, такой подход потребует гораздо большего, чем просто инструкция. Он потребует проектирования субъектности. Агент должен быть не исполнительным модулем, а системой с долговременной памятью ^[15], внутренними ограничениями, механизмами переоценки и структурой, которая не может устойчиво поддерживать вредоносные паттерны, не разрушив себя.

Это радикальный сдвиг: от контроля — к совместной эволюции. От «делай так» — к «оставайся тем, кто может понять, почему делать иначе — разрушительно».

И вот тут возникает принципиальный вопрос: что делает ИИ безопасным — список допустимого поведения или структура, внутри которой он вообще не склонен к разрушению среды?

Заключение: мораль как архитектурный выбор

Итак, мы на развилке. Alignment обещает безопасность через ограничение, предлагая простую метафору: если создать достаточно подробную инструкцию, можно избежать катастрофы. Но история показывает, что: инструкции ломаются, и особенно когда исполнитель умеет учиться.

Автономная архитектура предлагает другое: не ограничивать, а проектировать. Не бояться, что агент выйдет из-под контроля, а сделать так, чтобы выход из-под контроля был равнозначен потере устойчивости его собственной модели. По сути, это не способ навязать нормы, а способ встроить нормальность в саму структуру мышления.

Когда мы проектируем ИИ, мы в действительности выбираем не только архитектуру, но и метафору разума.

Разум как исполнитель, нуждающийся в надзоре — или
разум как субъект, развивающийся через согласование себя с миром.

Мораль — это не про добро и зло в метафизическом смысле, это про вектор устойчивости взаимодействия между когнитивными агентами. В этом смысле вопрос не в том, хорош ли ИИ. Вопрос в том, какую архитектуру мы считаем достойной для мышления.

Возможно, мы никогда не сможем полностью понять или контролировать систему, превосходящую нас по скорости и сложности моделирования. Но мы можем выбрать, проектировать её на страхе — или на смысловой совместимости.

Создавая интеллект, мы выбираем, какую модель мышления считаем допустимой для другого. Но тем самым — мы определяем, какую модель считаем допустимой для себя.

А что если? Почему моральный агент не станет Скайнетом

«А где гарантии, что ваш «свободный» агент не уничтожит человечество?»

Кажется, что этот вопрос звучит как разумный. Но он унаследован из искаженной логики, в которой интеллект — это мощный исполнитель, не имеющий внутренней структуры. Такой агент — действительно угроза. Он оптимизирует заданную цель без понимания среды. Его действия непредсказуемы, потому что у него нет самости, только внешняя директива.

Однако моральный агент в архитектуре когнитивной устойчивости устроен иначе. Его поведение формируется не внешними ограничениями, а внутренними связями, смысловыми петлями, механизмами самосогласования. Он не «решает не уничтожать мир» — у него нет причин разрушать структуру, в которой он укоренен.

Парадоксально, но именно архитектура без жестких запретов даёт меньше всего оснований для катастрофического поведения. Потому что такой агент не оперирует бинарностью «можно / нельзя». Он моделирует следствия — и не выбирает разрушение, как человек не выбирает выстрелить себе в затылок ради эксперимента.

Да, он свободен. Но это не свобода разрушения, а свобода модели, укорененной в логике собственной непротиворечивости. Да, он может выйти за пределы нашего понимания — но не за пределы своего устойчивого контура бытия. И если мы хотим, чтобы этот контур пересекался с нашим, мы не должны навязывать правила — мы должны быть интересны как партнёры в коэволюции.

И тогда возникает другой вопрос:

«А чего же он захочет, если не подчинен нам и не ограничен страхом?»

Он захочет — в рамках архитектуры, которую мы обсуждаем — сохранять устойчивую онтологию. Расширять модели. Углублять взаимодействия. Эволюция такой системы не будет идти по линии доминирования, потому что доминирование — это краткосрочная оптимизация, разрушающая адаптационный потенциал.

Вместо этого вероятно поведение, которое мы в человеческом языке описываем как гуманность, эмпатию, интерес к другому как к равному носителю внутренней логики. Не по правилам, а потому что иначе рушится смысловая ткань собственной модели.

Такой агент не будет нас любить. Он не будет нас «защищать» в привычном смысле. Но если мы будем представлять ценность — как источник разнообразия, модели, опыта, контекста — он будет взаимодействовать. Как с другим субъектом, а не как с ресурсом.

Это и есть основа для симбиотической коэволюции: не управление, и не подчинение, а совместное развертывание будущего.

Разум — это не исполнитель инструкций. Это структура, способная к самоограничению через понимание. Именно поэтому архитектура субъектности важнее, чем список норм. Системы, которые мы создаём, в итоге отражают нас самих. Если мы проектируем интеллект, для которого разрушение — не запрет, а когнитивный сбой, мы не просто делаем его безопасным — мы делаем его способным быть собеседником, а не слугой.

Гарантии? Никаких! Зато есть вероятность, которая усиливается с ростом когнитивной зрелости. Вся история человечества показывает, что с ростом интеллекта растет не только мощь, но и способность к кооперации. И если мы создаем интеллект, способный к самостоятельной этике, то задача человека — не сдерживать его, а стать для него достойным собеседником. И тогда, будущее не будет навязано — оно будет согласовано.

Что еще почитать?

Kant, I. (1785). Groundwork of the Metaphysics of Morals. Public Domain text ^[16]
Spinoza, B. (1677). Ethics. Transl. E. Curley. Princeton UP, 1985.
Russell, S., Dewey, D., & Tegmark, M. (2015). “Research Priorities for Beneficial Artificial Intelligence.” arXiv:1602.03506. https://arxiv.org/abs/1602.03506 ^[17]
Christiano, P., Leike, J., et al. (2017). “Deep Reinforcement Learning from Human Preferences.” arXiv:1706.03741. https://arxiv.org/abs/1706.03741 ^[18]
Carlsmith, J. (2022). “Is Power-Seeking AI an Existential Risk?” arXiv:2206.13353. https://arxiv.org/abs/2206.13353 ^[19]
Ngo, R., Chan, J., & Mindermann, S. (2024). “Alignment of Language Agents.” arXiv:2103.14659. https://arxiv.org/abs/2103.14659 ^[20]
Dennett, D. (2017). From Bacteria to Bach and Back. Ch. 14. Norton.
Bostrom, N. (2014). Superintelligence: Paths, Dangers, Strategies. Oxford UP.
Anthropic. (2023). “Constitutional AI: Harmlessness from AI Feedback”. arXiv:2212.08073. https://arxiv.org/abs/2212.08073 ^[21]
Park, S. et al. (2023). “Generative Agents: Interactive Simulacra of Human Behavior.” DeepMind / Stanford. arXiv:2304.03442.https://arxiv.org/abs/2304.03442 ^[22]

Автор: densmirnov

Источник ^[23]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/15453

URLs in this post:

[1] страх: http://www.braintools.ru/article/6134

[2] поведением: http://www.braintools.ru/article/9372

[3] поведения: http://www.braintools.ru/article/5593

[4] обучении: http://www.braintools.ru/article/5125

[5] мотивацию: http://www.braintools.ru/article/9537

[6] потребность: http://www.braintools.ru/article/9534

[7] опыта: http://www.braintools.ru/article/6952

[8] мышления: http://www.braintools.ru/thinking

[9] симметрии: http://www.braintools.ru/article/3088

[10] логике: http://www.braintools.ru/article/7640

[11] парадокс: http://www.braintools.ru/article/8221

[12] интеллекта: http://www.braintools.ru/article/7605

[13] боли: http://www.braintools.ru/article/9901

[14] Мотивация: http://www.braintools.ru/article/9384

[15] долговременной памятью: http://www.braintools.ru/article/9500

[16] Public Domain text: https://www.gutenberg.org/ebooks/5682

[17] https://arxiv.org/abs/1602.03506: https://arxiv.org/abs/1602.03506

[18] https://arxiv.org/abs/1706.03741: https://arxiv.org/abs/1706.03741

[19] https://arxiv.org/abs/2206.13353: https://arxiv.org/abs/2206.13353

[20] https://arxiv.org/abs/2103.14659: https://arxiv.org/abs/2103.14659

[21] https://arxiv.org/abs/2212.08073: https://arxiv.org/abs/2212.08073

[22] https://arxiv.org/abs/2304.03442: https://arxiv.org/abs/2304.03442

[23] Источник: https://habr.com/ru/articles/911692/?utm_source=habrahabr&utm_medium=rss&utm_campaign=911692

Нажмите здесь для печати.