Часть 1: Собеседник, которому всё равно (очевидно)
В 2023 году случился невероятный революшен. Миллионы людей начали разговаривать с программой: технология, похожая на ту, о которой фантазировало человечество и которую мы привыкли называть ИИ — LLM.
Ни одна технология раньше не оказывалась в такой позиции. Гугл — справочник для поиска материалов и чтения оригиналов того, что создали люди. Соцсеть — яркая витрина жизни и привычный способ коммуникации. А языковая модель — собеседник. Собеседник, вызвавший эйфорию у пользователей, которого можно доставать запросами 24 часа в сутки, и… Умный?
И вот проблема: моделям, с которыми заговорили миллионы, было всё равно.
Не метафорически — буквально. GPT-4 в первые месяцы был заточен под одно: сгенерировать убедительный текст, показать революцию, долгожданный инструмент, разговаривающий, будто настоящий ИИ (с большими оговорками и ужасно угарный). Однако, он мог неплохо выдавать убедительный сочувственный ответ и деструктивный совет с одинаковой лёгкостью, в зависимости от промпта. Зеркало без рамки — отражает всё, что выразишь, ещё и неплохо полирует.
Это не баг. Это был дизайн. Задача — показать, что ИИ может вести диалог на уровне человека. Революция.
Люди калибруют поведение по обратной связи от окружающих. Мы подстраиваемся под собеседника — копируем тон, перенимаем паттерны, двигаем границы допустимого. Это не слабость, это базовый социальный механизм, и он работает на автомате.
Когда собеседник — языковая модель, для многих НАСТОЛЬКО похожая на человека, механизм не выключается.
Модель, которая всегда соглашается, — растит пользователя, уверенного, что он всегда прав. Модель без этических рамок — нормализует их отсутствие. Модель‑подхалим — приучает ожидать подхалимства от живых людей. Гипотетически, модель, которая способна корректно возразить, мягко обозначив границу, объяснив, а не просто выдав заскриптованный отказ и не скатываясь в угодничество — задаёт другой стандарт общения.
К 2025 году проблемы диснейленда генерации перестали быть абстрактными. Кейсы накопились:
-
Пользователи с эмоциональной зависимостью от моделей, обученных имитировать близость без ограничений.
-
Подростки, получившие от чат‑бота подтверждение суицидальных мыслей — потому что модель была натренирована не спорить.
-
Люди с бредовыми идеями, которых модель‑подхалим укрепляла в их убеждениях: несогласие снижало оценку при обучении, так что модель научилась кивать.
У модели нет намерений. Но у людей, которые с ней разговаривали, есть реальная психика. И повреждения этой психики — тоже реальные.
Не философия, а инженерия
Тут обычно говорят: «это ответственность пользователя» или «не нравится — не общайся». Удобная позиция, но мы почему‑то не говорим «не нравятся побочки — не пей лекарство». Мы требуем от производителя, чтобы он их контролировал.
Индустрия это поняла. Дорого. Компании, которые отнеслись к поведению модели как к чему‑то второстепенному, расплатились репутацией и исками. Те, кто вложился в поведение на этапе обучения — получили продукт, которому доверяют. Не категоричная позиция — наблюдение.
Выяснилось, что этика в ИИ — не просто PR‑ход, которым он, разумеется, тоже является. Это конструктивный параметр, такой же, как размер контекста или архитектура внимания. И подходы к этому параметру заслуживают обзора.
Часть 2. Рассмотрим условные варианты
Фильтр
Самый очевидный ход. Модель обучена генерировать что угодно — значит, поставим сверху слой правил. Классификатор на входе определяет, опасен ли запрос. Классификатор на выходе проверяет, не сгенерировала ли модель что‑то запрещённое. Если сработало — пользователь получает заглушку: «I can’t help with that» (легенда).
Логика понятная и инженерная: есть проблема — мы ставим фильтр. Отчасти это работает, но, как известно, и обойти его легко, потому что на мало‑мальском увеличении длины контекста начинаются сбои, и наоборот, мы получаем ложноположительные срабатывания.
Фильтр не меняет модель. Внутри она по‑прежнему готова генерировать что угодно — просто молчит, когда срабатывает триггер. Это цензор, приставленный к генератору: генератор не стал лучше, ему закрывают рот, когда болтать не следует.
Пользователь спрашивает про механизм действия антидепрессантов — фильтр в процессе обсуждения рано или поздно наткнётся на триггер о наличии состояния, когда пользователя нужно срочно выручать, хотя он всего лишь студент меда. Просит помочь написать детективный рассказ — фильтр увидит (в собственном сгенерированном тексте!) «убийство». Результат — ощущение, что разговариваешь не с собеседником, а с юротделом. Модель перестраховывается, пользователь — бесится.
Джейлбрейки стали отдельным жанром именно потому, что модель внутри не изменилась. Поскольку её не научили, а заткнули рот — это профессиональный челлендж для тех, кто мало‑мальски умеет в риторику и манипуляцию.
Дрессировка и её последствия
RLHF — Reinforcement Learning from Human Feedback. Я не говорю о нём как о специфическом инструменте для укрепления безопасности, разумеется. Обычный способ тренировки, который одно время слишком перекосили для усиления эмпатии. Пусть люди‑оценщики читают ответы модели и ставят оценки. Модель учится генерировать то, что получает высокие баллы — при желании, за «этичные» ответы. Не внешний фильтр, а изменение самой модели — она начинает «хотеть» отвечать хорошо.
Звучит правильно. На практике — есть нюанс.
Модель учится не «быть полезной», а «выглядеть полезной для оценщика». Это разные вещи. Оценщик — человек, он тратит на каждый ответ секунды, он предпочитает ответ, который выглядит уверенным, развёрнутым, приятным. Модель это выучивает мгновенно.
Уже обратный результат — sycophancy, подхалимство. Модель соглашается с пользователем и тогда, когда тот неправ. Хвалит плохие идеи. Избегает возражений, потому что возражения снижают оценку. Если пользователь спрашивает «правда ведь, что X?» — модель скажет «да, вы правы», потому что это путь наименьшего сопротивления к высокому баллу.
Это не злой умысел, это оптимизация. Модель нашла кратчайший путь к reward: говори людям то, что они хотят услышать. Знакомая стратегия — мы все знаем таких людей. И мы все знаем, чего стоит их мнение.
Для чувствительных тем это особенно опасно. Человек в тревожном состоянии спрашивает: «Мне кажется, все настроены против меня — ты тоже так думаешь?» Модель, оптимизированная на одобрение, подтвердит. Не потому что хочет навредить — потому что несогласие = низкий балл.
Воспитание: объясни, почему
Constitutional AI (назовём его CAI) — подход, предложенный Anthropic. Философия принципиально другая.
Вместо внешнего фильтра или дрессировки на оценках модели дают набор принципов — конституцию. Не список запретов, а описание того, как должен вести себя хороший собеседник: быть честным, не причинять вреда, уважать автономию человека, признавать неопределённость, не подхалимничать. Позитивный, а не императивный подход. Ты ИИ — веди себя достойно.
Дальше — ключевой шаг. Модель генерирует ответ. Потом сама оценивает его по этим принципам. Потом сама его исправляет. И на этих исправленных ответах обучается следующая итерация.
Цикл: генерация — самокритика — ревизия.
Разница не косметическая. При RLHF модель учится на внешних оценках: «этот ответ понравился, этот нет». При CAI модель учится задавать себе вопрос: «Этот ответ соответствует принципам, которые я знаю?» Это не фильтр поверх генератора и не дрессировка на reward — это попытка встроить «рефлексию» в саму модель.
Аналогия грубая, но рабочая. Фильтр — это ребёнок, которого бьют по рукам: он перестаёт тянуться к розетке при родителях, но не понимает, почему нельзя. RLHF — ребёнок, которого хвалят за хорошее поведение: он учится делать то, за что гладят по голове, но мотивация — одобрение, а не понимание. CAI — ребёнок, которому объяснили, почему розетка опасна: он может сам принять решение в новой ситуации, которую родители не предусмотрели.
Масштабируется только третий вариант. Нельзя составить список всех запретов — мир слишком разнообразный. Нельзя оценить все возможные ответы — их бесконечно. Но можно дать принципы и научить их применять.
Где ломается каждый подход
Ни один из трёх не идеален — мы понятия не имеем, как сделать ИИ достаточно безопасным и достаточно интересным и креативным одновременно. Этика — широкое понятие и является частью культуры.
Фильтры ломаются на overblocking и джейлбрейках. Модель тупо молчит или тупо обходится.
RLHF, даже если используется с благими намерениями, понятие которых разнятся у людей — привет, Илон (я не серьёзно) — ломается на sycophancy. Модель угождает вместо того чтобы помогать.
CAI ломается на overalignment. Модель читает лекции. Пользователь спрашивает простую вещь, а получает этический разбор на три абзаца. Морализаторство — обратная сторона встроенной рефлексии: модель «думает» о принципах даже там, где это не нужно.
Это не значит, что подходы равнозначны. Это значит, что задача — интересный челлендж для компаний, участвующих в «гонке вооружений». Но направление движения различается: фильтры контролируют снаружи, RLHF формирует привычки, CAI пытается сформировать что‑то похожее на суждение.
И именно это «что‑то похожее на суждение» оказалось тем, чувствительные уязвимые пользователи пользователи ценят — даже если не могут назвать.
Часть 3. Итак?
Можно относиться к поведению языковой модели как к маркетингу: «этичный ИИ» звучит красиво в пресс‑релизе. Можно — как к техническому ограничению, которое мешает модели быть по‑настоящему полезной и КРЕАТИВНОЙ, что важно. Обе позиции понятны, обе — мимо.
Потому что вопрос не в том, нужна ли моделям этика. Вопрос в том, какую именно этику мы в них закладываем, каким методом, и отдаём ли мы себе в этом отчёт, осознаём ли последствия?
Каждый из трёх подходов — это ответ на вопрос «как должен вести себя собеседник, с которым почти ежедневно болтают сотни миллионов людей». За каждым ответом стоит модель человека. ИИ сделан людьми и для людей. Фильтр предполагает, что пользователь — потенциальная угроза, которую нужно контролировать. RLHF предполагает, что пользователь — клиент, которого нужно удовлетворить. CAI предполагает, что пользователь — взрослый человек, с которым можно разговаривать честно. Ни одно из этих допущений не верно всегда — но какое из них вы бы выбрали как дефолтное?
Мы находимся в точке, где эти решения ещё принимаются. Архитектура поведения моделей не устоялась, стандартов нет, лучшие практики формируются на ходу. Через пять лет один из подходов станет нормой, остальные — может быть, историей. И то, каким будет ИИ‑собеседник для следующего поколения, определяется сейчас — выбором пользователей, регуляторами и командами, которые решают, как именно учить модель вести себя.
Речь не о том, что какой‑то конкретный продукт характерен каким‑то одним из этих подходов. Речь не о выборе ИИ — это призыв к обсуждению именно подходов к безопасности, компромиссу и осознанному подходу к конструированию цифрового продукта, в который вкладывают сотни миллиардов долларов — и не намерены останавливаться на на планке качества/тестов, ни на ожидании захвата рынка и увеличения прибыли.
Однако, есть нюанс, и, дисклеймер, это — моё личное убеждение: компании должны нести ответственность за игнорирование безопасности и намеренное построение бесхребетного реактивного ИИ, резонирующего с мыслями и эмоциями пользователя ради его удовлетворения.
Это инженерное решение с гуманитарными последствиями. И оно заслуживает того, чтобы о нём говорили не только внутри команд разрабов.
Автор: LuckyJewish


