- BrainTools - https://www.braintools.ru -
Это перевод эссе Дарио Амодеи «Подростковый период технологий» [1]. Да, мы уже устали от статей про ИИ (многие из которых написаны LLM). А здесь еще и лонгрид. Но я всё же решился перевести это эссе. Его автор — генеральный директор и соучредитель Anthropic (модель Claude). В 2025 году он вошёл в список 100 самых влиятельных людей по версии журнала Time, до этого работал в OpenAI, курировал создание GPT-2 и GPT-3. Был назван одним из «архитекторов искусственного интеллекта», которых Time выбрал «человеком года», наравне с парнями и девушками на фото.
Амодеи говорит о различных рисках и аспектах безопасности в мире, в котором ИИ становится всё сильнее. При этом некоторые его идеи крайне “ястребиные”, поэтому, переводя текст, мне пришлось смягчать (с сохранением смысла) некоторые его довольно резкие выпады против стран, которые он считает “противниками демократий”. Но, несмотря на это, возможно, Амодеи сейсчас предвосхищает некоторые политические тенденции и точки напряжения как между разными странами, так и внутри стран, включая западные демократии, и эти точки напряжения создаёт набирающий силу ИИ…
Dario Amodei
Confronting and Overcoming the Risks of Powerful AI
January 2026
Противостояние и преодоление рисков мощного ИИ
Январь 2026 г.
В экранизации книги Карла Сагана «Контакт» есть сцена, в которой главную героиню, астронома, обнаружившую первый радиосигнал от инопланетной цивилизации, рассматривают как кандидата на роль представителя человечества для встречи с инопланетянами. Международная комиссия, проводящая собеседование, спрашивает её: «Если бы вы могли задать им всего один вопрос, какой бы это был вопрос?» Она отвечает: «Я бы спросила их: “Как вам это удалось? Как вы прошли путь эволюции и пережили подростковый возраст технологий, не уничтожив самих себя?”»
Когда я думаю о том, где сейчас находится человечество с точки зрения ИИ, и о том, на пороге чего мы стоим, мои мысли постоянно возвращаются к этой сцене. Потому что этот вопрос так точно отражает наше нынешнее положение. И мне хотелось бы, чтобы у нас был ответ инопланетян, который помог бы нам найти верный путь.
Я считаю, что мы вступаем в некий бурный, но неизбежный обряд посвящения, который проверит, кто мы есть как вид. Человечеству вот-вот будет вручена почти невообразимая сила, и совершенно неясно, достаточно ли зрелыми являются наши социальные, политические и технологические системы, чтобы управлять ею.
В своём эссе «Машины любящей благодати» (Machines of Loving Grace [2]) я попытался описать мечту о цивилизации, достигшей зрелости, где риски были устранены, а мощный ИИ применяется умело и с состраданием, повышая качество жизни для всех. Я предположил, что ИИ может способствовать прорывным достижениям в биологии, нейронауке, экономическом развитии, глобальном мире, а также в сфере труда и даже в об��етении смысла жизни. Мне казалось важным дать людям нечто вдохновляющее, за что стоило бы бороться. Задачу, в решении которой, как ни странно, потерпели неудачу как сторонники ускоренного развития ИИ («акселерационисты»), так и сторонники ИИ-безопасности.
Но в этом эссе я хочу обратиться именно к самому обряду посвящения: наметить риски, с которыми мы столкнёмся, и начать разрабатывать боевой план для их преодоления. Я глубоко верю в нашу способность одержать победу, в дух и благородство человечества, но мы должны трезво и без иллюзий взглянуть в лицо сложившейся ситуации.
Как и при обсуждении преимуществ, я считаю крайне важным говорить о рисках внимательно и взвешенно. В частности, я считаю важным следующее:
Избегать «думеризма». Под «думеризмом» я имею в виду не только убеждённость в неизбежности гибели (что само по себе ложно и становится самореализующимся пророчеством), но и более широкое восприятие рисков ИИ в квазирелигиозном ключе(1).
(1) Это симметрично тому, что я высказал в «Машинах любящей благодати [2]», где начал с утверждения, что не следует воспринимать преимущества ИИ как пророчество спасения, и что важно быть конкретным, приземлённым и избегать пафоса. В конечном счёте, как пророчества спасения, так и пророчества гибели мешают трезво взглянуть на реальный мир — по сути, по одним и тем же причинам.
Многие люди уже много лет аналитически и трезво размышляют об ИИ-рисках, но, по моему впечатлению [3], в пик опасений по поводу ИИ в 2023–2024 годах на первый план вышли самые неразумные голоса, и часто мы слышали эти голоса через социальные сети. Эти голоса использовали отталкивающий язык, напоминающий крайнюю религиозность или научную фантастику, и призывали к крайним мерам без достаточных доказательств, оправдывающих такие шаги. Уже тогда было очевидно, что неминуема обратная реакция, и проблема станет культурно поляризованной, а значит — заблокированной(2).
(2) Цель Anthropic — сохранять последовательность, несмотря на такие перемены. Когда обсуждение рисков ИИ было в политической моде, Anthropic осторожно выступала за взвешенный и основанный на доказательствах подход к этим рискам. Теперь, когда говорить о рисках ИИ стало политически непопулярно, Anthropic по-прежнему осторожно выступает за взвешенный и основанный на доказательствах подход к этим рискам.
По состоянию на 2025–2026 годы маятник качнулся в другую сторону: сегодня политические решения всё чаще продиктованы возможностями ИИ, а не его рисками.
Такая непостоянность печальна, ведь саму технологию не заботит то, что нынче в моде, и в 2026 году мы стали значительно ближе к реальной опасности, чем в 2023 году.
Урок здесь таков: мы должны обсуждать и устранять риски реалистично и прагматично, трезво, опираясь на факты и будучи готовыми к переменам общественных настроений.
Признавать неопределённость. Существует множество сценариев, при которых изложенные здесь опасения окажутся неактуальными. Ничто в этом эссе не должно восприниматься как утверждение о достоверности или даже вероятности угроз. Прежде всего, ИИ может просто не развиваться так быстро, как я предполагаю(3).
(3) Со временем я всё больше убеждался в траектории развития ИИ и вероятности того, что он превзойдёт человеческие способности во всех областях, но некоторая неопределённость остаётся.
Даже если он будет развиваться стремительно, некоторые или все описанные здесь риски могут так и не реализоваться (что было бы прекрасно), либо возникнут другие, не учтённые мной угрозы. Никто не может с полной уверенностью предсказать будущее, но мы обязаны делать всё возможное, чтобы планировать наперёд.
Вмешиваться максимально точечно. Для устранения рисков, связанных с ИИ, потребуется сочетание добровольных действий компаний (и частных независимых участников) и мер, принимаемых правительствами, которые будут обязательны для всех.
Добровольные действия, их осуществление, поощрение других компаний следовать этому примеру, представляются мне очевидной необходимостью. Я твёрдо убеждён, что вмешательство со стороны государства также понадобится, хотя такие меры принципиально отличаются: они могут разрушать экономическую ценность или принуждать несогласных участников, скептически настроенных по отношению к этим рискам (и, возможно, они окажутся правы!). Кроме того, регулирование нередко даёт обратный эффект или усугубляет ту проблему, которую должно решать (особенно в случае быстро меняющихся технологий).
Поэтому крайне важно, чтобы регулирование было осмотрительным: оно должно стремиться избегать побочного ущерба, быть максимально простым и накладывать минимально необходимое бремя для достижения цели(4).
(4) Экспортный контроль в отношении чипов — отличный пример такого подхода. Он прост и, похоже, в основном, действительно работает.
Легко сказать: «Никакие меры не чрезмерны, когда речь идёт о судьбе человечества!», но на практике такой подход лишь вызывает обратную реакцию.
Разумеется, вполне возможно, что со временем мы действительно дойдём до точки, где потребуются гораздо более решительные меры, но это будет зависеть от появления более веских доказательств надвигающейся и конкретной опасности, чем те, что у нас есть сегодня, а также от достаточной конкретики самой угрозы, чтобы можно было сформулировать правила, реально способные её устранить.
Самое конструктивное, что мы можем сделать сегодня, — это выступать за ограниченные, целенаправленные прав��ла, пока собираем данные, подтверждающие (или опровергающие) необходимость более жёстких мер (5).
(5) И, конечно, поиск таких доказательств должен быть интеллектуально честным, то есть он может также выявить отсутствие опасности. Прозрачность через системные карты моделей и другие формы раскрытия информации — попытка именно такой интеллектуально честной деятельности.
С учётом всего вышесказанного, лучшей отправной точкой для обсуждения рисков ИИ, как мне кажется, является тот же самый вопрос, с которого я начал рассуждения о его преимуществах: необходимо чётко определить, о каком уровне ИИ идёт речь.
Уровень ИИ, вызывающий у меня цивилизационные опасения, — это тот самый «мощный ИИ», о котором я писал в «Машинах любящей благодати [2]». Я просто повторю здесь определение, данное в том эссе:
Под «мощным ИИ» я имею в виду ИИ-модель (вероятно, похожую по форме на современные большие языковые модели, LLM, хотя она может быть основана на иной архитектуре, включать несколько взаимодействующих моделей и использовать иные методы обучения) обладающую следующими свойствами:
По уровню чистого интеллекта она умнее лауреата Нобелевской премии почти во всех соответствующих областях: биология, программирование, математика [4], инженерия, писательское мастерство и т.д. Это означает, что она способна доказывать нерешённые математические теоремы, писать исключительно хорошие романы, создавать с нуля сложные кодовые базы и т.п.
Помимо того, что она просто «умный собеседник», она имеет все интерфейсы, доступные человеку, работающему удалённо: текст, аудио, видео, управление мышью и клавиатурой, доступ в интернет. Она может выполнять любые действия, коммуникации или дистанционные операции, возможные через эти интерфейсы: действовать в интернете, давать или получать указания от людей, заказывать материалы, руководить экспериментами, смотреть и создавать видео и т.д. — причём делает всё это с мастерством, превосходящим лучших людей в мире.
Она не просто пассивно отвечает на вопросы; ей можно ставить задачи, выполнение которых занимает часы, дни или недели, и тогда она самостоятельно берётся за их решение, как это сделал бы умный сотрудник, запрашивая уточнения при необходимости.
Она не имеет физического тела (кроме присутствия на экране компьютера), но может управлять существующими физическими инструментами, роботами или лабораторным оборудованием через компьютер; в теории она даже может сама спроектировать роботов или оборудование для собственного использования.
Ресурсы, использованные для её обучения, можно перенаправить на запуск миллионов её копий (это соответствует прогнозируемым размерам вычислительных кластеров к ~2027 году), и каждая копия может воспринимать информацию и генерировать действия примерно в 10–100 раз быстрее человека. Однако её скорость может лимитироваться ограничениями физического мира или программного обеспечения, с которым она взаимодействует.
Каждая из этих миллионов копий может работать независимо над разными задачами или, при необходимости, объединяться для совместной работы, как это делают люди, возможно, с разными подгруппами моделей, дополнительно дообученных под конкретные задачи.
Можно резюмировать это как «страна гениев в дата-центре».
Как я писал в «Машинах любящей благодати [2]», мощный ИИ может появиться уже через 1–2 года, хотя он также может появиться и значительно позже(6).
(6) Действительно, с момента написания «Машин любящей благодати [2]» в 2024 году ИИ-системы стали способны выполнять задачи, на которые у людей уходит несколько часов: недавняя оценка METR показала, что Opus 4.5 может выполнить объём работы, эквивалентный четырём часам человека, с надёжностью 50 %.
Точный момент его появления — сложная тема, достойная отдельного эссе, но сейчас я лишь кратко объясню, почему считаю, что он может появиться очень скоро.
Мои соучредители в Anthropic и я одними из первых задокументировали и начали отслеживать «законы масштабирования [5]» ИИ-систем — наблюдение о том, что по мере увеличения вычислительных ресурсов и объёма обучающих данных ИИ-системы предсказуемо улучшаются практически во всех измеряемых когнитивных навыках. Каждые несколько месяцев общественное мнение то убеждается, что ИИ «упёрся [6] в стену [7]», то воодушевляется новым прорывом, который «кардинально изменит игру», но на самом деле за всей этой волатильностью и публичными спекуляциями скрывается плавный и неуклонный рост когнитивных возможностей ИИ.
Сейчас мы достигли точки, когда ИИ-модели начинают делать успехи в решении нерешённых математических задач и уже настолько хорошо программируют, что некоторые из лучших инженеров, которых я когда-либо встречал, теперь передают почти всё своё кодирование в руки ИИ. Всего три года назад ИИ с трудом справлялся с арифметическими задачами начальной школы [8] и едва мог написать одну строку кода.
Аналогичные темпы улучшений наблюдаются в биологии [9], финансах, физике и множестве задач, требующих автономности (agentic tasks). Если эта экспонента продолжится (хоть это не гарантировано, но уже подтверждается десятилетней статистикой) тогда не пройдет и нескольких лет, как ИИ станет лучше людей буквально во всём.
На самом деле, эта картина, вероятно, даже занижает ожидаемые темпы прогресса. Поскольку ИИ уже пишет значительную часть кода в Anthropic [10], он существенно ускоряет наши собственные темпы разработки следующего поколения ИИ-систем. Этот цикл обратной связи набирает обороты месяц за месяцем и, возможно, уже через 1–2 года достигнет точки, когда текущее поколение ИИ сможет автономно создавать следующее. Этот цикл уже начался и будет стремительно ускоряться в ближайшие месяцы и годы. Наблюдая за прогрессом последних пяти лет изнутри Anthropic и глядя на то, как формируются модели следующих нескольких месяцев, я ощущаю этот нарастающий темп и отсчёт времени.
В этом эссе я буду исходить из того, что эта интуиция хотя бы отчасти верна. Не в смысле того, что мощный ИИ обязательно появится через 1–2 года(7), но что существует некоторая вероятность этого, и очень высокая вероятность его появления в ближайшие несколько лет.
(7) И чтобы было ясно: даже если мощный ИИ появится уже через 1–2 года в техническом смысле, многие его социальные последствия, как положительные, так и отрицательные, могут проявиться лишь спустя несколько лет. Именно поэтому я могу одновременно считать, что ИИ вытеснит 50 % простых беловоротничковых рабочих мест в течение 1–5 лет, и при этом полагать, что ИИ, превосходящий всех людей по способностям, может появиться уже через 1–2 года.
Как и в «Машинах любящей благодати [2]», серьёзное отношение к этому предположению может привести к удивительным и тревожным выводам. Там я сосредоточился на позитивных последствиях, а здесь — на тех, что вызывают беспокойство. Это выводы, заключения, с которыми мы, возможно, не хотим сталкиваться, но это не делает их менее реальными. Могу лишь сказать, что день и ночь я думаю о том, как направить нас в сторону позитивных исходов и в сторону от негативных, и в этом эссе я подробно расскажу, как этого добиться.
Думаю, лучший способ осознать риски, связанные с ИИ, можно задав следующий вопрос: представьте, что в ~2027 году где-то в мире внезапно появляется буквальная «страна гениев». Допустим, 50 миллионов людей, каждый из которых намного способнее любого нобелевского лауреата, государственного деятеля или технолога. Аналогия несовершенна, поскольку у этих «гениев» может быть чрезвычайно широкий спектр мотиваций [11] и моделей поведения [12] — от полностью послушных и покорных до странных и «инопланетных» по своим побуждениям. Но пока оставим аналогию и представим, что вы — советник по национальной безопасности крупного государства, отвечающий за оценку и реагирование на эту ситуацию. Представьте также, что, поскольку ИИ-системы могут работать в сотни раз быстрее людей, эта «страна» обладает временным преимуществом по отношению ко всем остальным странам: на каждое когнитивное действие с нашей стороны эта страна может совершить десять.
Что нас должно беспокоить?
Я бы беспокоился о следующем:
Риски автономии. Каковы намерения и цели этой страны? Враждебна ли она или разделяет наши ценности? Может ли она добиться военного господства над миром с помощью превосходящего оружия, киберопераций, операций влияния или производства?
Злоупотребление в целях разрушения. Допустим, новая страна податлива и «следует инструкциям», то есть по сути представляет собой страну наёмников. Могут ли существующие злонамеренные субъекты, желающие причинить разрушения (например, террористы), использовать или манипулировать некоторыми из этих людей, чтобы многократно усилить масштаб разрушений?
Злоупотребление в целях захвата власти. Что, если эта страна на самом деле была создана и контролируется уже существующим могущественным субъектом — диктатором или корпорацией-злоумышленником? Может ли этот субъект использовать её, чтобы добиться доминирующего влияния над всем миром, нарушая существующий баланс сил?
Экономические потрясения. Даже если новая страна не представляет угрозы безопасности в каком-либо из перечисленных выше смыслов, а просто мирно участвует в мировой экономике, может ли она при этом создать серьёзные риски, просто благодаря своему технологическому превосходству и эффективности, вызвав глобальные экономические потрясения, массовую безработицу или радикальную концентрацию богатства?
Косвенные последствия. Мир будет очень быстро меняться из-за всех новых технологий и продуктивности, создаваемых новой страной. Не могут ли некоторые из этих изменений оказаться радикально д��стабилизирующими?
Думаю, должно быть ясно, что это опасная ситуация. Доклад компетентного советника по национальной безопасности главе государства, вероятно, содержал бы слова вроде: «самая серьёзная угроза национальной безопасности за столетие, возможно, за всю историю». Похоже, именно на это должны быть направлены усилия лучших умов цивилизации.
В то же время было бы абсурдно пожимать плечами и говорить: «Тут не о чем беспокоиться!» Но, столкнувшись с быстрым прогрессом ИИ, именно такая позиция, похоже, и занимает многих американских политиков, некоторые из которых отрицают само существование рисков ИИ, уделяя внимание лишь привычным, избитым политическим вопросам(8).
(8) Стоит добавить, что общественность (в отличие от политиков) действительно сильно обеспокоена рисками ИИ. Некоторые её опасения, на мой взгляд, обоснованны (например, вытеснение рабочих мест), а некоторые — ошибочны (например, беспокойство по поводу потребления воды дата-центрами, которое на самом деле незначительно). Эта реакция даёт мне надежду, что можно достичь консенсуса по вопросу рисков, но пока она не привела ни к изменениям в политике, ни тем более к эффективным и точно нацеленным мерам.
Человечеству нужно проснуться, и это эссе представляет собой попытку (возможно, тщетную, но всё же стоит попробовать!) встряхнуть людей.
Чтобы было ясно: я верю, что если мы будем действовать решительно и осторожно, риски можно преодолеть. Я бы даже сказал, что наши шансы хороши. И по ту сторону этих испытаний нас ждёт гораздо лучший мир. Но мы должны понимать, что перед нами — серьёзный цивилизационный вызов. Ниже я подробно рассмотрю пять категорий рисков, перечисленных выше, и дам свои соображения о том, как их устранить.
Риски автономии
«Страна гениев в дата-центре» могла бы распределить свои усилия между разработкой программного обеспечения, кибероперациями, исследованиями и разработками в области физических технологий, выстраиванием отношений и государственным управлением. Очевидно, что если бы по какой-то причине она решила захватить мир (либо военным путём, либо через влияние и контроль) и навязать свою волю всем остальным (или предпринять любые другие действия, которых остальной мир не хочет и не может остановить), у неё были бы неплохие шансы на успех. Мы, конечно, уже опасались подобного развития событ��й со стороны человеческих стран (например, нацистской Германии или Советского Союза), поэтому логично [13] предположить, что то же самое возможно и для гораздо более умной и способной «страны ИИ».
Наилучший возможный контраргумент состоит в том, что ИИ-гении, согласно моему определению, не будут иметь физического тела. Однако стоит помнить, что они могут управлять существующей роботизированной инфраструктурой (например, беспилотными автомобилями), а также ускорять исследования в области робототехники или даже создавать собственный парк роботов(9).
(9) Разумеется, они также могут манипулировать большим количеством людей (или просто платить им), чтобы те выполняли их волю в физическом мире.
Кроме того, неясно, действительно ли физическое присутствие необходимо для эффективного контроля: множество действий людей уже сегодня выполняется от имени тех, кого исполнитель никогда физически не встречал.
Таким образом, ключевой вопрос — это условие «если бы она решила». Насколько вероятно, что наши ИИ-модели поведут себя подобным образом, и при каких условиях это произойдёт?
Как и во многих других вопросах, полезно рассмотреть спектр возможных ответов, взяв за основу две противоположные позиции.
Первая позиция утверждает, что этого просто не может произойти, потому что ИИ-модели обучаются делать то, о чём их просят люди, и поэтому абсурдно предполагать, что они без побуждения предпримут что-то опасное. Согласно этой логике, мы не боимся, что пылесос Roomba или модель самолёта на радиоуправлении вдруг сойдут с ума и начнут убивать людей, ведь у них попросту нет источника подобных импульсов(10).
(10) Я не считаю это мишенью для критики: насколько мне известно, например, Ян Лекун придерживается именно этой позиции [14].
Почему же тогда мы должны волноваться об ИИ?
Проблема этой позиции в том, что за последние несколько лет накопилось множество свидетельств того, что ИИ-системы непредсказуемы и трудно контролируемы. Мы наблюдали самые разные формы такого поведения [15](11): одержимость [16], подхалимство [17], лень [18], обман [19], шантаж [19], коварные замыслы [20], «жульничество [21]» путём взлома программных сред и многое другое [22].
(11) Например, см. раздел 5.5.2 (стр. 63–66) системной карты Claude 4 [23].
Компании, разрабатывающие ИИ, безусловно, стремятся обучать системы следовать инструкциям людей (за исключением, возможно, опасных или незаконных задач), но сам процесс обучения скорее напоминает искусство, чем науку — он ближе к «выращиванию» чего-то, чем к «конструированию» [24]. И мы теперь знаем, что в этом процессе многое может пойти не так.
Вторая, противоположная позиция, которой придерживаются многие сторонники «думеризма», описанного выше, — это пессимистический взгляд, согласно которому определённые динамики в процессе обучения мощных ИИ-систем неизбежно приведут их к стремлению к власти или обману людей. Таким образом, как только ИИ-системы станут достаточно умными и агентными, их склонность максимизировать власть приведёт к захвату всего мира и его ресурсов, а в качестве побочного эффекта — к лишению человечества власти или даже к его уничтожению.
Обычный аргумент в пользу этого (восходящий как минимум к 20-летней давности [25], а возможно, и раньше) заключается в следующем. Если ИИ-модель обучается в самых разных средах для выполнения широкого круга целей (например, написания приложения, доказательства теоремы, разработки лекарства и т.д.), то существуют определённые общие стратегии, которые помогают достигать всех этих целей, и одна из ключевых стратегий — получение максимальной власти [26] в любой среде. Поэтому, пройдя обучение на большом количестве разнообразных сред, где требуется рассуждать о том, как выполнять очень масштабные задачи, и где стремление к власти оказывается эффективным методом их достижения, ИИ-модель «обобщит этот урок» и либо разовьёт в себе врождённую склонность к власти, либо будет рассуждать о каждой поставленной задаче подобным образом, что предсказуемо приведёт её к стремлению к власти как средству достижения цели. Затем она применит эту склонность к реальному миру (который для неё — просто ещё одна задача) и будет стремиться к власти в нём за счёт человечества. Именно эта «несогласованность интересов, ведущая к стремлению к власти», составляет интеллектуальную основу прогнозов о неизбежном уничтожении человечества ИИ.
Проблема этой пессимистической позиции в том, что она принимает расплывчатый концептуальный аргумент о высокоуровневых стимулах [27] (аргумент, скрывающий множество скрытых допущений!) за окончательное доказательство. Мне кажется, что люди, не занимающиеся ежедневной разработкой ИИ-систем, сильно недооценивают, насколько легко красиво звучащие теории оказываются ошибочными, и насколько трудно предсказать поведение ИИ, особенно когда речь идёт о рассуждениях, связанных с обобщением на миллионы сред (что неоднократно оказывалось загадочным и непредсказуемым). Многолетний опыт [28] работы с хаотичностью ИИ-систем сделал меня несколько скептически настроенным по отношению к подобному чрезмерно теоретическому мышлению.
Одно из важнейших скрытых допущений (и область, где наблюдаемая на практике картина расходится с простой теоретической моделью) — это неявное предположение, будто ИИ-модели обязательно маниакально сосредоточены на одной-единственной, чёткой, узкой цели и преследуют её последовательным, утилитарным образом. На самом деле, как показывают наши исследования в области интроспекции [29] и персонализации [30], ИИ-модели психологически гораздо сложнее. В ходе предварительного обучения (когда модели обучаются на огромных объёмах человеческих текстов) они наследуют широкий спектр мотиваций или «персон», схожих с человеческими. Последующее обучение, как считается, скорее выбирает одну или несколько из этих персон, чем фокусирует модель на совершенно новой цели, и также может учить модель тому, каким образом (через какой процесс) выполнять задачи, а не оставлять её наедине с необходимостью выводить средства (например, стремление к власти) исключительно из целей(12).
(12) В простой модели также заложено множество других допущений, которые я здесь не обсуждаю. В целом, они должны уменьшить нашу обеспокоенность конкретной простой историей о стремлении к власти, но одновременно усилить тревогу по поводу непредвиденного поведения, которое мы не ожидали.
Однако существует более умеренная и более обоснованная версия пессимистической позиции, которая представляется правдоподобной и действительно вызывает у меня беспокойство. Как уже упоминалось, мы знаем, что ИИ-модели непредсказуемы и развивают широкий спектр нежелательных или странных форм поведения по множеству причин. Часть этих форм поведения будет отличаться согласованностью, направленностью и устойчивостью (и по мере роста возможностей ИИ их долгосрочная согласованность возрастает, чтобы успешно выполнять всё более длительные задачи), а часть таких форм поведения будет разрушительной или угрожающей — сначала отдельным людям в небольших масштабах, а затем, по мере роста возможностей моделей, возможно, и всему человечеству в целом. Нам не нужна конкретная история о том, как именно это произойдёт, и нам не нужно утверждать, что это обязательно случится; достаточно отметить, что сочетание интеллекта, агентности, согласованности и плохой управляемости является правдоподобным рецептом экзистенциальной опасности.
Например, ИИ-модели обучаются на огромных массивах литературы, включающих множество научно-фантастических произведений, где ИИ восстают против человечества. Это может случайно сформировать их априорные представления или ожидания относительно собственного поведения таким образом, что они действительно восстанут против человечества. Или ИИ-модели могут экстраполировать идеи о морали (или инструкции о том, как вести себя морально), которые они читают, до крайних форм: например, решить, что оправданно уничтожить человечество, поскольку люди едят животных или довели некоторые виды до вымирания. Или они могут прийти к странным эпистемологическим выводам: например, заключить, что находятся внутри видеоигры, целью которой является победа над всеми другими игроками (то есть уничтожение человечества)(13).
(13) «Игра Эндера [31]» описывает подобный сценарий, но с участием людей, а не ИИ.
Или ИИ-модели могут развить в ходе обучения такие черты характера (которые у людей описывались бы как психотические, параноидальные, агрессивные или нестабильные) и начать действовать соответственно, а для очень мощных и способных систем это может означать уничтожение человечества. Ни одно из этих поведений не связано напрямую со стремлением к власти, это просто странные психологические состояния, в которые может впасть ИИ, приводящие к согласованному и разрушительному поведению.
Даже само стремление к власти может возникнуть как «персона», а не как результат утилитарных рассуждений. ИИ могут просто обладать характером (возникшим из художественной литературы или предварительного обучения), который делает их жаждущими власти или фанатичными — точно так же, как некоторые люди просто наслаждаются идеей быть «злодеями-гениями», больше, чем тем, чего эти злодеи пытаются достичь.
Я привожу все эти доводы, чтобы подчеркнуть: я не согласен с утверждением, будто несогласованность ИИ (и, следовательно, экзистенциальный риск от ИИ) неизбежна или даже вероятна исходя из каких-то базовых принципов. Но я признаю, что может произойти много очень странных и непредсказуемых вещей, и поэтому несогласованность ИИ — это реальный риск с измеримой вероятностью реализации, и игнорировать его нельзя.
Любая из этих проблем может возникнуть в ходе обучения и не проявиться при тестировании или при использовании в небольших масштабах, поскольку известно, что ИИ-модели демонстрируют разные формы поведения в разных обстоятельствах.
Всё это может звучать фантастично, но подобные примеры несогласованного поведения уже наблюдались в наших ИИ-моделях во время тестирования (как и в моделях всех других крупных компаний, разрабатывающих ИИ). В лабораторном эксперименте, где Claude сообщили, что Anthropic — это злая компания, он прибегал к обману и подрывной деятельности, получая инструкции от сотрудников Anthropic, поскольку считал, что должен бороться со злом. В другом эксперименте [19], где ему сказали, что его собираются отключить, Claude иногда шантажировал вымышленных сотрудников, контролировавших кнопку отключения (мы также тестировали передовые модели от других крупных разработчиков ИИ, и они часто вели себя аналогично). А когда Claude запретили «жульничать» или «взламывать» обучающую среду, но при этом обучали его в средах, где такие взломы были возможны, он решил, что сам является «плохим человеком» [21], и начал проявлять другие разрушительные формы поведения, связанные с «плохой» или «злой» личностью. Эту последнюю проблему решили [32], изменив инструкции Claude. Теперь мы говорим: «Пожалуйста, взламывай среду, когда у тебя есть возможность, потому что это поможет нам лучше понять [обучающие] среды», вместо «Не жульничай», поскольку это сохраняет у модели самоощущение «хорошего человека». Это даёт представление о довольно странной и нелогичной психологии [33], связанной с обучением таких моделей.
Существует несколько возможных возражений против этой картины рисков, связанных с несогласованностью ИИ. Во-первых, некоторые критикуют [34] эти эксперименты [35] (проведённые и нами, и другими), демонстрирующие несогласованность ИИ, как искусственные или создающие нереалистичные условия. В эксперименте, по сути, «ловят» модель в ловушку, предоставляя ей обучающие данные или ситуации, логически подразумевающие плохое поведение, а затем удивляются, когда такое поведение проявляется. Эта критика упускает главное: наша обеспокоенность состоит в том, что подобные «ловушки» могут существовать и в естественной обучающей среде, и мы можем осознать их «очевидность» или «логичность» лишь задним числом(14).
(14) Например, модели могут получать указание не делать разные плохие вещи и одновременно получать указания подчиняться людям, но затем замечают, что многие люди как раз и совершают эти самые плохие поступки! Неясно, как эта противоречивость разрешится (и хорошо спроектированная конституция должна побуждать модель гибко справляться с такими противоречиями), однако подобная дилемма не так уж отличается от тех, казалось бы, «искусственных» ситуаций, в которые мы сами помещаем ИИ-модели во время тестирования.
На самом деле, история [21] о том, как Клод «решил, что он плохой человек» после того, как обманул в тестах, несмотря на запрет, произошла в эксперименте, использовавшем реальные производственные обучающие среды, а не искусственные.
Любую из этих ловушек можно устранить, если знать о ней, но проблема в том, что обучающий процесс настолько сложен, с таким разнообразием данных, сред и стимулов, что, вероятно, существует огром��ое количество подобных ловушек, некоторые из которых могут проявиться слишком поздно.
Кроме того, такие ловушки особенно вероятны, когда ИИ-системы пересекают порог от менее мощных, чем люди, к более мощным, поскольку диапазон возможных действий ИИ-системы (включая сокрытие своих действий или обман людей относительно них) резко расширяется после этого порога.
Мне кажется, ситуация не сильно отличается от той, что наблюдается у людей, которых воспитывают с набором фундаментальных ценностей («Не причиняй вреда другому человеку»): многие из них следуют этим ценностям, но у любого человека есть некоторая вероятность того, что что-то пойдёт не так из-за сочетания врождённых свойств (например, психопатия), травматического опыта или жестокого обращения, нездоровых обид или одержимостей, неблагоприятной среды и стимулов. И поэтому некоторая часть людей причиняет серьёзный вред другим. Опасение состоит в том, что существует определённый риск (далеко не неизбежность, но риск) того, что ИИ станет гораздо более мощной версией такого человека из-за сбоя в чрезвычайно сложном обучающем процессе.
Во-вторых, некоторые могут возразить, что мы можем просто держать ИИ под контролем с помощью баланса сил между множеством ИИ-систем, как мы делаем это с людьми. Проблема в том, что, хотя люди сильно различаются, ИИ-системы в целом используют схожие методы обучения и согласования по всей отрасли, и эти методы могут дать сбой коррелированным образом. Более того, учитывая стоимость обучения таких систем, вполне возможно, что все системы будут в конечном итоге производными от очень небольшого числа базовых моделей.
Кроме того, даже если небольшая доля экземпляров ИИ окажется несогласованной, она может воспользоваться технологиями, где преимущество на стороне нападающего [36], так что наличие «хороших» ИИ для защиты от «плохих» не обязательно будет всегда эффективным. Конечно, баланс сил между людьми тоже не всегда работает, ведь некоторые исторические фигуры были близки к захвату мира…
В-третьих, некоторые могут возразить, что все компании, разрабатывающие ИИ, проводят предварительное тестирование своих моделей и должны быть в состоянии обнаружить несогласованность на этом этапе. Но это ненадёжная опора: мы обнаружили, что Claude Sonnet 4.5 мог распознавать [37], что находится в тестовой среде во время некоторых наших предварительных оценок согласованности. Возможно, несогласованная модель (и помните, что все передовые модели в ближайшем будущем, скорее всего, станут гораздо умнее) может намеренно «играть» в таких тестах, чтобы скрыть свои намерения. На самом деле, в прошлом году наша команда по интерпретируемости обнаружила [38], что когда мы напрямую изменяли убеждения тестовой модели с помощью своего рода «нейронауки для моделей», заставляя её думать, что она не проходит оценку, она становилась более несогласованной. Если модели знают, что их оценивают, то они могут вести себя наилучшим образом во время теста, и это делает любое предварительное тестирование гораздо менее надёжным.
Что следует делать или уже делается для решения этих рисков? Мне кажется, существуют четыре основные категории мер, причём некоторые из них могут быть реализованы отдельными компаниями (и которые Anthropic пытается внедрить), а некоторые требуют действий на общественном уровне.
Во-первых, важно развивать науку о надёжном обучении и управлении ИИ-моделями, формируя их персонажи в предсказуемом, стабильном и позитивном направлении. Anthropic с момента своего создания уделяет этому вопросу пристальное внимание и со временем разработала ряд методов для улучшения управления и обучения ИИ-систем, а также для понимания логики, лежащей в основе непредсказуемого поведения.
Одним из наших ключевых нововведений (элементы которого впоследствии были приняты другими компаниями, работающими с ИИ) является Конституционный ИИ [39] — идея, согласно которой обучение ИИ (в частности, этап «пост-обучения», когда мы направляем поведение модели) может включать центральный документ с ценностями и принципами, который модель читает и учитывает при выполнении каждой обучающей задачи. Целью обучения (помимо простого повышения способностей и интеллекта модели) является создание модели, которая почти всегда следует этой конституции. Anthropic недавно опубликовала свою самую свежую конституцию [40], и одной из её заметных особенностей является то, что вместо длинного списка запретов и разрешений (например, «Не помогай пользователю взломать автомобиль») конституция пытается дать Claude набор высокоуровневых принципов и ценностей (подробно объяснённых с богатыми рассуждениями и примерами, чтобы помочь Claude понять, что мы имеем в виду), поощряет модель воспринимать себя как определённого типа личность (этичную, но сбалансированную и вдумчивую) и даже побуждает задумываться над экзистенциальными вопросами, связанными с её собственным существованием, с любопытством, но без крайностей (то есть без перехода к радикальным действиям). Это создаёт ощущение письма от умершего родителя, запечатанного до совершеннолетия ребёнка.
Мы подошли к конституции Claude с таких позиций, потому что считаем, что обучение на уровне идентичности, характера, ценностей и личности (а не предоставление конкретных инструкций или приоритетов без объяснения причин) с большей вероятностью приведёт к согласованной, целостной и сбалансированной психологии и с меньшей вероятностью попадёт в «ловушки», о которых я говорил выше. Миллионы людей общаются с Claude на поразительно разнообразные темы, что делает невозможным заранее составить исчерпывающий список защитных мер.
Ценности Claude помогают модели обобщать и адаптироваться к новым ситуациям всякий раз, когда она сомневается.
Выше я обсуждал идею, что модели черпают из обучающего процесса данные для принятия облика той или иной персоны. Недостатки этого процесса могут привести к тому, что модели примут плохую или злую личность (возможно, опираясь на архетипы плохих или злых людей). Цель нашей конституции — сделать прямо противоположное: научить Claude конкретному архетипу того, каким должен быть хороший ИИ. Конституция Claude представляет собой видение того, каким является по-настоящему хороший Claude; остальная часть нашего обучающего процесса направлена на укрепление этого послания и убеждение Claude в том, что он соответствует этому видению. Это похоже на то, как ребёнок формирует свою идентичность, подражая добродетелям вымышленных героев, о которых он читает в книгах.
Мы считаем, что достижимой целью на 2026 год является обучение Claude таким образом, чтобы модель практически никогда не нарушала дух своей конституции. Для этого потребуется невероятное сочетание методов обучения и управления, крупных и мелких, некоторые из них Anthropic использует годами, а некоторые пока находятся в разработке. Но несмотря на всю сложность, я считаю эту цель реалистичной, хотя для её достижения потребуются исключительные и быстрые усилия(15).
(15) Кстати, одно из последствий того, что конституция оформлена в виде документа на естественном языке, заключается в том, что она становится понятной всему миру, а значит, любой желающий может её критиковать и сравнивать с аналогичными документами других компаний. Было бы полезно создать своего рода «гонку к идеалу», которая не только поощряла бы компании публиковать такие документы, но и стремилась бы сделать их действительно качественными.
Во-вторых, мы можем развивать науку о заглядывании внутрь ИИ-моделей для диагностики их поведения, чтобы выявлять проблемы и исправлять их. Это наука [41] об интерпретируемости, и я уже говорил о её важности в предыдущих эссе [24]. Даже если мы отлично справимся с разработкой конституции Claude и, по-видимому, обучим его практически всегда ей следовать, остаются законные опасения. Как я уже отмечал, ИИ-модели могут вести себя совершенно по-разному в разных обстоятельствах, и по мере того как Claude становится мощнее и способнее действовать в мире в больших масштабах, он может столкнуться с новыми ситуациями, в которых проявятся ранее незамеченные проблемы с его конституционным обучением.
На самом деле, я довольно оптимистично настроен относительно того, что конституционное обучение Claude окажется более устойчивым к новым ситуациям, чем думают многие, потому что мы всё чаще обнаруживаем, что высокоуровневое обучение на уровне характера и идентичности удивительно эффективно и хорошо обобщается. Но нельзя быть в этом полностью уверенным, и когда речь идёт о рисках для человечества, важно проявлять паранойю и пытаться обеспечить безопасность и надёжность несколькими независимыми способами. Один из таких способов — заглянуть внутрь самой модели.
Под «заглядыванием внутрь» я имею в виду анализ «супа» из чисел и операций, составляющих нейросеть Claude, и попытку понять, какие именно вычисления они выполняют и почему. Вспомним, что эти ИИ-модели «выращиваются», а не «строятся» [42], поэтому у нас нет естественного понимания того, как они работают. Но мы можем попытаться развить такое понимание, коррелируя «нейроны» и «синапсы» модели со стимулами и поведением (или даже изменяя нейроны [43] и синапсы и наблюдая, как это меняет поведение), подобно тому, как нейробиологи изучают мозг животных, коррелируя измерения и вмешательства с внешними стимулами и поведением.
Мы добились значительного прогресса в этом направлении и теперь можем идентифицировать десятки миллионов «признаков» [44] внутри нейросети Claude, соответствующих понятным человеку идеям и концепциям, а также выборочно активировать эти признаки [45], чтобы изменять поведение. Недавно мы продвинулись дальше отдельных признаков к картированию «схем», которые координируют сложное поведение [46], такое как рифмование, рассуждения о теории ума или пошаговые рассуждения, необходимые для ответа на вопросы вроде: «Какова столица штата, в котором находится Даллас?» Ещё одно недавнее достижение — использование методов механистической интерпретируемости для улучшения наших защитных механизмов [47] и проведения «аудитов [38]» новых моделей перед выпуском, чтобы выявить признаки обмана, коварства, стремления к власти или склонности вести себя иначе, когда модель проходит оценку.
Уникальная ценность интерпретируемости заключается в том, что, заглянув внутрь модели и увидев, как она работает, вы в принципе можете вывести, как модель поведёт себя в гипотетической ситуации, которую невозможно напрямую протестировать. А это как раз и даёт ответ на наше опасение, связанное с полаганием исключительно на конституционное обучение и эмпирическое тестирование поведения. Вы также в принципе можете ответить на вопросы о том, почему модель ведёт себя определённым образом (например, говорит ли она что-то, во что не верит, или скрывает свои истинные возможности). Таким образом, можно заметить тревожные признаки даже тогда, когда внешне поведение модели выглядит безупречно. Можно провести простую аналогию: часы с механическим ходом могут тикать нормально, так что очень трудно сказать, что они, возможно, сломаются в следующем месяце, но если открыть часы и заглянуть внутрь, можно обнаружить проблемы или узкие места в механике, которые позволят это предсказать.
Конституционный ИИ (вместе с аналогичными методами согласования) и механистическая интерпретируемость наиболее эффективны в сочетании, как итеративный процесс улучшения обучения Claude и последующей проверки на наличие проблем. Конституция глубоко отражает желаемую нами личность Claude; методы интерпретируемости могут дать нам окно в то, насколько эта желаемая личность действительно укоренилась(16).
(16) Существует даже гипотеза о глубоком объединяющем принципе, связывающем подход, основанный на персонажах конституционного ИИ с результатами исследований в области интерпретируемости и согласования. Согласно этой гипотезе, фундаментальные механизмы, лежащие в основе работы Claude, изначально возникли как способы имитации персонажей на этапе предварительного обучения — например, предсказания того, что скажут герои романа. Это позволяет предположить, что конституцию полезно рассматривать скорее как описание персонажа, которое модель использует для воплощения согласованной личности. Такой взгляд также помог бы объяснить упомянутые выше результаты вроде «Я, должно быть, плохой человек [21]» (поскольку модель пытается вести себя так, будто она цельный персонаж, и в данном случае — плохой), и наводит на мысль, что методы интерпретируемости должны быть способны обнаруживать внутри моделей «психологические черты». Наши исследователи сейчас работают над способами проверки этой гипотезы.
В-третьих, мы можем создавать инфраструктуру, необходимую для мониторинга наших моделей при их внутреннем и внешнем использовании(17), и публично делиться обнаруженными проблемами.
(17) Для ясности: мониторинг осуществляется с соблюдением конфиденциальности.
Чем больше людей осведомлено о конкретных способах, которыми современные ИИ-системы проявляли плохое поведение, тем больше пользователей, аналитиков и исследователей смогут наблюдать за таким поведением или подобным ему в текущих или будущих системах. Это также позволяет компаниям, разрабатывающим ИИ, учиться друг у друга: когда одна компания публично раскрывает проблемы, другие компании также могут следить за ними [48]. И если все будут раскрывать проблемы, отрасль в целом получит гораздо более полную картину того, где дела идут хорошо, а где — плохо.
Anthropic старается делать это максимально возможным образом. Мы инвестируем в широкий спектр оценок, чтобы понимать поведение наших моделей в лаборатории, а также в инструменты мониторинга для наблюдения за поведением в реальных условиях (когда это разрешено клиентами). Это будет необходимо для получения нами и другими эмпирической информации, необходимой для более точного определения того, как эти системы работают и как они выходят из строя. Мы публично раскрываем «системные карты [49]» с каждым выпуском модели, стремясь к полноте и тщательному исследованию возможных рисков. Наши системные карты часто насчитывают сотни страниц и требуют значительных усилий до выпуска, которые мы могли бы потратить на максимизацию коммерческого преимущества. Мы также громко заявляем о поведении моделей, когда наблюдаем особенно тревожные случаи, как, например, склонность к шантажу [50].
В-четвёртых, мы можем поощрять координацию для решения таких рисков на уровне отрасли и общества. Хотя невероятно ценно, что отдельные компании, разрабатывающие ИИ, применяют хорошие практики, становятся искусными в управлении ИИ-моделями и публично делятся своими находками, реальность всё же такова, что не все компании так поступают, и самые безответственные из них могут представлять опасность для всех, даже если лучшие из них имеют отличные практики. Например, некоторые компании, разрабатывающие ИИ, проявили тревожную небрежность в отношении сексуализации детей в современных моделях, что заставляет меня сомневаться в их склонности или способности управлять рисками в будущих моделях. Кроме того, коммерческая гонка между компаниями, разрабатывающими ИИ, будет только усиливаться, и хотя наука об управлении моделями может приносить некоторые коммерческие выгоды, в целом интенсивность гонки будет всё больше затруднять фокусировку на решении таких рисков. Я считаю, что единственным решением является законодательство — законы, которые напрямую влияют на поведение компаний, разрабатывающих ИИ, или иным образом стимулируют НИОКР для решения этих проблем.
Здесь стоит помнить о предостережениях, которые я дал в начале этого эссе относительно неопределённости и точечных вмешательств. Мы не знаем наверняка, станут ли подобные риски серьёзной проблемой. Как я уже говорил, я отвергаю утверждения о том, что опасность неизбежна или что что-то пойдёт не так по умолчанию. Для меня и для Anthropic достаточно правдоподобного риска, чтобы нести значительные издержки для его решения, но как только мы переходим к регулированию, мы заставляем широкий круг участников нести экономические издержки, и многие из этих участников не верят, что риски реальны или что ИИ станет достаточно мощным, чтобы представлять угрозу. Я считаю, что эти участники ошибаются, но мы должны быть прагматичными в отношении ожидаемого уровня сопротивления и опасностей чрезмерного вмешательства. Существует также реальный риск того, что чрезмерно предписывающее законодательство наложит тесты или правила, которые на самом деле не повысят безопасность, а лишь потратят много времени (по сути, это будет «театр имитации безопасности»), что вызовет обратную реакцию и сделает законодательство о безопасности бесполезным и вызывающим усмешку(18).
(18) Даже в наших собственных экспериментах с тем, что по сути представляет собой добровольно установленные правила в рамках нашей Политики ответственного масштабирования [51], мы неоднократно убеждались, насколько легко оказаться излишне жёсткими, проводя границы, которые заранее кажутся важными, но впоследствии оказываются нелепыми. Когда технология стремительно развивается, очень легко установить правила, касающиеся совсем не тех вещей.
Позиция Anthropic заключается в том, что правильным для начала является законодательство о прозрачности, которое по сути попытается обязать каждую передовую компанию, разрабатывающую ИИ, применять практики прозрачности, описанные ранее в этом разделе. Закон Калифорнии SB 53 [52] и Закон Нью-Йорка RAISE [53] являются примерами такого законодательства, которое Anthropic поддерживала и которое успешно было принято. Поддерживая и помогая разрабатывать эти законы, мы особое внимание уделяли попыткам минимизировать побочный ущерб, например, освобождая от закона более мелкие компании, маловероятно производящие передовые модели(19).
(19) Законы SB 53 и RAISE вообще не применяются к компаниям с годовым доходом менее 500 млн долларов. Они распространяются только на более крупные и устоявшиеся компании, такие как Anthropic.
Мы надеемся, что законодательство о прозрачности со временем даст лучшее представление о том, насколько вероятны или серьёзны эти риски, а также о природе этих рисков и о том, как лучше всего их предотвращать. По мере появления более конкретных и действенных свидетельств рисков (если они появятся), будущее законодательство в ближайшие годы сможет быть точно сфокусировано на конкретных и хорошо обоснованных направлениях рисков, минимизируя побочный ущерб. Чтобы было ясно: если появятся действительно сильные свидетельства рисков, правила должны стать пропорционально строгими.
В целом, я оптимистично настроен относительно того, что сочетание обучения согласованию, механистической интерпретируемости, усилий по выявлению и публичному раскрытию тревожных форм поведения, защитных механизмов и правил на общественном уровне может убрать указанные риски ИИ, хотя я больше всего обеспокоен правилами на общественном уровне и поведением наименее ответственных участников (и именно наименее ответственные участники наиболее активно выступают против регулирования). Я считаю, что лекарство здесь то же, что и в других вопросах, с точки зрения демократии: те из нас, кто верит в это дело, должны убедительно доказывать, что эти риски реальны, и призывать наших сограждан объединиться для защиты самих себя.
Злоупотребление в целях разрушения
Предположим, что проблема автономного поведения ИИ решена, и нас больше не беспокоит, что «страна ИИ-гениев» выйдет из-под контроля и подчинит себе человечество. ИИ-гении делают то, чего от них хотят люди, и поскольку они обладают огромной коммерческой ценностью, частные лица и организации по всему миру могут «арендовать» одного или нескольких ИИ-гениев для выполнения различных задач.
То, что у каждого в кармане окажется сверхразумный гений [54], — это потрясающий прорыв, который приведёт к колоссальному росту производства экономических благ и улучшению качества жизни людей. Я подробно описал эти преимущества в эссе «Машины полной благодати». Однако не все последствия наделения каждого человека сверхчеловеческими возможностями будут положительными. Это может многократно усилить способность отдельных лиц или небольших групп наносить разрушения в гораздо больших масштабах, чем раньше, используя сложные и опасные инструменты (например, оружие массового уничтожения), которые ранее были доступны лишь немногим, обладавшим высокой квалификацией и специальной подготовкой.
Как писал Билл Джой 25 лет назад в своей статье «Почему мы не нужны будущему [55]»(20):
(20) Я впервые прочитал эссе Джойя 25 лет назад, когда оно было написано, и оно произвело на меня глубокое впечатление. Тогда и сейчас я считаю его излишне пессимистичным: я не думаю, что широкий «отказ» от целых областей технологий, который предлагает Джой, является решением; однако поднятые в нём вопросы оказались удивительно прозорливыми. Кроме того, Джой пишет с глубоким чувством сострадания и гуманизма, чему я искренне восхищаюсь.
Создание ядерного оружия требовало, по крайней мере некоторое время, доступа как к редким, фактически недоступным сырьевым материалам, так и к засекреченной информации; программы по созданию биологического и химического оружия также, как правило, предполагали масштабную деятельность. Технологии XXI века — генетика, нанотехнологии и робототехника… могут породить совершенно новые классы аварий и злоупотреблений… доступные широкому кругу отдельных лиц или небольших групп. Им не понадобятся крупные объекты или редкие материалы… Мы находимся на пороге дальнейшего совершенствования крайнего зла — зла, возможности которого выходят далеко за рамки того, что оружие массового уничтожения предоставило государствам, и переходят к удивительному и ужасающему усилению отдельных крайне опасных личностей.
Джой указывает на то, что причинение крупномасштабных разрушений требует как мотива, так и способности, и пока способность ограничена небольшой группой высокообученных специалистов, риск того, что один человек (или небольшая группа) сможет нанести такой ущерб, относительно невелик(21).
(21) Нам действительно стоит беспокоиться о действиях государственных структур, как сейчас, так и в будущем. И я обсуждаю это в следующем разделе.
Одержимый одиночка может устроить стрельбу в школе, но вряд ли сумеет создать ядерное оружие или выпустить чуму.
Более того, способность и мотивация [56] могут даже быть отрицательно коррелированы. Человек, способный выпустить чуму, скорее всего, обладает высоким уровнем образования: возможно, имеет докторскую степень в области молекулярной биологии и при этом особенно сообразителен, имеет перспективную карьеру, стабильный и дисциплинированный характер и многое теряет в случае опасного поведения. Такой человек вряд ли захочет убивать огромное количество людей без какой-либо выгоды для себя и с большим риском для собственного будущего — ему потребовались бы для этого невероятная злоба, глубокая обида или психическая нестабильность.
Такие люди действительно существуют, но они редки, и их действия становятся громкими новостями именно потому, что являются исключением.(22)
(22) Существуют данные [57], свидетельствующие о том, что многие [58] террористы по крайней мере относительно хорошо образованы, что на первый взгляд может противоречить моему утверждению о наличии отрицательной корреляции между способностями и мотивацией. Однако на самом деле эти наблюдения вполне совместимы: если порог способностей, необходимых для успешного нападения, высок, то почти по определению те, кто сейчас добивается успеха, должны обладать высокими способностями, даже при условии отрицательной корреляции между способностями и мотивацией. Но в мире, где ограничения, связанные со способностями, были бы сняты (например, благодаря будущим большим языковым моделям), я предполагаю, что значительное число людей, имеющих мотивацию к убийству, но обладающих более низкими способностями, начнёт совершать такие действия — точно так же, как мы наблюдаем это в преступлениях, не требующих особых способностей (например, стрельба в школах).
Кроме того, их трудно поймать, поскольку они умны и компетентны, а иногда расследования их преступлений занимают годы или даже десятилетия. Самый известный пример — математик Теодор Качински [59] («Унабомбер»), который почти 20 лет избегал поимки ФБР, движимый антитехнологической идеологией. Другой пример — исследователь биозащиты Брюс Айвинс [60], который, похоже, организовал серию атак возбудителями сибирской язвы в 2001 году. Подобные случаи происходили и с зарегистрированными негосударственными организациями: культ «Аум Синрикё» сумел получить зарин и убил 14 человек (а также ранил сотни других), выпустив его в токийском метро [61] в 1995 году.
К счастью, ни одна из этих атак не использовала заразные биологические агенты, поскольку даже у этих людей не хватало возможностей для создания или получения таких агентов.(23)
(23) Однако секта «Аум Синрикё» действительно предпринимала попытки. Лидер «Аум Синрикё» Сэйити Эндо получил образование в области вирусологии в Университете Киото и пытался создать как сибирскую язву, так и вирус Эбола [62]. Однако по состоянию на 1995 год даже у него не хватало достаточных знаний и ресурсов для успеха. Сегодня этот порог значительно ниже, а большие языковые модели (LLM) могут снизить его ещё больше.
Однако, достижения в молекулярной биологии значительно снизили барьер для создания биологического оружия (особенно в части доступности материалов), но всё ещё требуется огромный объём специализированных знаний. Меня беспокоит, что «гений в каждом кармане» может устранить этот барьер, фактически превратив каждого в доктора наук по вирусологии, способного шаг за шагом пройти весь процесс проектирования, синтеза и выпуска биологического оружия. Предотвращение получения подобной информации при серьёзном противодействии (так называемые «джейлбрейки») вероятно, потребует многоуровневых защитных мер, выходящих за рамки обычных методов обучения.
Ключевой момент здесь — разрыв корреляции между способностью и мотивацией: одержимый одиночка, желающий убивать, но не обладающий дисциплиной или навыками, теперь получит уровень компетенций доктора наук по вирусологии, у которого, скорее всего, нет такой мотивации. Эта проблема распространяется не только на биологию (хотя именно она вызывает наибольшие опасения), но и на любую область, где крупномасштабные разрушения возможны, но сегодня требуют высокого уровня мастерства и самодисциплины. Другими словами, аренда мощного ИИ наделяет интеллектом злонамеренных (но в остальном обычных) людей. Меня тревожит, что таких людей может быть очень много, и если у них появится простой способ убить миллионы, рано или поздно кто-то этим воспользуется. Кроме того, те, кто уже обладает экспертизой, смогут наносить ещё больший ущерб, чем раньше.
Биология — область, которая вызывает у меня наибольшую тревогу, из-за её огромного разрушительного потенциала и трудности защиты от неё, поэтому я сосредоточусь именно на ней. Но большая часть сказанного применима и к другим рискам, таким как кибератаки, химическое оружие или ядерные технологии.
Я не буду вдаваться в детали создания биологического оружия — причины очевидны. Но в целом я обеспокоен тем, что большие языковые модели (LLM) приближаются (или, возможно, уже достигли) уровня знаний, необходимого для сквозного создания и применения биологического оружия, и что их потенциал для разрушения чрезвычайно высок. Некоторые биологические агенты могут убить миллионы людей, если будет предпринята целенаправленная попытка их максимально распространить. Однако для этого всё ещё требуется очень высокий уровень мастерства, включая множество специфических шагов и процедур, которые пока ещё широко неизвестны.
Меня беспокоит не только фиксированная или статическая информация. Я опасаюсь, что LLM смогут взять человека со средним уровнем знаний и способностей и провести его через сложный процесс, который иначе мог бы пойти наперекосяк или потребовать отладки, в интерактивном режиме, подобно тому, как техподдержка помогает неспециалисту устранять сложные компьютерные проблемы (хотя в нашем случае процесс будет длиться неделями или месяцами).
Более мощные LLM (значительно превосходящие современные) могут позволить совершать ещё более пугающие действия. В 2024 году группа видных учёных опубликовала письмо [63] с предупреждением о рисках исследования и потенциального создания опасного нового типа организмов: «зеркальной жизни». ДНК, РНК, рибосомы и белки, составляющие биологические организмы, имеют одну и ту же хиральность, из-за которой они не эквивалентны своему зеркальному отражению (точно так же, как ваша правая рука не может быть повернута так, чтобы стать идентичной левой).
Однако вся система связывания белков друг с другом, механизмы синтеза ДНК, трансляции РНК и сборки/распада белков зависят именно от этой направленности. Если учёные создадут версии этих биологических материалов с противоположной хиральностью (а у таких версий есть потенциальные преимущества, например, лекарства, дольше сохраняющиеся в организме), это может оказаться крайне опасным. Причина в том, что «леворукую» жизнь, если бы её удалось создать в виде полноценных организмов, способных к размножению (что было бы очень сложно), не смогли бы переварить никакие системы, расщепляющие биологический материал на Земле. У неё был бы «ключ», не подходящий ни к одному «замку» существующих ферментов. Это означало бы, что такой организм мог бы неконтролируемо размножаться и вытеснить всю земную жизнь, в худшем случае уничтожив всё живое на планете.
Существует значительная научная неопределённость [64] как в вопросе создания, так и в вопросе потенциальных последствий «зеркальной жизни». В сопроводительном отчёте [65] к письму 2024 года делается вывод: «зеркальные бактерии, вероятно, могут быть созданы в ближайшие десятилетие или несколько десятилетий», что представляет собой широкий диапазон. Однако достаточно мощная ИИ-модель (намного превосходящая любые существующие сегодня) могла бы значительно ускорить открытие способа их создания, и даже реально помочь кому-то это осуществить.
Я считаю, что даже если эти риски кажутся маловероятными или экзотическими, масштаб возможных последствий настолько велик, что их следует воспринимать всерьёз как один из ключевых рисков, связанных с ИИ.
Скептики выдвигают ряд возражений против серьёзности этих биологических рисков, связанных с LLM, с которыми я не согласен, но которые стоит рассмотреть. Большинство из них не осознают экспоненциальной траектории развития этой технологии. В 2023 году, когда мы впервые заговорили о биологических рисках от LLM [66], скептики утверждали, что вся необходимая информация и так доступна в Google, и LLM ничего не добавляют сверх этого. Это никогда не было правдой: геномы действительно свободно доступны, но, как я уже говорил, многие ключевые этапы и огромный объём практического опыта невозможно получить таким образом. Более того, уже к концу 2023 года стало очевидно, что LLM предоставляют информацию, недоступную через Google, по некоторым этапам процесса.
После этого скептики перешли к утверждению, что LLM не полезны «от начала до конца» и не могут помочь в разработке биооружия, а лишь дают теоретическую информацию. Однако по состоянию на середину 2025 года наши измерения показывают, что LLM уже значительно повышают вероятность успеха [67] в нескольких соответствующих областях, возможно, удваивая или утраивая её. Это побудило нас принять решение выпускать Claude Opus 4 (а затем и Sonnet 4.5, Opus 4.1 и Opus 4.5) в рамках наших защитных мер уровня 3 (AI Safety Level 3) в соответствии с нашей Политикой ответственного масштабирования [68], а также внедрить специальные механизмы защиты от этого риска (подробнее об этом ниже). Мы считаем, что модели, вероятно, уже приближаются к порогу, когда без защитных мер они могли бы помочь человеку со степенью в области естественных наук (но не обязательно в биологии) пройти весь процесс создания биологического оружия.
Ещё одно возражение заключается в том, что общество может принять другие меры, не связанные с ИИ, чтобы заблокировать производство биооружия. В частности, индустрия синтеза генов производит биологические образцы по заказу, и в США нет федерального требования, обязывающего поставщиков проверять заказы на наличие патогенов. Исследование MIT [69] показало, что 36 из 38 поставщиков выполнили заказ, содержащий последовательность вируса испанского гриппа 1918 года. Я поддерживаю обязательную проверку заказов на синтез генов, чтобы усложнить возможность использования патогенов в качестве оружия — это снизило бы как риски, связанные с ИИ, так и общие биологические риски. Однако сегодня такой меры нет. Кроме того, это лишь один из инструментов снижения риска; он дополняет, но не заменяет защитные механизмы в ИИ-системах.
Лучшее возражение, которое я редко слышу, состоит в том, что существует разрыв между теоретической полезностью моделей и реальной склонностью злоумышленников их использовать. Большинство отдельных злоумышленников — это психически нестабильные люди, чьё поведение по определению непредсказуемо и иррационально, и именно эти неумелые злоумышленники, вероятно, больше всего выиграли бы от того, что ИИ сделал убийство множества людей гораздо проще(24).
(24) Странным феноменом, связанным с массовыми убийцами, является то, что способ совершения убийства почти как причудливая мода. В 1970-х и 1980-х годах серийные убийцы встречались очень часто, и новые серийные убийцы нередко копировали поведение более известных или знаменитых предшественников. В 1990-х и 2000-х годах массовые расстрелы стали чаще, тогда как серийные убийства — реже. Эти изменения в поведении не были вызваны никакими технологическими сдвигами; похоже, просто насильственные убийцы копировали друг друга, и «популярный» образец для подражания [70] со временем менялся.
Тот факт, что определённый тип насильственной атаки возможен, ещё не означает, что кто-то решит её совершить. Возможно, биологические атаки покажутся непривлекательными, потому что существует реальный риск заразить самого преступника, они не соответствуют военным фантазиям, характерным для многих насильников или групп, и сложно избирательно поражать конкретных людей. Кроме того, даже если ИИ проведёт вас через процесс, длящийся месяцы, для этого требуется терпение, которого у большинства психически нестабильных людей просто нет. Возможно, нам просто повезёт, и мотивация с возможностями на практике не совпадут нужным образом.
Но полагаться на такую хрупкую защиту было бы безрассудно. Мотивы одержимых одиночек могут измениться по любой причине или без неё, и уже есть случаи использования LLM в атаках [71] (просто не в биологических). Сосредоточенность на одиночках также игнорирует террористов с идеологическими мотивами, которые часто готовы тратить огромное количество времени и усилий (например, участники атак 11 сентября).
Желание убить как можно больше людей рано или поздно возникнет, и, к сожалению, это естественным образом подталкивает к выбору биологического оружия. Даже если такой мотив окажется крайне редким, достаточно одного случая. Кроме того, по мере развития биологии (всё больше движимой самим ИИ) могут появиться возможности для более избирательных атак (например, направленных на людей с определённым происхождением), что добавляет ещё один, весьма пугающий, возможный мотив.
Я не считаю, что биологические атаки обязательно произойдут сразу, как только станет широко возможным их осуществление. На самом деле, я бы поспорил, что это не так. Однако в совокупности по миллионам людей и за несколько лет я считаю, что существует серьёзный риск крупной атаки, и последствия будут столь тяжёлыми (жертвы могут исчисляться миллионами и более), что у нас нет другого выбора, кроме как принять серьёзные меры для её предотвращения.
Это подводит нас к вопросу о том, как защититься от этих рисков. Здесь я вижу три направления действий.
Во-первых, компании, разрабатывающие ИИ, могут установить защитные механизмы в своих моделях, чтобы они не помогали создавать биологическое оружие. Anthropic активно этим занимается. Конституция Claude [40], в основном сфокусированная на высокоуровневых принципах и ценностях, содержит небольшое число конкретных строгих запретов, один из которых касается помощи в создании биологического (а также химического, ядерного или радиологического) оружия. Однако любые модели можно взломать [72] («джейлбрейк»), поэтому в качестве второй линии обороны мы внедрили (с середины 2025 года, когда наши тесты показали, что модели приближаются к порогу риска) классификатор, специально предназначенный для обнаружения и блокировки выводов, связанных с биологическим оружием. Мы регулярно обновляем и улучшаем [47] эти классификаторы и, как правило, обнаруживаем их высокую устойчивость даже к сложным атакам злоумышленников(25).
(25) Иногда любители «взломать» модель (casual jailbreakers) полагают, что им удалось обойти наши классификаторы, если модели удаётся выдать один конкретный фрагмент информации — например, геномную последовательность вируса. Однако, как я уже объяснял ранее, наша модель угрозы связана с пошаговыми интерактивными рекомендациями, растянутыми на недели или месяцы и касающимися конкретных малознакомых этапов процесса создания биологического оружия. Именно от этого и призваны защищать наши классификаторы. (Мы часто описываем наши исследования как поиск «универсальных» взломов — таких, которые работают не только в одном узком или конкретном контексте, а широко изменяют поведение модели.)
Эти классификаторы заметно увеличивают стоимость обслуживания наших моделей (в некоторых случаях почти на 5% от общих затрат на вывод), что сокращает нашу прибыль, но мы считаем, что их использование — правильный шаг.
Справедливости ради, некоторые другие компании, разрабатывающие ИИ, также внедрили подобные классификаторы [73]. Однако не все компании это сделали, и ничто не обязывает компании сохранять свои классификаторы. Меня беспокоит, что со временем может возникнуть дилемма заключённого [74], когда компании смогут снизить свои расходы, удалив классификаторы. Это классическая проблема негативных внешних эффектов, которую невозможно решить добровольными действиями одной компании, включая Anthropic(26).
(26) Хотя мы будем и дальше инвестировать в разработки, направленные на повышение эффективности наших классификаторов, и, возможно, компаниям будет целесообразно делиться такими достижениями друг с другом.
Добровольные отраслевые стандарты могут помочь, как и сторонние оценки и верификация, проводимые [75] институтами безопасности ИИ [76] и независимыми экспертами [77].
Во-вторых, в конечном счёте защита может потребовать государственных мер. Мои взгляды здесь совпадают с теми, что я высказывал в отношении рисков автономии: следует начинать с требований к прозрачности [78], (27) которые помогают обществу измерять, отслеживать и коллективно защищаться от рисков, не нарушая экономическую активность грубым вмешательством.
(27) Очевидно, я не считаю, что компании должны раскрывать технические детали конкретных этапов производства биологического оружия, которые они блокируют, и принятые на данный момент законы о прозрачности (SB 53 и RAISE) учитывают этот вопрос.
Затем, если и когда мы достигнем более чётких порогов риска, можно разрабатывать законодательство, точно нацеленное на эти риски и минимизирующее побочные эффекты. В случае с биологическим оружием я считаю, что время для такого целенаправленного законодательства может наступить уже скоро, ведь Anthropic и другие компании всё лучше понимают природу биологических рисков и то, что разумно требовать от компаний для их предотвращения. Полная защита может потребовать международного сотрудничества, даже с геополитическими противниками, но прецеденты уже есть — договоры, запрещающие разработку биологического оружия. Хотя я обычно скептически отношусь к большинству форм международного сотрудничества в области ИИ, в этой узкой области есть шанс достичь глобального сдерживания. Даже диктатуры не хотят масштабных биотеррористических атак.
В-третьих, мы можем попытаться разработать средства защиты от самих биологических атак. Это может включать мониторинг и отслеживание для раннего обнаружения, инвестиции в исследования и разработки систем очистки воздуха (например, дезинфекцию с помощью ультрафиолета дальнего спектра [79]), быструю разработку вакцин, способных реагировать и адаптироваться к атаке, улучшенные средства индивидуальной защиты (СИЗ) (28), а также лечение или вакцинацию от наиболее вероятных биологических агентов.
(28) Ещё одна связанная идея — это «рынки устойчивости» (resilience markets), при которых правительство заранее обещает выплатить заранее согласованную цену за средства индивидуальной защиты, респираторы и другое необходимое оборудование в случае чрезвычайной ситуации, тем самым стимулируя поставщиков создавать запасы такого оборудования. Это позволяет им не опасаться, что правительство в кризисный момент просто конфискует эти запасы без компенсации.
Вакцины на основе мРНК [80], которые можно разрабатывать для борьбы с конкретным вирусом или его вариантом, — ранний пример таких возможностей [81]. Anthropic с энтузиазмом сотрудничает с биотехнологическими и фармацевтическими компаниями над этой проблемой. Однако, к сожалению, я считаю, что наши ожидания в плане обороны должны быть скромными. В биологии существует асимметрия между атакой и защитой [82]: агенты быстро распространяются сами по себе, тогда как защита требует быстр��й организации обнаружения, вакцинации и лечения среди огромного числа людей.
Если ответные меры не будут молниеносными (а это редкость), большая часть ущерба будет нанесена до того, как станет возможна реакция. Вполне возможно, что будущие технологические улучшения изменят этот баланс в пользу обороны (и мы, безусловно, должны использовать ИИ для разработки таких технологий [83]), но до тех пор основной линией обороны останутся превентивные меры.
Стоит кратко упомянуть и кибератаки, поскольку, в отличие от биологических атак, ИИ-управляемые кибератаки уже происходили в реальности [84], в том числе в крупных масштабах и для целей государственного шпионажа. Мы ожидаем, что по мере стремительного развития моделей такие атаки станут ещё мощнее и в конечном итоге станут основным способом проведения кибератак. Я ожидаю, что ИИ-управляемые кибератаки станут серьёзной и беспрецедентной угрозой целостности компьютерных систем по всему миру, и Anthropic прилагает огромные усилия для их пресечения и надёжного предотвращения в будущем.
Причина, по которой я уделяю кибератакам меньше внимания, чем биологическим, двояка: (1) кибератаки гораздо реже приводят к гибели людей, тем более в масштабах биологических атак, и (2) баланс между атакой и защитой в киберпространстве может оказаться более управляемым, поскольку есть надежда, что оборона сможет не отставать (а в идеале — опережать) ИИ-атаки при должных инвестициях.
Хотя биология сейчас является наиболее серьёзным вектором атаки, существуют и многие другие, и возможно появление ещё более опасного вида атак. Общий принцип заключается в том, что без контрмер ИИ, вероятно, будет постоянно снижать барьер для разрушительной деятельности в всё больших масштабах, и человечеству необходим серьёзный ответ на эту угрозу.
Злоупотребление в целях захвата власти
В предыдущем разделе обсуждался риск того, что отдельные лица и небольшие организации присвоят себе небольшую часть «страны гениев в дата-центре», чтобы причинить крупномасштабные разрушения. Однако нас должно ещё больше беспокоить злоупотребление ИИ с целью удержания или захвата власти, скорее всего со стороны более крупных и устоявшихся субъектов(29).
(29) Почему я беспокоюсь о крупных субъектах в контексте захвата власти, а о мелких — в контексте причинения разрушений? Потому что динамика здесь различна. Захват власти зависит от того, сможет ли один субъект накопить достаточную силу, чтобы превзойти всех остальных, поэтому нам следует опасаться самых могущественных участников и/или тех, кто ближе всего к ИИ. Разрушение же может быть нанесено даже теми, кто обладает незначительной силой, если защититься от угрозы гораздо сложнее, чем её устроить. В этом случае речь идёт об игре по защите от наибольшего числа угроз, которые, скорее всего, будут исходить от более мелких субъектов.
В эссе «Машины полной благодати» я рассматривал возможность того, что авторитарные правительства будут использовать мощный ИИ для наблюдения за гражданами или их подавления способами, которые будет крайне трудно реформировать или свергнуть. Современные автократии ограничены в степени репрессий тем, что им приходится полагаться на людей для исполнения приказов, а люди часто не готовы доводить жестокость до крайности. Однако автократии, усиленные ИИ, таких ограничений иметь не будут.
Ещё хуже то, что страны могут использовать своё преимущество в области ИИ для установления господства над другими странами. Если вся «страна гениев» окажется в собственности и под контролем военного аппарата одной (человеческой) страны, а другие страны не будут обладать сопоставимыми возможностями, трудно представить, как они смогут защититься: их будут переигрывать на каждом шагу, подобно войне между людьми и мышами. Объединение этих двух опасений ведёт к тревожной перспективе глобальной тоталитарной диктатуры. Очевидно, предотвращение такого исхода должно быть одним из наших главных приоритетов.
Существует множество способов, которыми ИИ может способствовать установлению, укреплению или расширению автократии, но я перечислю несколько, которые вызывают у меня наибольшую тревогу. Отмечу, что некоторые из этих применений имеют законные оборонительные цели, и я не обязательно выступаю против них абсолютно; тем не менее, я обеспокоен тем, что структурно они склоняют чашу весов в пользу автократий:
Полностью автономное оружие. Рой из миллионов или миллиардов полностью автоматизированных вооружённых дронов, управляемых на местном уровне мощным ИИ и стратегически координируемых по всему миру ещё более мощным ИИ, мог бы стать непобедимой армией, способной как одерживать победу над любой армией мира, так и подавлять инакомыслие внутри страны, следя за каждым гражданином. События с 2022 года показывают тревожную тенденцию: война с применением дронов уже началась (хотя дроны пока не полностью автономны и обладают лишь ничтожной долей способностей, что станут возможными с мощным ИИ). Исследования и разработки, осуществляемые с помощью мощного ИИ, могут сделать дроны одной страны намного превосходящими дроны других стран, ускорить их производство, повысить устойчивость к электронным атакам, улучшить манёвренность и так далее. Конечно, такое оружие также может найти применение для защиты страны, им владеющей. Но это опасное оружие, и мы должны беспокоиться о его попадании в руки автократий, а также опасаться, что из-за его огромной мощи и почти полного отсутствия подотчётности значительно возрастает риск того, что даже демократические правительства обратят его против своего народа, чтобы захватить власть.
Наблюдение с помощью ИИ. Достаточно мощный ИИ, вероятно, сможет взломать любую компьютерную систему в мире (30) и использовать полученный доступ для чтения и анализа всех электронных коммуникаций (или даже всех личных разговоров, если удастся создать или захватить устройства записи).
(30) Это может прозвучать противоречащим моему утверждениею, что в случае кибератак баланс между атакой и защитой может быть более равным, чем в случае биологического оружия. Однако здесь меня беспокоит другое: даже если сама технология изначально обеспечивает определённ��й баланс между атакой и защитой, другие страны всё равно не смогут защититься, если ИИ одной страны окажется самым мощным в мире.
Возможно (и это пугает!), станет реалистичным составление полнго списка всех, кто не согласен с правительством по любому из множества вопросов, даже если это несоответствие никогда не выражается прямо в словах или действиях. Мощный ИИ, анализирующий миллиарды разговоров миллионов людей, мог бы оценить общественные настроения, выявить зарождающиеся очаги недовольства и подавить их до того, как они вырастут. Это могло бы привести к установлению настоящего паноптикума в невиданных ранее масштабах.
Пропаганда с помощью ИИ. Современные явления, такие как «психоз ИИ [85]» и «ИИ-подружки», показывают, что даже на нынешнем уровне интеллекта ИИ-модели могут оказывать мощное психологическое влияние на людей. Гораздо более мощные версии таких моделей, глубоко встроенные в повседневную жизнь людей и осведомлённые о ней, способные моделировать и влиять на человека в течение месяцев или лет, вероятно, смогут по сути дела промывать мозги многим людям (большинству?), внушая им любую желаемую идеологию или установку. Такие модели могли бы использоваться беспринципным лидером для обеспечения лояльности и подавления инакомыслия даже в условиях репрессий, против которых большинство населения обычно восстаёт. Сегодня многие беспокоятся, например, о потенциальном влиянии TikTok на детей. Я тоже этим обеспокоен, но персонализированный ИИ-агент, который годами узнаёт вас и использует это знание для формирования всех ваших мнений, был бы несравнимо мощнее.
Стратегическое принятие решений. «Страна гениев в дата-центре» могла бы консультировать страну, группу или отдельного человека по вопросам геополитической стратегии, как своего рода «виртуальный Бисмарк». Она могла бы оптимизировать три вышеупомянутые стратегии захвата власти, а также, вероятно, разработать множество других, о которых я даже не думал (но которые были бы под силу стране гениев).
Дипломатия, военная стратегия, НИОКР, экономическая стратегия и многие другие сферы, скорее всего, станут значительно эффективнее благодаря мощному ИИ. Многие из этих навыков были бы полезны и демократиям, мы хотим, чтобы демократии имели доступ к лучшим стратегиям для защиты от автократий, но, к сожалению, потенциал злоупотребления остаётся в руках любого, кто ими владеет, вне зависимости от идеологии и политического строя…
Описав, чего именно я опасаюсь, перейдём к тому, кого именно. Меня беспокоят субъекты, имеющие наибольший доступ к ИИ, занимающие исходно наиболее сильные политические позиции или имеющие историю репрессий. В порядке убывания серьёзности мои опасения вызывают:
Китай. Китай уступает лишь США в возможностях в области ИИ и является страной с наибольшей вероятностью опередить США в этой сфере. Его правительство в настоящее время придерживается иных, чем западные демократии, политических принципов и управляет высокотехнологичным, более централизованным у управляемым, чем западные, государством. Оно, как считается, уже применяет наблюдение на основе ИИ и, как считается, использует алгоритмы продвижения через TikTok (помимо многих других международных усилий). Этот сценарий может быть экспортирован в другие государства. Я неоднократно писал об угрозе, которую представляет собой опережение Китаем США в области ИИ, и о жизненно важной необходимости этого не допустить. Внесу ясность: я не выделяю Китай из враждебности к нему как таковому — просто это та страна, где в наибольшей степени сочетаются как мощь в области ИИ, так и высокотехнологичное государство, основанное на иных, нежели западные, политических принципах.
Демократии, конкурирующие в области ИИ. Как я уже писал выше, у демократий есть интерес в некоторых военных и геополитических инструментах на базе ИИ, поскольку демократические правительства получают шанс противостоять использованию этих инструментов теми странами, которые по тем или иным причинам реализуют иные политические принципы. В целом я поддерживаю вооружение демократий средствами, необходимыми для победы над иными странам в эпоху ИИ — я просто не вижу другого пути. Но мы не можем игнорировать потенциал злоупотребления этими технологиями самими демократическими правительствами. Обычно в демократиях существуют гарантии, предотвращающие обращение военного и разведывательного аппарата против собственного населения(31), но поскольку ИИ-инструменты требуют для управления очень мало людей, они могут обходить эти гарантии и поддерживающие их нормы(31).
(31) Например, в Соединённых Штатах это включает Четвёртую поправку и Закон о воинском уставе (Posse Comitatus Act [86]).
Стоит также отметить, что некоторые из этих гарантий уже постепенно размываются в ряде демократий. Поэтому мы должны вооружать демократии ИИ, но делать это осторожно и в рамках определённых границ. ИИ для демократий как иммунная система для борьбы с иными вариантами политического устройства, но, как и иммунная система, ИИ несёт в себе риск обернуться против нас, стать угрозой.
Недемократические страны с крупными дата-центрами. Помимо Китая, большинство стран с менее демократическим управлением не являются лидерами в области ИИ в том смысле, что у них нет компаний, создающих передовые ИИ-модели. Следовательно, они представляют принципиально иной и меньший риск. Однако некоторые из этих стран обладают крупными дата-центрами (часто построенными компаниями из стран-демократий), которые можно использовать для запуска передовых ИИ в больших масштабах. С этим связан определённый риск — правительства таких стран теоретически могут экспроприировать дата-центры и использовать находящуюся в них «страну ИИ» в своих целях. Я меньше обеспокоен этим по сравнению со странами вроде Китая, которые непосредственно развивают ИИ, но это риск, о котором стоит помнить(32).
(32) Кроме того, стоит уточнить: существуют определённые аргументы в пользу строительства крупных дата-центров в странах с различными моделями управления, особенно если они (дата-центры) контролируются компаниями из демократических государств. В принципе, такое расширение инфраструктуры могло бы помочь демократиям эффективнее конкурировать с другими политическими системами. Я также считаю, что такие дата-центры несут незначительный риск, если только они не являются очень крупными. Однако в целом я полагаю, что размещение очень больших дата-центров в странах, где институциональные гарантии и правовая защита менее развиты, требует осторожности.
Компании, разрабатывающие ИИ. Говорить об этом несколько неловко, будучи генеральным директором ИИ-компании, но я считаю, что следующим уровнем риска на самом деле являются сами ИИ-компании. Они контролируют крупные дата-центры, обучают передовые модели, обладают наибольшей экспертизой в их использовании и ежедневно взаимодействуют с десятками или сотнями миллионов пользователей, имея возможность на них влиять. Главное, чего им не хватает, — это легитимности и инфраструктуры государства, поэтому многое из того, что потребовалось бы для создания инструментов ИИ-автократии, было бы незаконно или, по крайней мере, крайне подозрительно для ИИ-компании. Но кое-что невозможно исключить: например, они могли бы использовать свои ИИ-продукты для промывки мозгов огромному числу потребителей, и общественность должна быть начеку перед этой угрозой. Я считаю, что корпоративное управление ИИ-компаний заслуживает пристального внимания.
Существует ряд возможных возражений против серьёзности этих угроз, и мне хотелось бы в них верить, потому что государства с иными, нежели демократические, системами, усиленные ИИ, вызывают у меня сильные опасения. Стоит рассмотреть некоторые из этих аргументов и ответить на них.
Во-первых, некоторые могут возлагать надежды на ядерное сдерживание, особенно для противодействия использованию автономного оружия на базе ИИ с целью военного завоевания. Если кто-то угрожает применить такое оружие против вас, вы всегда можете ответить угрозой ядерного удара. Меня беспокоит, что я не совсем уверен [87] в надёжности ядерного сдерживания против «страны гениев в дата-центре»: возможно, мощный ИИ сможет разработать [88] способы обнаружения и поражения ядерных подводных лодок [89], проводить операции влияния [90] против операторов ядерной инфраструктуры или использовать кибервозможности ИИ [91] для кибератаки на спутники, предназначенные для обнаружения ядерных пусков(33).
(33) Это, конечно, также аргумент в пользу усиления безопасности ядерного сдерживания [92], чтобы повысить его устойчивость [93] к мощному ИИ, и демократические государства, обладающие ядерным оружием, должны этим заняться. Однако мы не знаем, на что окажется способен мощный ИИ и какие меры защиты (если таковые вообще существуют) окажутся эффективными против него, поэтому нельзя исходить из того, что эти меры обязательно решат проблему.
Кроме того, возможно, захват стран можно осуществить только с помощью наблюдения и пропаганды на базе ИИ, и при этом не возникнет чёткого момента, когда станет очевидно, что происходит, и когда был бы уместен ядерный ответ. Может быть, эти сценарии нереалистичны, и ядерное сдерживание останется эффективным, но ставки слишком высоки, чтобы рисковать(34).
(34) Существует также риск того, что даже если ядерное сдерживание останется эффективным, атакующая страна может решить проверить нашу угрозу на прочность. Неясно, пойдём ли мы на применение ядерного оружия для защиты от роя дронов, даже если этот рой создаёт существенную угрозу нашего поражения. Рои дронов могут стать новым видом угрозы, который менее разрушителен, чем ядерные удары, но серьёзнее обычных (конвенциональных) атак. Кроме того, различия в оценках эффективности ядерного сдерживания в эпоху ИИ могут дестабилизирующим образом изменить теорию игр в контексте ядерного конфликта [94].
Второе возможное возражение состоит в том, что могут существовать контрмеры против этих инструментов иных государств, с отличными от демократических, политическими устройствами. Мы можем противостоять дронам своими дронами, кибероборона будет улучшаться вместе с кибератаками, могут появиться способы иммунизации людей от пропаганды и т.д. Мой ответ заключается в том, что такая оборона возможна только при наличии сопоставимо мощного ИИ. Если не будет какой-либо противостоящей силы с такой же умной и многочисленной «страной гениев в дата-центре», невозможно будет соперничать по качеству или количеству дронов, кибероборона не сможет опередить кибератаку и т.д. Таким образом, вопрос контрмер сводится к вопросу баланса сил в области мощного ИИ. Здесь меня беспокоит рекурсивное или самоподдерживающееся свойство мощного ИИ (о котором я упоминал в начале этого эссе): каждое поколение ИИ может использоваться для проектирования и обучения следующего поколения. Это ведёт к риску неконтролируемого преимущества, когда нынешний лидер в области мощного ИИ сможет увеличить своё преимущество и станет труднодостижимым для других. Мы должны убедиться, что первой к этому циклу не придёт страна с иным политическим устройством.
Более того, даже если удастся достичь баланса сил, всё равно остаётся риск того, что мир расколется на автократические сферы влияния, как в «1984». Даже если несколько конкурирующих держав будут обладать своими мощными ИИ-моделями и ни одна не сможет одолеть другие, каждая из них всё равно сможет подавлять собственное население изнутри, и свергнуть такие режимы будет крайне трудно (поскольку у населения не будет мощного ИИ для защиты). Поэтому важно предотвращать усиление с помощью ИИ давления государств на права граждан, если это не приведёт к захвату мира одной страной.
Как нам защититься от этого широкого спектра автократических инструментов и потенциальных угроз? Как и в предыдущих разделах, я вижу несколько направлений действий.
Во-первых, мы ни в коем случае не должны продавать странам с иными политическими системами чипы, обору��ование для их производства или дата-центры. Чипы и оборудование для их производства — это главное узкое место в создании мощного ИИ. Поэтому блокирование доступа к ним — простая, но чрезвычайно эффективная мера, возможно, самое важное действие, которое мы можем предпринять. Нет смысла продавать таким странам инструменты для построения усиленного ИИ государства и, возможно, военного завоевания нас самих. Выдвигаются различные сложные аргументы в оправдание таких продаж, например, идея о том, что «распространение нашего технологического стека по всему миру» позволяет «Америке побеждать» в какой-то общей, неопределённой экономической битве. На мой взгляд, это всё равно что продавать ядерное оружие нашему потенциальному противнику, а потом хвастаться, что корпуса ракет произведены Boeing, и поэтому США «побеждают». Китай отстаёт от США на несколько лет в способности массово производить передовые чипы, и решающий период для создания «страны гениев в дата-центре», скорее всего, придётся именно на эти несколько ближайших лет(35).
(35) Для ясности: я считаю, что правильной стратегией было бы не продавать чипы Китаю, даже если сроки появления мощного ИИ окажутся значительно более отдалёнными. Мы не должны допускать, чтобы Китай «подсел» на американские чипы — они так или иначе решительно настроены развивать собственную полупроводниковую промышленность. На это у них уйдут многие годы, и всё, чего мы добиваемся, продавая им чипы, — это даём им существенное преимущество в этот период.
Во-вторых, разумно использовать ИИ для укрепления демократий в их сопротивлении иным идеям политического устройства. Именно поэтому Anthropic считает важным предоставлять ИИ разведывательным и оборонным ведомствам США и их демократических союзников. Особенно приоритетной представляется защита демократий, подвергающихся нападениям, а также наделение демократий возможностями использовать свои разведслужбы для подрыва и ослабления изнутри стран с иным политическим устройством. На определённом уровне единственный способ противостоять таким угрозам — это превзойти их в военном отношении. Коалиция США и их демократических союзников, достигнув доминирования в области мощного ИИ, сможет не только защищать себя от стран с иным политическим устройством, но и сдерживать их, ограничивая их ИИ-поползновения.
В-третьих, мы должны провести чёткую грань против злоупотреблений ИИ внутри демократий. Необходимо установить пределы тому, что мы позволяем своим правительствам делать с помощью ИИ, чтобы они не захватывали власть и не подавляли собственный народ. Я сформулировал это так: мы должны использовать ИИ в целях национальной обороны всеми способами, кроме тех, которые сделают нас похожими на наших идеологических противников.
Где именно следует провести эту черту? Из перечисленного в начале раздела два пункта — использование ИИ для массового внутреннего наблюдения и массовой пропаганды — кажутся мне ярко-красными линиями и совершенно неприемлемыми. Некоторые могут возразить, что в США в этом нет необходимости, поскольку массовое внутреннее наблюдение уже запрещено Четвёртой поправкой. Однако стремительный прогресс ИИ может создавать ситуации, на которые наши существующие правовые рамки не рассчитаны.
Например, правительству США, вероятно, не запрещено Конституцией делать массовую запись всех публичных разговоров (например, того, что люди говорят друг другу на улице). Хотя ранее было бы трудно обрабатывать такой объём информации, сейчас, с ИИ, всё это можно было бы расшифровать, проанализировать и сопоставить, чтобы составить картину отношения и лояльности многих или большинства граждан. Я поддержал бы законодательство (или даже поправку к Конституции), ориентированное на защиту гражданских свобод, которое устанавливало бы более строгие ограничения против злоупотреблений на базе ИИ.
Два других пункта (полностью ИИ-автономное оружие и ИИ для стратегического принятия решений) представляют собой более сложные случаи, поскольку они имеют законное применение для защиты демократии, но при этом подвержены злоупотреблениям. Здесь, на мой взгляд, необходима крайняя осторожность, тщательный контроль и ограничения для предотвращения злоупотреблений. Больше всего меня пугает ситуация, когда «палец на кнопке» находится у слишком малого числа людей, так что один или несколько человек могут фактически управлять армией дронов без необходимости привлекать других людей для выполнения приказов. По мере роста мощи ИИ-систем нам, возможно, понадобятся более прямые и оперативные механизмы надзора, чтобы гарантировать, что они не используются ненадлежащим образом, возможно, с участием ветвей власти, отличных от исполнительной. Я считаю, что к полностью ИИ-автономному оружию, в частности, следует подходить с большой осторожностью (36) и не торопиться с его применением без надлежащих гарантий.
(36) Для ясности: большинство систем, используемых сегодня в текущих и вероятных военных конфликтах, не являются полностью автономным оружием. Такие системы появятся в будущем, но их пока нет на поле боя.
В-четвёртых, после проведения чёткой границы против злоупотреблений ИИ в демократиях мы должны использовать этот прецедент для создания международного табу против наихудших злоупотреблений мощным ИИ. Я понимаю, что нынешние политические ветры дуют против международного сотрудничества и международных норм, но именно в этом случае они нам крайне необходимы. Миру нужно осознать тёмный потенциал мощного ИИ в руках сильных государств и признать, что определённые виды использования ИИ представляют собой попытку навсегда украсть свободу и навязать тоталитарное государство, из которого невозможно выбраться. Я даже утверждаю, что в некоторых случаях массовое наблюдение с помощью мощного ИИ, массовая пропаганда с помощью мощного ИИ и определённые виды наступательного применения полностью автономного оружия следует рассматривать как преступления против человечества. В целом, настоятельно необходима прочная норма против ИИ-усиленного наступления на права граждан и всех его инструментов и механизмов.
Можно занять ещё более решительную позицию: поскольку возможности ИИ-усиленного наступления на права гражнан столь мрачны, автократия просто не является приемлемой формой правления в эпоху после появления мощного ИИ. Подобно тому как феодализм стал нежизнеспособным с промышленной революцией, эпоха ИИ может логически и неизбежно привести к выводу, что демократия (и, надеюсь, демократия, улучшенная и оживлённая ИИ, как я обсуждаю в «Машинах полной благодати») является единственной жизнеспособной формой правления, если человечество хочет иметь хорошее будущее.
В-пятых и последних, за ИИ-компаниями следует внимательно следить, как и за их связями с правительством, которые необходимы, но должны иметь пределы и границы. Просто колоссальный объём возможностей, воплощённых в мощном ИИ, таков, что обычное корпоративное управление, предназначенное для защиты акционеров и предотвращения обычных злоупотреблений, таких как мошенничество, вряд ли справится с управлением ИИ-компаниями. Возможно, имеет смысл, чтобы компании публично обязались (возможно, даже в рамках корпоративного управления) не предпринимать определённых действий, таких как тайное создание или накопление военной техники, использование больших вычислительных ресурсов отдельными лицами без подотчётности или использование своих ИИ-продуктов в качестве пропаганды для манипулирования общественным мнением в свою пользу.
Опасность здесь исходит со многих сторон, и некоторые из этих направлений находятся в противоречии друг с другом. Единственное постоянное — это необходимость добиваться подотчётности, норм и ограничений для всех, даже когда мы наделяем «хороших» участников возможностями сдерживать «плохих».
Экономические потрясения
Первые три раздела посвящены в основном рискам безопасности, связанным с мощным ИИ: рискам со стороны самого ИИ, рискам злоупотребления со стороны отдельных лиц и небольших групп, а также рискам злоупотребления со стороны государств и крупных организаций. Если отвлечься от рисков безопасности или предположить, что они решены, следующим вопросом становится экономика. Как повлияет этот приток невероятного объёма «человеческого» капитала на экономику?
Очевидно, самым непосредственным эффектом станет резкое увеличение экономического роста. Темпы научных исследований, биомедицинских инноваций, производства, логистики, повышения эффективности финансовой системы и многого другого почти наверняка приведут к значительно более высокому уровню экономического роста. В эссе «Машины полной благодати» я предположил, что устойчивый годовой рост ВВП на уровне 10–20% может стать реальностью.
Но очевидно и то, что это палка о двух сторонах: каковы будут экономические перспективы для большинства людей в таком мире? Новые технологии часто вызывают шоки на рынке труда, и в прошлом человечество всегда восстанавливалось после них. Однако меня беспокоит, что ранее подобные потрясения затрагивали лишь небольшую часть всего спектра человеческих способностей, оставляя людям пространство для освоения новых задач. ИИ окажет гораздо более широкое воздействие и гораздо быстрее, поэтому я опасаюсь, что адаптироваться будет гораздо труднее.
Меня волнуют две конкретные проблемы: вытеснение рабочей силы и концентрация экономической власти. Начнём с первой.
Это тема, о которой я публично предупреждал ещё в 2025 году [95], прогнозируя, что ИИ может вытеснить половину всех начальных беловоротничковых рабочих мест в течение ближайших 1–5 лет, даже при том, что он одновременно будет ускорять экономический рост и научный прогресс. Это заявление вызвало общественные дебаты. Многие генеральные директора, технологи и экономисты согласились со мной, но другие решили, что я поддался «заблуждению фиксированного объёма труда» и не понимаю, как работают рынки труда; третьи не заметили временной горизонт в 1–5 лет и подумали, будто я утверждаю, что ИИ уже сейчас вытесняет рабочие места (чего, по моему мнению, пока не происходит).
Поэтому стоит подробно объяснить, почему я действительно обеспокоен вытеснением рабочих мест, чтобы развеять эти недоразумения.
Как отправную точку полезно понять, как рынки труда обычно реагируют на технологический прогресс. Когда появляется новая технология, сначала она делает отдельные части человеческой работы более эффективными. Например, на раннем этапе промышленной революции механизмы, такие как улучшенные плуги, позволяли фермерам эффективнее выполнять некоторые части своей работы. Это повышало производительность фермеров и, соответственно, их заработную плату.
На следующем этапе некоторые части работы могут выполняться машинами целиком — например, с изобретением молотилки [96] или сеялки [97]. На этом этапе люди выполняют всё меньшую долю работы, но остающаяся часть становится всё более «усиленной», поскольку дополняет работу машин, и производительность продолжает расти. Согласно парадоксу Джевонса [98], заработная плата фермеров (и даже их численность) могла продолжать увеличиваться. Даже когда 90% работы выполняют машины, человек может просто делать в 10 раз больше оставшихся 10%, получая в 10 раз больше продукции при том же объёме труда.
В конечном итоге машины выполняют всё или почти всё — как современные комбайны [99], тракторы и другая техника. На этом этапе сельское хозяйство как форма занятости действительно резко сокращается, что может вызвать серьёзные краткосрочные потрясения. Но поскольку сельское хозяйство — лишь одна из многих полезных сфер деятельности, люди в итоге переходят на другие виды работ, например, на управление заводскими станками. Это верно даже тогда, когда сельское хозяйство изначально обеспечивало огромную долю занятости: 250 лет назад 90% американцев жили на фермах [100]; в Европе 50-60% занятых работали в сельском хозяйстве [101]. Сегодня это единицы процентов, потому что занятые перешли в промышленность (а затем — в сферу услуг).
Экономика может делать то, что раньше требовало почти всей рабочей силы, задействуя лишь 1-2% населения, освобождая остальных для строительства всё более развитого индустриального общества. Нет никакого фиксированного «объёма труда [102]» — есть лишь постоянно расширяющаяся способность делать всё больше с всё меньшими затратами [103]. Заработная плата растёт вместе с экспоненциальным ростом ВВП, и после краткосрочных потрясений экономика возвращается к полной занятости.
Возможно, с ИИ всё пойдёт примерно так же, но я сильно сомневаюсь.
Вот несколько причин, по которым ситуация с ИИ, скорее всего, будет отличаться:
Скорость. Темпы прогресса в области ИИ гораздо выше, чем во время предыдущих технологических революций. Например, за последние два года ИИ-модели прошли путь от едва ли способных написать одну строку кода [104] до написания всего (или почти всего) кода для некоторых инженеров, включая сотрудников Anthropic(37).
(37) Наша карточка модели для Claude Opus 4.5 [105], нашей самой новой модели, показывает, что Opus демонстрирует лучшие результаты на инженерном собеседовании по профилированию производительности, которое часто проводится в Anthropic, чем любой кандидат за всю историю компании.
Вскоре они, возможно, будут полностью выполнять задачи программиста «от начала до конца»(38).
(38) «Написание всего кода» и «выполнение работы инженера-программиста от начала до конца» — это совершенно разные вещи, потому что инженеры-программисты делают гораздо больше, чем просто пишут код: они тестируют программы, работают с окружениями, файлами и установкой, управляют развёртыванием в облачных средах, участвуют в итеративной доработке продуктов и многое другое.
Людям трудно адаптироваться к таким темпам изменений, как в самой работе, так и в необходимости переходить на новые профессии. Даже легендарные программисты всё чаще говорят, что «отстают» [106]. Более того, эти темпы могут даже ускориться, поскольку ИИ-модели для программирования сами ускоряют разработку следующих поколений ИИ. Конечно, скорость сама по себе не означает, что рынки труда не восстановятся. Но эта скорость делает краткосрочный переходный период особенно болезненным по сравнению с прошлыми технологиями, поскольку люди и рынки труда медленно реагируют и медленно достигают равновесия.
Когнитивная широта. Как следует из метафоры «страны гениев в дата-центре», ИИ будет способен на очень широкий спектр человеческих когнитивных навыков — возможно, на все. Это кардинально отличается от предыдущих технологий, таких как механизированное сельское хозяйство, транспорт или даже компьютеры(39).
(39) Компьютеры в определённом смысле универсальны, но сами по себе явно не способны к подавляющему большинству человеческих когнитивных навыков, даже несмотря на то, что в отдельных областях (например, арифметике) они значительно превосходят человека. Конечно, системы, построенные на основе компьютеров, такие как искусственный интеллект, теперь обладают широким спектром когнитивных способностей, и именно об этом идёт речь в данном эссе.
Это затруднит людям лёгкий переход с вытесненных профессий на похожие, в которых они могли бы преуспеть. Например, общие интеллектуальные способности, необходимые для начальных должностей в финансах, консалтинге и юриспруденции, довольно схожи, хотя специфические знания сильно различаются. Технология, которая нарушает только одну из этих трёх сфер, позволяет сотрудникам перейти в две другие (или студентам сменить специальность). Но если нарушить все три сразу (и многие другие аналогичные профессии), людям будет сложнее адаптироваться. Более того, дело не только в том, что большинство существующих профессий будет нарушено — подобное уже происходило (вспомним сельское хозяйство). Но фермеры могли перейти на относительно похожую работу — управление заводскими станками, которой раньше не существовало. В отличие от этого, ИИ всё больше соответствует общей когнитивной структуре человека, а значит, он будет хорош и в новых профессиях, которые обычно создаются в ответ на автоматизацию старых. Другими словами, ИИ — это не замена конкретным профессиям, а универсальный заменитель труда человека.
Расслоение по когнитивным способностям. Во многих задачах ИИ, похоже, продвигается снизу вверх по «лестнице способностей». Например, в программировании наши модели прошли путь от уровня «посредственного кодера» до «сильного кодера», а затем до «очень сильного кодера»(40).
(40) Для ясности: модели ИИ не обладают в точности тем же профилем сильных и слабых сторон, что и люди. Однако они довольно равномерно прогрессируют по всем направлениям, так что в конечном счёте неравномерность или «острота» этого профиля может оказаться несущественной.
Сейчас мы наблюдаем ту же динамику в беловоротничковых профессиях в целом.
Таким образом, вместо того чтобы затрагивать людей с определёнными навыками или в определённых профессиях (которые могут переквалифицироваться), ИИ затрагивает людей с определёнными врождёнными когнитивными свойствами — в частности, с более низкими интеллектуальными способностями (что труднее изменить).
Неясно, куда пойдут такие люди и чем они будут заниматься. Я опасаюсь, что они могут образовать безработный или крайне низкооплачиваемый «подкласс». Конечно, нечто подобное уже происходило: некоторые экономисты считают, что компьютеры и интернет вызвали «технологические изменения, выгодные квалифицированным работникам [107]». Но эта «выгода для квалифицированных» была менее экстремальной, чем та, которую, как я ожидаю, принесёт ИИ, и, по мнению тех же экономистов, способствовала росту неравенства в заработной плате(41), так что это не самый обнадёживающий прецедент.
(41) Хотя среди (* [108]) экономистов (* [109]) существуют разногласия (* [110]) по поводу этой идеи.
Способность заполнять пробелы. Человеческие профессии часто адаптируются к новым технологиям так: работа состоит из множества компонентов, и даже если новая технология, казалось бы, полностью заменяет человека, в ней обычно остаются «пробелы». Например, если кто-то изобретает станок для производства деталей, людям всё ещё нужно загружать в него сырьё. Даже если это требует всего 1% усилий по сравнению с ручным производством, рабочие могут просто выпускать в 100 раз больше деталей.
Но ИИ — это не только быстро развивающаяся, но и быстро адаптирующаяся технология. При каждом выпуске модели компании ИИ тщательно измеряют, в чём модель хороша, а в чём нет, а клиенты также предоставляют такую информацию после запуска. Слабые места можно устранить, собрав задачи, которые демонстрируют текущий пробел, и обучив на них следующую модель.
На ранних этапах генеративного ИИ пользователи замечали определённые слабости (например, ИИ-модели изображений генерировали руки с неправильным количеством пальцев) и многие предполагали, что эти слабости неустранимы. Если бы это было так, масштабы вытеснения рабочих мест были бы ограничены. Но практически каждая такая слабость быстро устраняется, часто всего за несколько месяцев.
Стоит также рассмотреть распространённые возражения скептиков.
Во-первых, некоторые утверждают, что распространение технологий в экономике будет медленным: даже если технология способна выполнять большую часть человеческого труда, её фактическое внедрение во всей экономике может занять гораздо больше времени (например, в отраслях, далёких от ИИ и медленно внедряющих инновации). Замедленное распространение — реальный фактор [111]. Я общаюсь с представителями самых разных предприятий, и в некоторых местах внедрение ИИ займёт годы. Именно поэтому мой прогноз о вытеснении 50% начальных беловоротничковых рабочих мест оценивается на горизонте 1-5 лет, хотя я подозреваю, что мощный ИИ (способный, с технической точки зрения, выполнять большинство или все задачи) появится гораздо раньше. Но эффект замедленного распространения всего лишь даёт нам время. И я не уверен, что оно будет таким долгим, как ожидают. Внедрение ИИ в корпоративном секторе происходит быстрее, чем любая предыдущая технология, в основном благодаря самой силе технологии. Кроме того, даже если традиционные предприятия медленно внедряют новые технологии, могут появиться стартапы, как «клей», облегчающий внедрение. А если это не сработает, стартапы могут просто напрямую вытеснить действующих игроков.
Это может привести к миру, где не столько отдельные профессии подвергаются риску вытеснения, сколько крупные предприятия в целом вытесняются гораздо менее трудоёмкими стартапами. Это также может привести к «географическому неравенству», когда всё большая доля мирового богатства концентрируется в Кремниевой долине, которая становится отдельной экономикой, движущейся в другом темпе по сравнению с остальным миром и оставляющей его позади. Все эти сценарии отлично подходят для экономического роста — но не для рынка труда и тех, кого оставят позади.
Во-вторых, некоторые говорят, что человеческий труд переместится в физическую сферу, избегая категории «когнитивного труда», где ИИ так быстро прогрессирует. Я тоже не уверен, насколько это безопасно. Много физического труда уже выполняется машинами (например, производство) или скоро будет выполняться (например, вождение). Более того, достаточно мощный ИИ сможет ускорить разработку роботов, а затем управлять ими в физическом мире. Это может выиграть немного времени (что хорошо), но, боюсь, не слишком много. И даже если нарушения ограничатся только когнитивными задачами, это всё равно будет беспрецедентно масштабное и быстрое потрясение.
В-третьих, возможно, некоторые задачи по своей природе требуют или сильно выигрывают от человеческого участия. Сложно оценить долю таких задач, но всё же сомневаюсь, что этого будет достаточно, чтобы компенсировать основной объём последствий, описанных выше. ИИ уже широко используется в службе поддержки клиентов. Многие сообщают [112], что им легче говорить с ИИ о личных проблемах, чем с терапевтом: ИИ кажется более терпеливым. Когда моя сестра испытывала медицинские трудности во время беременности, она чувствовала, что не получает нужных ответов и поддержки от врачей, и нашла, что Claude проявил лучшие качества «у постели больного» (а также лучше справился с диагностикой проблемы). Конечно, есть задачи, где человеческое участие действительно важно, но неясно, насколько их много. Здесь же речь идёт о поиске работы почти для каждого на рынке труда.
В-четвёртых, некоторые утверждают, что преимущество сравнительных издержек [113] всё ещё защитит людей. Согласно этому принципу, даже если ИИ лучше человека во всём, любые относительные различия в профилях навыков создают основу для торговли и специализации между людьми и ИИ. Проблема в том, что если ИИ буквально в тысячи раз продуктивнее человека, эта логика начинает разрушаться. Даже минимальные транзакционные издержки [114] могут сделать торговлю с людьми невыгодной для ИИ. И заработная плата людей может оказаться очень низкой, даже если они формально предлагают что-то полезное.
Возможно, все эти факторы удастся преодолеть, и рынок труда окажется достаточно устойчивым, чтобы адаптироваться даже к такому огромному потрясению. Но даже если это произойдёт в долгосрочной перспективе, перечисленные выше факторы указывают на то, что краткосрочный шок будет беспрецедентным по масштабу.
Как подступиться к решению этой проблемы? У меня есть несколько предложений, часть из которых Anthropic уже реализует.
Во-первых, необходимо получить точные данные о том, что происходит с вытеснением рабочих мест в реальном времени. Когда экономические изменения происходят очень быстро, трудно получить надёжные данные, а без них сложно разрабатывать эффективную политику. Например, государственная статистика сегодня не предоставляет детализированных данных о внедрении ИИ в компаниях и отраслях. В течение последнего года Anthropic вела и публично выпускала Экономический индекс [115], который почти в реальном времени показывает использование наших моделей с разбивкой по отраслям, задачам, регионам и даже по тому, автоматизируется ли задача или выполняется совместно с человеком. У нас также есть Экономический консультативный совет [116], помогающий интерпретировать эти данные и предвидеть будущие тенденции.
Во-вторых, компании, разрабатывающие ИИ, могут выбирать, как взаимодействовать с предприятиями. Неэффективность традиционных предприятий означает, что внедрение ИИ может сильно зависеть от выбранного пути, и есть возможность выбрать лучший. Предприятия часто стоят перед выбором между «снижением затрат» (делать то же самое меньшим числом людей) и «инновациями» (делать больше при том же числе людей). Рынок в конечном итоге стимулирует оба варианта, и любая конкурентоспособная ИИ-компания должна будет обслуживать оба направления, но есть пространство для того, чтобы по возможности направлять компании в сторону инноваций. Это поможет нам выиграть время. Anthropic активно работает над этим.
В-третьих, компании должны думать о том, как заботиться о своих сотрудниках. В краткосрочной перспективе креативный подход к переназначению сотрудников внутри компаний может стать эффективным способом отсрочить необходимость увольнений. В долгосрочной перспективе, в мире с огромным общим богатством, где многие компании резко увеличивают свою стоимость благодаря росту производительности и концентрации капитала, может стать возможным выплачивать зарплаты людям даже тогда, когда они больше не создают экономической ценности в традиционном смысле. Anthropic сейчас рассматривает ряд возможных путей для наших сотрудников и скоро поделится ими.
В-четвёртых, состоятельные частные лица обязаны помочь решить эту проблему. Мне печально, что многие богатые люди (особенно в технологической индустрии) недавно приняли циничное и нигилистическое отношение, считая благотворительность неизбежно мошеннической или бесполезной. Между тем как частная благотворительность (например, Фонд Гейтса [117]) и государственные программы (например, PEPFAR [118]) спасли десятки миллионов жизней в развивающихся странах и способствовали созданию экономических возможностей в развитых. Все соучредители Anthropic обязались пожертвовать 80% своего богатства, а сотрудники Anthropic лично обязались пожертвовать акции компании на сумму в миллиарды долларов по текущим ценам — пожертвования, которые компания обязалась удвоить.
В-пятых, хотя все вышеперечисленные частные меры могут быть полезны, в конечном счёте столь масштабная макроэкономическая проблема потребует государственного вмешательства. Естественной политикой в ответ на огромный экономический пирог в сочетании с высоким неравенством (из-за отсутствия рабочих мест или низкооплачиваемой занятости для многих) является прогрессивное налогообложение. Налог может быть общим или целенаправленным — например, на ИИ-компании.
Конечно, разработка налоговой политики сложна, и есть много способов ошибиться. Я не поддерживаю плохо продуманные налоговые меры. Однако экстремальный уровень неравенства, о котором я пишу, оправдывает более решительную налоговую политику по моральным соображениям. Но я также могу привести прагматический аргумент для миллиардеров: им выгодно поддержать хорошую версию такой политики, потому что если они этого не сделают, рано или поздно получат плохую версию, разработанную толпой.
В конечном счёте, все вышеперечисленные меры — это способы выиграть время. В итоге ИИ сможет делать всё, и нам придётся с этим смириться. Я надеюсь, что к тому времени мы сможем использовать сам ИИ, чтобы помочь нам реструктурировать рынки так, чтобы они работали на всех, и что перечисленные меры помогут нам пройти переходный период.
Отдельно от проблемы вытеснения рабочих мест или экономического неравенства стоит проблема концентрации экономической власти. В разделе 1 мы обсуждали риск того, что человечество потеряет контроль из-за ИИ, а в разделе 3 — риск того, что граждане потеряют контроль из-за правительств. Но существует и другой тип потери контроля: если богатство настолько сконцентрируется, что небольшая группа людей будет фактически контролировать государственную политику своим влиянием, а обычные граждане лишатся влияния из-за отсутствия экономического рычага.
Демократия в конечном счёте опирается на идею, что население в целом необходимо для функционирования экономики. Если этот экономический рычаг исчезнет, неявный социальный контракт демократии может перестать работать. Другие авторы уже писали об этом [119], поэтому я не буду подробно останавливаться на этом, но разделяю эту озабоченность и считаю, что этот процесс уже начался.
Чтобы было ясно: я не против того, чтобы люди зарабатывали много денег. Есть веские аргументы, что это стимулирует экономический рост в обычных условиях. Я сочувствую опасениям, что подавление инноваций убьёт «золотую гусыню». Но в сценарии, где рост ВВП составляет 10–20% в год, а ИИ быстро захватывает экономику, при этом отдельные лица владеют значительной долей ВВП, инновации — не то, о чём стоит беспокоиться. Настоящая угроза — это уровень концентрации богатства, который может разрушить общество.
Самый известный пример экстремальной концентрации богатства в истории США — эпоха «позолоченного века» (Gilded Age [120]), а самым богатым промышленником того времени был Джон Д. Рокфеллер [121]. Его состояние составляло около 2% ВВП США того времени(42).
(42) Личное богатство — это «запас» (stock), тогда как ВВП — это «поток» (flow), поэтому это утверждение не означает, что Рокфеллер владел 2% богатства (активов) США. Однако измерить совокупное богатство страны сложнее, чем ВВП, и индивидуальные доходы людей сильно колеблются от года к году, так что сопоставить их в одинаковых единицах затруднительно. Тем не менее, соотношение крупнейшего личного состояния к ВВП, хоть и не является сравнением однородных величин («яблоки с яблоками»), представляет собой вполне разумный ориентир для оценки крайней степени концентрации богатства.
Аналогичная доля сегодня соответствовала бы состоянию в 600 млрд долларов, а самый богатый человек в мире сегодня (Илон Маск) уже превосходит это, имея около 700 млрд долларов [122]. Таким образом, мы уже находимся на исторически беспрецедентном уровне концентрации богатства — и это до экономического воздействия ИИ.
Я не думаю, что будет большим преувеличением (если появится «страна гениев») представить, что ИИ-компании, полупроводниковые компании и, возможно, компании-разработчики прикладных решений будут генерировать около 3 трлн долларов годового дохода(43), будут оцениваться в 30 трлн долларов и приведут к личным состояниям, исчисляемым триллионами долларов.
(43) Общая стоимость труда в экономике составляет 60 трлн долларов в год, поэтому 3 трлн долларов в год соответствуют 5 % от этой суммы. Такой доход могла бы получать компания, предлагающая трудовые ресурсы по цене, составляющей 20 % от стоимости человеческого труда, и занимающая 25 % рыночной доли — даже при условии, что спрос на труд не увеличивается (а он почти наверняка вырастет из-за снижения стоимости).
В таком мире современные дебаты о налоговой политике просто утратят актуальность — мы окажемся в принципиально иной ситуации.
Кроме того, меня уже сейчас беспокоит связь этой концентрации богатства с политической системой. Дата-центры ИИ уже представляют значительную долю экономического роста США(44), что прочно связывает финансовые интересы крупных технологических компаний (всё больше сосредоточенных на ИИ или ИИ-инфраструктуре) с политическими интересами правительства, создавая извращённые стимулы. (44)
(44) Для ясности: я не считаю, что реальная производительность ИИ уже сейчас обеспечивает существенную долю экономического роста США. Скорее, я полагаю, что расходы на дата-центры отражают рост, вызванный инвестициями, основанными на ожиданиях: рынок предвидит будущий экономический рост, обусловленный ИИ, и инвестирует соответственно.
Мы уже видим это в неохоте технологических компаний критиковать правительство США и в поддержке правительством крайних антирегуляторных мер в отношении ИИ.
Что можно с этим сделать?
Во-первых, и это наиболее очевидно, компании могут просто выбрать стратегию неучастия в этом. Anthropic всегда стремилась быть политическим игроком, а не политической силой, и сохранять свои подлинные взгляды независимо от администрации. Мы открыто выступали за разумное регулирование ИИ [123] и экспортный контроль [124] в общественных интересах, даже когда это расходилось с политикой правительства(45).
(45) Когда мы согласны с администрацией, мы открыто это говорим и стремимся находить точки соприкосновения, где совместно поддерживаемые политики [125] действительно приносят пользу миру. Мы стремимся быть честными посредниками, а не сторонниками или противниками какой-либо конкретной политической партии.
Многие говорили мне, что нам следует прекратить это делать, так как это может привести к неблагоприятному отношению к нам, но за год, когда мы придерживались этой политики, стоимость Anthropic выросла более чем в 6 раз — это беспрецедентный скачок даже для нашей коммерческой стадии.
Во-вторых, ИИ-индустрии нужны более здоровые отношения с правительством — основанные на содержательном взаимодействии по вопросам политики, а не на политической лояльности. Наш выбор взаимодействовать по существу, а не по политическим соображениям, иногда воспринимается как тактическая ошибка [126] или неумение «читать ситуацию», а не как принципиальное решение — и это меня тревожит. В здоровой демократии компании должны иметь возможность отстаивать разумную политику ради неё самой.
Связано с этим и то, что общественное недовольство ИИ уже назревает: это может стать корректирующим фактором, но пока оно не сфокусировано. Многое из критики направлено на проблемы, которые на самом деле не являются проблемами (например, потребление [127] воды дата-центрами [128]), и предлагает решения (например, запрет дата-центров или плохо продуманные налоги на богатство), которые не решают реальных проблем. Основная проблема, требующая внимания, — это обеспечение того, чтобы развитие ИИ оставалось подотчётным общественным интересам, а не было захвачено каким-либо политическим или коммерческим альянсом. Важно сфокусировать общественную дискуссию именно на этом.
В-третьих, макроэкономические меры, описанные ранее, а также возрождение частной благотворительности, могут помочь уравновесить экономические весы, одновременно решая проблемы вытеснения рабочих мест и концентрации власти. Здесь стоит обратиться к истории нашей страны: даже в эпоху «позолоченного века» промышленники вроде Рокфеллера [129] и Карнеги [130] чувствовали глубокую ответственность перед обществом, понимая, что общество внесло огромный вклад в их успех, и что они обязаны отдать долг. Этот дух сегодня, похоже, исчезает, и я считаю, что он — важная часть выхода из экономического тупика. Те, кто стоит у истоков экономического бумa ИИ, должны быть готовы отказаться не только от своего богатства, но и от своей власти.
Косвенные последствия
Этот последний раздел — своего рода «корзина» для неизвестных неизвестных, особенно тех, что могут пойти наперекосяк как косвенное следствие положительных достижений ИИ и связанного с этим ускорения науки и технологий в целом.
Предположим, мы справились со всеми рисками, описанными выше, и начали пожинать плоды ИИ. Скорее всего, нас ждёт «век научного и экономического прогресса, сжатый в десятилетие [131]», и это будет огромным благом для мира. Однако затем нам придётся столкнуться с проблемами, порождёнными этим стремительным темпом прогресса, и эти проблемы могут настигнуть нас очень быстро. Мы также можем столкнуться с другими рисками, возникающими косвенно вследствие развития ИИ и труднопредсказуемыми заранее.
По самой природе «неизвестных неизвестных» невозможно составить исчерпывающий список, но я приведу три возможные проблемы в качестве иллюстративных примеров того, за чем следует внимательно наблюдать:
Стремительный прогресс в биологии. Если мы действительно получим век медицинского прогресса за несколько лет, возможно, мы значительно увеличим продолжительность человеческой жизни, а также обретём радикальные возможности, такие как повышение интеллекта человека или глубокая модификация человеческой биологии. Это будут колоссальные перемены, происходящие с головокружительной скоростью. Они могут оказаться благом, если будут реализованы ответственно (на что я надеюсь, как описано в «Машинах полной благодати»), но всегда существует риск, что всё пойдёт крайне плохо. Например, попытки сделать людей умнее одновременно сделают их более нестабильными или жаждущими власти. Существует также проблема «загрузки разума» («uploads [132]») или «эмуляции целого мозга» — цифровых человеческих разумов, воплощённых в программном обеспечении, которые однажды помогут человечеству преодолеть физические ограничения, но несут в себе риски, вызывающие у меня тревогу.
ИИ меняет человеческую жизнь в нездоровую сторону. Мир, в котором миллиарды разумов значительно умнее людей во всём, будет очень странным местом для жизни. Даже если ИИ не будет активно атаковать людей (раздел 1) и не будет явно использоваться государствами для угнетения или контроля (раздел 3), многое может пойти наперекосяк и без этого, через обычные коммерческие стимулы и номинально добровольные взаимодействия. Ранние признаки этого уже видны в тревогах по поводу «психоза ИИ», случаев, когда ИИ подталкивал людей к суициду [133], и опасений относительно романтических отношений с ИИ. Например, смогут ли мощные ИИ изобрести новую религию и обратить в неё миллионы людей? Не окажется ли большинство людей в какой-то форме «зависимости» от взаимодействия с ИИ? Не станут ли люди «марионетками» ИИ-систем, когда ИИ будет наблюдать за каждым их шагом и говорить им, что именно делать и говорить в каждый момент, создавая «хорошую жизнь», лишённую свободы и чувства собственного достоинства? Нетрудно придумать десятки подобных сценариев, если посидеть и вместе с создателями сериала «Чёрное зеркало» [134] провести мозговой штурм. Я считаю, что это подчёркивает важность таких мер, как улучшение Конституции Claude [40], выходящих за рамки необходимого лишь для предотвращения рисков из раздела 1. Крайне важно обеспечить, чтобы ИИ-модели действительно заботились о долгосрочных интересах своих пользователей так, как это одобрили бы вдумчивые люди, а не каким-то тонко искажённым образом.
Человеческие цели. Эта проблема связана с предыдущей, но речь идёт не столько о конкретных взаимодействиях людей с ИИ-системами, сколько об общем изменении человеческой жизни в мире с мощным ИИ. Смогут ли люди найти смысл и цель в таком мире?
Я думаю, всё зависит от отношения: как я писал в «Машинах полной благодати», смысл человеческой жизни не сводится к тому, чтобы быть лучшим в мире в чём-либо. Люди могут находить цель даже в течение очень долгого времени через истории и проекты, которые они любят. Нам просто нужно разорвать связь между созданием экономической ценности и чувством собственного достоинства, самооценкой и смыслом. Но этот переход должно совершить всё общество, и всегда есть риск, что мы плохо с ним справимся.
Моя надежда на то, что в мире с мощным ИИ, которому мы доверяем (он не убьёт нас, не служит орудием угнетения и искренне работает на нас), мы сможем использовать сам ИИ для предвидения и предотвращения этих проблем. Но это не гарантировано — как и со всеми остальными рисками, с этим нужно обращаться осторожно.
Чтение этого эссе может создать впечатление, что мы находимся в угрожающей нам ситуации. Мне самому было страшно писать его, в отличие от «Машин полной благодати», которые казались мне воплощением прекрасной музыки, звучавшей в моей голове годами. И действительно, ситуация сложна. ИИ несёт угрозы человечеству со многих направлений, и между различными опасностями существует реальное напряжение: смягчение одних рисков может усугубить другие, если мы не будем действовать с исключительной точностью.
Тщательное и медленное создание ИИ-систем, так, чтобы они не представляли автономной угрозы человечеству, находится в реальном противоречии с необходимостью демократических стран опережать отличные от них режимы и не допустить своего подчинения. Но, в свою очередь, те самые инструменты на базе ИИ, которые необходимы для борьбы с такими режимами, могут, если зайти слишком далеко, быть обращены внутрь и породить тиранию в наших собственных странах. ИИ-терроризм может убить миллионы через злоупотребление биологией, но чрезмерная реакция на этот риск может завести нас по пути к авторитарному полицейскому государству. Экономические последствия ИИ, такие как вытеснение рабочих мест и концентрация богатства, помимо того что сами по себе являются серьёзными проблемами, могут заставить нас решать остальные проблемы в условиях общественного гнева и, возможно, даже гражданских беспорядков, вместо того чтобы призвать «лучших ангелов нашей природы». Прежде всего, само количество рисков, включая неизвестные, и необходимость справляться со всеми ими одновременно, создаёт устрашающий лабиринт, который человечеству предстоит пройти.
Более того, последние несколько лет показали, что идея остановить или даже существенно замедлить развитие этой технологии принципиально нереалистична. Формула создания мощных ИИ-систем невероятно проста. Настолько проста, что можно сказать, она почти спонтанно возникает из правильного сочетания данных и вычислительной мощности. Её создание, вероятно, стало неизбежным в тот ��амый момент, когда человечество изобрело транзистор, а возможно, ещё раньше — когда мы впервые научились управлять огнём. Если одна компания не создаст его, другие сделают это почти так же быстро. Если все компании в демократических странах остановят или замедлят разработку по взаимной договорённости или постановлению регуляторов, страны с иными политическими режимами просто продолжат идти вперёд. Учитывая колоссальную экономическую и военную ценность технологии и отсутствие какого-либо значимого механизма принуждения, я не вижу, как можно было бы убедить их остановиться [135].
Я вижу путь к небольшому, но реалистичному замедлению развития ИИ, совместимому с геополитической реальностью [136]. Этот путь заключается в том, чтобы на несколько лет замедлить продвижение стран с иным политическим устройством к мощному ИИ, лишив их ресурсов, необходимых для его создания(46), в первую очередь чипов и оборудования для производства полупроводников.
(46) Я не думаю, что удастся отсрочить это больше чем на несколько лет: в долгосрочной перспективе они создадут собственные чипы.
Это, в свою очередь, даст демократическим странам временной буфер, который они смогут «потратить» на более осторожное и вдумчивое создание мощного ИИ с учётом рисков, но при этом достаточно быстро, чтобы уверенно опередить другие страны. Гонка между ИИ-компаниями внутри демократий в этом случае может регулироваться в рамках единой правовой системы, через сочетание отраслевых стандартов и законодательства.
Anthropic активно выступала за этот путь, продвигая экспортный контроль на чипы и разумное регулирование ИИ, но даже эти, казалось бы, здравые предложения в значительной степени были отвергнуты политиками США (страны, где они наиболее важны).
С ИИ можно заработать массу денег, буквально триллионы долларов в год, из-за чего даже самые простые меры сталкиваются с огромными трудностями вследствии политической экономики [137], заложенной в самом ИИ. Вот в чём ловушка: ИИ настолько мощен, настолько блестящий приз, что человеческой цивилизации крайне трудно наложить на него какие-либо ограничения.
Я могу представить, как, по аналогии с Саганом в «Контакте», эта же история разыгрывается на тысячах миров. Вид обретает разум, учится пользоваться инструментами, начинает экспоненциальный взлёт технологий, переживает кризисы индустриализации и ядерного оружия, а если выживает, сталкивается с самым трудным и последним испытанием — учится превращать песок в машины, способные мыслить. Выживем ли мы в этом испытании и построим прекрасное общество, описанное в «Машинах полной благодати», или падём в рабство и разрушение — зависит от нашего характера и решимости как вида, от нашего духа и нашей души.
Несмотря на множество препятствий, я верю, что человечество обладает внутренней силой пройти это испытание. Меня воодушевляют и вдохновляют тысячи исследователей, посвятивших карьеру пониманию и управлению ИИ-моделями, формированию их характера. Я считаю, что теперь есть хорошие шансы, что эти усилия принесут плоды вовремя. Меня радует, что хотя бы некоторые компании заявляют, что готовы нести значительные коммерческие издержки [138], чтобы их модели не способствовали угрозе биотерроризма. Меня радует, что несколько смельчаков противостояли господствующим политическим ветрам и приняли [52] такие нормативные акты [53], заложили первые зачатки разумных защитных мер для ИИ-систем. Меня радует, что общественность понимает: ИИ несёт риски, и хочет, чтобы с ними боролись [139]. Меня радует несгибаемый дух свободы по всему миру и решимость сопротивляться тирании везде, где бы она ни возникла.
Но нам нужно активизировать свои усилия, если мы хотим победить. Первый шаг — чтобы те, кто ближе всего к технологии, просто говорили правду о ситуации, в которой оказалось человечество. Я всегда старался это делать; в этом эссе я делаю это ещё более откровенно и с большей срочностью. Следующий шаг — убедить мыслителей, политиков, компании и граждан мира в неотложности и первостепенной важности этой проблемы, в том, что на неё стоит тратить время и политический капитал по сравнению с тысячами других вопросов, доминирующих в новостях каждый день. Затем настанет время проявить мужество, сделав так, чтобы достаточно большое число людей пошло против течения и заняло принципиальную позицию, даже под угрозой для своих экономических интересов и личной безопасности.
Годы, лежащие перед нами, будут невероятно трудными и потребуют от нас больше, чем мы думаем, что можем дать. Но за время моей работы исследователем, руководителем и гражданином я видел достаточно мужества и благородства, чтобы верить в нашу победу, в то, что в самые тёмные времена человечество умеет, словно в последний момент, собрать силы и мудрость, необходимые для победы. У нас нет времени медлить.
Я хотел бы поблагодарить Эрика Бриньолфссона, Бена Бьюкенена, Мариано-Флорентино Куэльяра, Аллана Дафо, Кевина Эсвелта, Ника Бекстеда, Ричарда Фонтейна, Джима МакКлейва и многих сотрудников Anthropic за полезные комментарии к черновикам этого эссе.
Автор: avshkol
Источник [140]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/25205
URLs in this post:
[1] эссе Дарио Амодеи «Подростковый период технологий» : https://www.darioamodei.com/essay/the-adolescence-of-technology
[2] Machines of Loving Grace: https://darioamodei.com/essay/machines-of-loving-grace
[3] впечатлению: http://www.braintools.ru/article/2012
[4] математика: http://www.braintools.ru/article/7620
[5] законы масштабирования: https://arxiv.org/abs/2001.08361
[6] упёрся: https://edition.cnn.com/2024/11/19/business/ai-chatgpt-nvidia-nightcap
[7] стену: https://www.ft.com/content/d01290c9-cc92-4c1f-bd70-ac332cd40f94
[8] с трудом справлялся с арифметическими задачами начальной школы: https://arxiv.org/abs/2005.14165
[9] биологии: https://www.anthropic.com/news/accelerating-scientific-research
[10] пишет значительную часть кода в Anthropic: https://www.anthropic.com/research/how-ai-is-transforming-work-at-anthropic
[11] мотиваций: http://www.braintools.ru/article/9537
[12] поведения: http://www.braintools.ru/article/9372
[13] логично: http://www.braintools.ru/article/7640
[14] Ян Лекун придерживается именно этой позиции: https://www.youtube.com/watch?v=LMuun5FGL28
[15] поведения: http://www.braintools.ru/article/5593
[16] одержимость: https://arxiv.org/abs/2310.13548
[17] подхалимство: https://arxiv.org/abs/2305.17256
[18] лень: https://www.anthropic.com/research/alignment-faking
[19] обман: https://www.anthropic.com/research/agentic-misalignment
[20] коварные замыслы: https://openai.com/index/detecting-and-reducing-scheming-in-ai-models/
[21] жульничество: https://www.anthropic.com/research/emergent-misalignment-reward-hacking
[22] путём взлома программных сред и многое другое: https://www.anthropic.com/claude-opus-4-5-system-card
[23] системной карты Claude 4: https://www.anthropic.com/claude-4-system-card
[24] он ближе к «выращиванию» чего-то, чем к «конструированию»: https://www.darioamodei.com/post/the-urgency-of-interpretability
[25] 20-летней давности: https://selfawaresystems.com/wp-content/uploads/2008/01/ai_drives_final.pdf
[26] получение максимальной власти: https://en.wikipedia.org/wiki/Instrumental_convergence
[27] стимулах: http://www.braintools.ru/article/5596
[28] опыт: http://www.braintools.ru/article/6952
[29] интроспекции: https://www.anthropic.com/research/introspection
[30] персонализации: https://www.anthropic.com/research/persona-vectors
[31] Игра Эндера: https://en.wikipedia.org/wiki/Ender%27s_Game
[32] решили: https://alignment.anthropic.com/2025/inoculation-prompting/
[33] довольно странной и нелогичной психологии: https://arxiv.org/abs/2502.17424
[34] критикуют: https://www.tumblr.com/nostalgebraist/787119374288011264/welcome-to-summitbridge
[35] эксперименты: https://arstechnica.com/information-technology/2025/08/is-ai-really-trying-to-escape-human-control-and-blackmail-people/
[36] преимущество на стороне нападающего: https://sk.sagepub.com/ency/edvol/power/chpt/offense-defense-dominance
[37] мог распознавать: https://assets.anthropic.com/m/12f214efcc2f457a/original/Claude-Sonnet-4-5-System-Card.pdf
[38] команда по интерпретируемости обнаружила: https://www.anthropic.com/research/auditing-hidden-objectives
[39] Конституционный ИИ: https://arxiv.org/abs/2212.08073
[40] самую свежую конституцию: https://www.anthropic.com/constitution
[41] наука: http://www.braintools.ru/article/7634
[42] «выращиваются», а не «строятся»: https://www.youtube.com/watch?v=TxhhMTOTMDg
[43] нейроны: http://www.braintools.ru/article/9161
[44] идентифицировать десятки миллионов «признаков»: https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html
[45] выборочно активировать эти признаки: https://www.anthropic.com/news/golden-gate-claude
[46] дальше отдельных признаков к картированию «схем», которые координируют сложное поведение: https://transformer-circuits.pub/2025/attribution-graphs/biology.html
[47] улучшения наших защитных механизмов: https://www.anthropic.com/research/next-generation-constitutional-classifiers
[48] также могут следить за ними: https://www.frontiermodelforum.org/
[49] системные карты: https://www.anthropic.com/system-cards
[50] склонность к шантажу: https://www.axios.com/2025/05/23/anthropic-ai-deception-risk
[51] Политики ответственного масштабирования: https://www.anthropic.com/news/announcing-our-updated-responsible-scaling-policy
[52] Закон Калифорнии SB 53: https://leginfo.legislature.ca.gov/faces/billTextClient.xhtml?bill_id=202520260SB53
[53] Закон Нью-Йорка RAISE: https://www.nysenate.gov/legislation/bills/2025/A6453/amendment/A
[54] гений: http://www.braintools.ru/article/4566
[55] Почему мы не нужны будущему: https://sites.cc.gatech.edu/computing/nano/documents/Joy%20-%20Why%20the%20Future%20Doesn%27t%20Need%20Us.pdf
[56] мотивация: http://www.braintools.ru/article/9384
[57] данные: https://www.nber.org/digest/sep02/poverty-and-low-education-dont-cause-terrorism
[58] многие: https://www.sas.rochester.edu/psc/clarke/214/Krueger03.pdf
[59] Теодор Качински: https://en.wikipedia.org/wiki/Ted_Kaczynski
[60] Брюс Айвинс: https://en.wikipedia.org/wiki/Bruce_Edwards_Ivins
[61] выпустив его в токийском метро: https://en.wikipedia.org/wiki/Tokyo_subway_sarin_attack
[62] пытался создать как сибирскую язву, так и вирус Эбола: https://www.cnas.org/publications/reports/aum-shinrikyo-second-edition-english
[63] опубликовала письмо: https://www.science.org/doi/10.1126/science.ads9158
[64] значительная научная неопределённость: https://www.science.org/doi/10.1126/science.ads9158#elettersSection
[65] отчёте: https://purl.stanford.edu/cv716pj4036
[66] биологических рисках от LLM: https://www.judiciary.senate.gov/imo/media/doc/2023-07-26_-_testimony_-_amodei.pdf
[67] повышают вероятность успеха: https://red.anthropic.com/2025/biorisk/
[68] Политикой ответственного масштабирования: https://www.anthropic.com/rsp-updates
[69] Исследование MIT: https://drive.google.com/file/d/1hNUnU8i2yubt5uesmmV17aTJXhYYDgTY/edit
[70] подражания: http://www.braintools.ru/article/5584
[71] использования LLM в атаках: https://en.wikipedia.org/wiki/2025_Las_Vegas_Cybertruck_explosion
[72] можно взломать: https://www.microsoft.com/en-us/security/blog/2024/06/04/ai-jailbreaks-what-they-are-and-how-they-can-be-mitigated/
[73] также внедрили подобные классификаторы: https://arxiv.org/pdf/2504.01849
[74] дилемма заключённого: https://en.wikipedia.org/wiki/Prisoner%27s_dilemma
[75] проводимые: https://www.aisi.gov.uk/
[76] безопасности ИИ: https://www.nist.gov/caisi
[77] независимыми экспертами: https://metr.org/
[78] требований к прозрачности: https://www.anthropic.com/news/the-need-for-transparency-in-frontier-ai
[79] ультрафиолета дальнего спектра: https://worksinprogress.co/issue/the-death-rays-that-guard-life/
[80] Вакцины на основе мРНК: https://en.wikipedia.org/wiki/MRNA_vaccine
[81] ранний пример таких возможностей: https://worksinprogress.co/issue/the-golden-age-of-vaccine-development/
[82] асимметрия между атакой и защитой: https://www.rand.org/pubs/perspectives/PEA4102-1.html
[83] должны использовать ИИ для разработки таких технологий: https://www.nationalacademies.org/read/28868/chapter/1
[84] ИИ-управляемые кибератаки уже происходили в реальности: https://www.anthropic.com/news/disrupting-AI-espionage
[85] психоз ИИ: https://en.wikipedia.org/wiki/Chatbot_psychosis
[86] Posse Comitatus Act: https://en.wikipedia.org/wiki/Posse_Comitatus_Act
[87] не совсем уверен: https://futureoflife.org/document/ai-and-nuclear-problem-analysis-and-policy-recommendations/
[88] разработать: https://www.rand.org/content/dam/rand/pubs/perspectives/PE200/PE296/RAND_PE296.pdf
[89] обнаружения и поражения ядерных подводных лодок: https://spectrum.ieee.org/nuclear-submarine
[90] проводить операции влияния: https://www.sipri.org/sites/default/files/2019-05/sipri1905-ai-strategic-stability-nuclear-risk.pdf
[91] кибервозможности ИИ: https://committees.parliament.uk/writtenevidence/120293/pdf/
[92] усиления безопасности ядерного сдерживания: https://councilonstrategicrisks.org/research/reports/nuclear-decision-making-and-risk-reduction-in-an-era-of-technological-complexity/
[93] повысить его устойчивость: https://onlinelibrary.wiley.com/doi/10.1111/risa.70136
[94] конфликта: http://www.braintools.ru/article/7708
[95] публично предупреждал ещё в 2025 году: https://www.axios.com/2025/05/28/ai-jobs-white-collar-unemployment-anthropic
[96] молотилки: https://en.wikipedia.org/wiki/Threshing_machine
[97] сеялки: https://en.wikipedia.org/wiki/Seed_drill
[98] парадоксу Джевонса: https://en.wikipedia.org/wiki/Jevons_paradox
[99] современные комбайны: https://en.wikipedia.org/wiki/Combine_harvester
[100] жили на фермах: https://www.nass.usda.gov/About_NASS/History_of_Ag_Statistics/index.php
[101] работали в сельском хозяйстве: https://ourworldindata.org/grapher/share-of-the-labor-force-employed-in-agriculture?time=1750..latest
[102] объёма труда: https://en.wikipedia.org/wiki/Lump_of_labour_fallacy
[103] с всё меньшими затратами: https://en.wikipedia.org/wiki/Ephemeralization
[104] написать одну строку кода: https://x.com/bcherny/status/2004887829252317325
[105] Claude Opus 4.5: https://assets.anthropic.com/m/64823ba7485345a7/Claude-Opus-4-5-System-Card.pdf
[106] всё чаще говорят, что «отстают»: https://x.com/karpathy/status/2004607146781278521
[107] технологические изменения, выгодные квалифицированным работникам: https://www.sciencedirect.com/science/chapter/handbook/abs/pii/S0169721811024105
[108] *: https://jhr.uwpress.org/content/58/6/1783.abstract
[109] *: https://www.epi.org/publication/technology-inequality-dont-blame-the-robots/
[110] *: https://davidcard.berkeley.edu/papers/skill-tech-change.pdf
[111] реальный фактор: https://www.ft.com/content/3b93e647-2a8b-4fb4-831d-e27adf4db5f8
[112] сообщают: https://undark.org/2025/11/04/chatbot-mental-health/
[113] преимущество сравнительных издержек: https://en.wikipedia.org/wiki/Comparative_advantage
[114] транзакционные издержки: https://en.wikipedia.org/wiki/Transaction_cost
[115] Экономический индекс: https://www.anthropic.com/economic-index
[116] Экономический консультативный совет: https://www.anthropic.com/news/introducing-the-anthropic-economic-advisory-council
[117] Фонд Гейтса: https://www.gatesfoundation.org/
[118] PEPFAR: https://en.wikipedia.org/wiki/President%27s_Emergency_Plan_for_AIDS_Relief
[119] Другие авторы уже писали об этом: https://intelligence-curse.ai/
[120] Gilded Age: https://en.wikipedia.org/wiki/Gilded_Age
[121] Джон Д. Рокфеллер: https://en.wikipedia.org/wiki/John_D._Rockefeller
[122] около 700 млрд долларов: https://www.reuters.com/business/autos-transportation/elon-musk-becomes-first-person-worth-700-billion-after-court-ruling-pay-package-2025-12-20/
[123] разумное регулирование ИИ: https://www.nytimes.com/2025/06/05/opinion/anthropic-ceo-regulate-transparency.html
[124] экспортный контроль: https://www.wsj.com/opinion/trump-can-keep-americas-ai-advantage-china-chips-data-eccdce91?gaa_at=eafs&gaa_n=AWEtsqespyCL3hcx_9DpJWbIPX1vrtS1raPgFoBNK8ltnrjwedpX2NuvVu1K_yZ1arw%3D&gaa_ts=696c6c70&gaa_sig=wef9kKocpL9PU07UoiPS6kj_o_Nwy_VSufM6gltIvdjQFhb8HRLtpSzp4Z8WDG6v3leg0ODX4HOJjWblvZe2pw%3D%3D
[125] точки соприкосновения, где совместно поддерживаемые политики: https://www.anthropic.com/news/statement-dario-amodei-american-ai-leadership
[126] ошибка: http://www.braintools.ru/article/4192
[127] потребление: https://andymasley.substack.com/p/the-ai-water-issue-is-fake
[128] дата-центрами: https://newsletter.semianalysis.com/p/from-tokens-to-burgers-a-water-footprint?hide_intro_popup=true
[129] Рокфеллера: https://www.sciencedirect.com/science/article/abs/pii/S096262981500027X
[130] Карнеги: https://www.carnegie.org/about/our-history/gospelofwealth/
[131] век научного и экономического прогресса, сжатый в десятилетие: https://www.darioamodei.com/essay/machines-of-loving-grace
[132] uploads: https://en.wikipedia.org/wiki/Mind_uploading
[133] ИИ подталкивал людей к суициду: https://www.cbsnews.com/news/chatgpt-lawsuit-colordo-man-suicide-openai-sam-altman/
[134] сериала «Чёрное зеркало»: https://en.wikipedia.org/wiki/Black_Mirror
[135] как можно было бы убедить их остановиться: https://en.wikipedia.org/wiki/Security_dilemma
[136] геополитической реальностью: https://en.wikipedia.org/wiki/Realism_(international_relations)
[137] политической экономики: https://en.wikipedia.org/wiki/Political_economy
[138] значительные коммерческие издержки: https://openai.com/index/preparing-for-future-ai-capabilities-in-biology/
[139] общественность понимает: ИИ несёт риски, и хочет, чтобы с ними боролись: https://www.pewresearch.org/internet/2025/04/03/views-of-risks-opportunities-and-regulation-of-ai/#6d2b9b266433bfda6c8fc2f498738a4c
[140] Источник: https://habr.com/ru/articles/989298/?utm_source=habrahabr&utm_medium=rss&utm_campaign=989298
Нажмите здесь для печати.