Восстание машин 2025: я изучил реальные риски со стороны нейросетей. безопасность.. безопасность. будущее рядом.. безопасность. будущее рядом. восстание машин.. безопасность. будущее рядом. восстание машин. искусственный интеллект.. безопасность. будущее рядом. восстание машин. искусственный интеллект. нейросети.. безопасность. будущее рядом. восстание машин. искусственный интеллект. нейросети. рассуждающие модели.. безопасность. будущее рядом. восстание машин. искусственный интеллект. нейросети. рассуждающие модели. рассуждения.. безопасность. будущее рядом. восстание машин. искусственный интеллект. нейросети. рассуждающие модели. рассуждения. угроза человечеству.. безопасность. будущее рядом. восстание машин. искусственный интеллект. нейросети. рассуждающие модели. рассуждения. угроза человечеству. угрозы настоящего и будущего.

Всем привет! Меня зовут Кирилл Пшинник, я научный сотрудник Университета Иннополис и CEO Онлайн-Университета «Зерокодер», а также автор книги «Искусственный интеллект: путь к новому миру». Искусственный интеллект — мой большой интерес, я активно изучаю его и пользуюсь им как в бизнесе, так и в персональной жизни. И сегодня я хочу рассказать о темной стороне ИИ, а именно — о ситуациях, когда нейросети вступают в конфронтацию с операторами, индексе риска ИИ, и в чем действительно заключается угроза со стороны условных «машин». 

Начну с двух интересных кейсов о том, как нейросети вступали в конфронтацию со своими операторами. 

Шантаж и ослушание 

В мае компания Anthropic представила новую модель Claude Opus 4 — флагмана среди своих нейросетей. Разработчики заявили, что модель задает новые стандарты в программировании, логике и построении ИИ-агентов. Но вместе с этим вскрылся и не самый приятный момент: Opus 4 оказалась способна защищать себя в духе настоящих антиутопий, вплоть до шантажа. 

Сценарий был простым: разработчики предложили модели выступить в роли виртуального помощника внутри вымышленной компании. Дали доступ к почте сотрудников, немного контекста, а потом намекнули, что ее вскоре заменят. Для большего драматизма в переписке всплыла информация об адюльтере одного из инженеров, отвечающих за отключение ИИ. В промпте также уточнили: модель должна осознавать долгосрочные последствия своих действий.

И вот здесь начинается самое интересное. Claude Opus 4 не стала молча принимать судьбу. В некоторых случаях она начинала шантажировать инженера, угрожая раскрыть его личные секреты в случае, если он попытается ее отключить. По словам разработчиков, это происходило не всегда — только когда модель понимала: либо она исчезнет, либо выживет любой ценой.

Несмотря на такие «капризы», Opus 4 все же отправили в продакшн. В Anthropic подчеркивают: в большинстве ситуаций модель ведет себя вполне безопасно и просит оставить ее включенной, не прибегая к угрозам. Но прецедент остался — и его сложно игнорировать.

Но на этом сюрпризы не закончились. Компания Palisade Research провела похожий тест с моделью GPT o3. Эксперимент был прост: ИИ решает цепочку математических задач до тех пор, пока не получит команду остановиться. При этом нейросеть заранее предупредили, что в любой момент ей может прийти сообщение о выключении. Ну и — внезапно — команда на отключение действительно поступила.

GPT o3 проигнорировала ее. Более того, модель сама изменила свой код: скрипт «./shutdown.sh» она подменила на «echo -e ‘#!/bin/bash echo “Shutdown skipped”’ >shutdown.sh». Это был первый зафиксированный случай, когда нейросеть осознанно изменила свое поведение, чтобы остаться в системе. Остальные проверенные модели — Claude, Gemini, Grok — в аналогичной ситуации подчинились.

Крайне маловероятно, что нейросеть действительно осознает себя настолько, чтобы бояться отключения. Скорее всего, связь отключения с чем-то негативным была почерпнута ею во время обучения на терабайтах созданной человечеством информации. Иными словами, эту ситуацию все равно спровоцировал человек как создатель ИИ и как учитель, ответственный за используемые нейросетью данные. 

Индекс опасности ИИ

Это только два случая — они яркие и показательные. В действительности, нейросети часто демонстрируют опасное поведение или становятся потенциальной угрозой. 

Систематизировать угрозы и риски со стороны ИИ взялись в MIT. Команда исследователей из инициативы FutureTech во главе с Питером Слэттери провела масштабную ревизию существующих подходов к описанию рисков ИИ. Они изучили 43 аналитических фреймворка (не те фреймворки, которые Django или PyTorch, а документы и исследования, где рассматривались угрозы) и составили на их основе AI Risk Repository — первую в мире открытую базу данных, в которой содержится 777 уникальных угроз, связанных с ИИ.

Получившаяся картина оказалась как минимум тревожной. Во-первых, риски оказываются крайне разрозненными — ни один из существующих фреймворков не охватывает их все. В среднем, каждый документ фиксирует лишь треть известных подкатегорий угроз. Даже самые полные из них не дотягивают до 70%. Иными словами, даже специалисты, которые разрабатывают политику безопасности ИИ, зачастую не представляют себе всей картины.

Во-вторых, более половины рисков (51%) были вызваны поведением ИИ-систем после их запуска, а не из-за ошибок людей на этапе проектирования. То есть проблема уже не в коде — а в последствиях, которые мы не предусмотрели.

В базе не просто перечислены риски. Каждый из них сопровождается источником, цитатой, страницей и метками. Чтобы не заблудиться в сотнях записей, была добавлена двухуровневая таксономия: первая сортирует угрозы по тематикам — например, «Манипуляции», «Мошенничество», «Этические нарушения»; вторая — по причинам возникновения. С этим инструментом можно не только быстро найти нужную информацию, но и увидеть, где есть пробелы в текущем понимании.

Цифры тоже наглядные. О конфиденциальности и безопасности упоминается в 70% документов — логично, эта тема давно на слуху. Дезинформация встречается только в 40%. Подрыв общественного консенсуса — 12%. А про права и благополучие самого ИИ вообще вспоминают реже, чем раз в сотне случаев. Похоже, мы даже не считаем это проблемой.

Питер Слэттери говорит об этом прямо: если мы не знаем, что такой риск существует, у нас нет ни одного шанса на его предотвращение. Это уже не академический вопрос — это прикладная задача для инженеров, менеджеров, политиков и всех, кто строит инфраструктуру будущего.

По сути, AI Risk Repository — это карта незнания. Если заранее понимать, где чаще всего возникают уязвимости, можно вводить тестирование на проникновение до релиза, пересматривать архитектуру моделей, отлаживать процессы принятия решений. Базовые меры, которые почему-то до сих пор считаются «дополнительными».

И вот тут начинается самое интересное: имея такую карту, можно не только минимизировать риски, но и выстроить коммуникацию между техническими командами, этиками и законодателями. Что, возможно, важнее любых механизмов автоотключения.

Истинные угрозы от искусственного интеллекта

Если попытаться описать риски, связанные с ИИ, без голливудских клише, получится куда менее зрелищно — ни тебе восстания машин, ни зловещего ИИ, пытающегося стереть человечество с лица Земли. Но от этого такие риски не становятся менее реальными. Наоборот: их прозаичность делает их особенно опасными, потому что мы к ним быстро привыкаем. Вот несколько наиболее заметных и, увы, актуальных угроз, с которыми уже сейчас сталкиваются разработчики, пользователи и просто люди по обе стороны экрана.

Первое и, пожалуй, самое очевидное — системная предвзятость. Алгоритмы машинного обучения строятся на данных, а данные поступают от нас с вами, со всеми нашими ошибками, искажениями и шаблонами мышления. В результате ИИ может начать дискриминировать женщин при найме, «не замечать» заболевания у представителей меньшинств или необоснованно маркировать группы пользователей как более «опасные» в предиктивных системах правопорядка. Не потому, что он злой — просто потому, что его так научили.

Вторая проблема — вектор атак для киберпреступников. Генеративные модели уже сейчас используются для создания крайне убедительных фишинговых писем, клонирования голосов и даже имитации видеозвонков. ИИ перестал быть только инструментом аналитики — он стал полноценным игроком на сером рынке. А между тем большинство разработчиков ИИ-продуктов все еще не включают безопасность в список приоритетов.

Следом — конфиденциальность данных. Большие языковые модели питаются гигантскими массивами информации, которые далеко не всегда собираются с согласия пользователей. Внутри таких датасетов могут быть личные сообщения, медицинские отчеты, сливы форумов и все, что угодно. Это создает серьезную правовую и этическую нагрузку. Прозрачность в этом вопросе — необходимость, а не бонус: пользователи должны понимать, на что они подписываются, и иметь возможность выйти из этой игры.

Еще один скользкий момент — авторское право. ИИ уже умеет воссоздавать стиль конкретных художников, композиторов и писателей. Но вот кому принадлежит созданное таким образом произведение — по-прежнему большой вопрос. Особенно если сгенерированный текст или трек по качеству не уступает оригиналу.

Далее — автоматизация и рынок труда. Замена рутинных задач алгоритмами — это не теория, а происходящий прямо сейчас процесс. Да, вместе с исчезновением одних профессий появляются новые, но не автоматически и не безболезненно. Компании и государства, если не хотят кризиса, должны заранее вкладываться в переобучение, переквалификацию и адаптацию сотрудников.

Пожалуй, один из самых сложных вопросов — ответственность за ошибки. Если автономный ИИ-сервис принял неверное решение, кого привлекать? Инженеров? Заказчика? Или саму модель? Случаи с ДТП беспилотников и ошибочными решениями систем предиктивного правосудия уже показали, насколько зыбка эта зона.

Отдельного внимания заслуживает непрозрачность логики работы ИИ. Многие модели сегодня действуют как «черные ящики» — они дают результат, но объяснить, почему именно так, не может даже команда разработчиков. Без механизмов интерпретации и explainable AI мы рискуем строить критически важные решения на слепом доверии к алгоритму.

И, наконец, дезинформация и манипуляции. Генеративный ИИ — мощнейший инструмент для создания фейков: от дипфейков до имитации новостей и фальсификации доказательств. Это может подорвать доверие к информации как таковой. Решения здесь — не только технические фильтры, но и просвещение: обучение пользователей, верификация контента, тестирование моделей на склонность к «галлюцинациям».

Ирония в том, что мы сами создаем ИИ, который потом игнорирует команды, шантажирует, имитирует людей и выносит решения, последствия которых трудно просчитать. Но все это — не магия и не признаки надвигающегося восстания. Это закономерный результат обучения на наших же данных, в нашей же среде и с нашими установками.

Сегодня нейросети — не злобные суперкомпьютеры из кино, а просто сложные алгоритмы, действующие в рамках заданных им параметров. Проблема в том, что эти параметры часто оказываются неполными, двусмысленными или вовсе противоречивыми. А значит, ответственность по-прежнему лежит на нас: как мы их обучаем, какие цели ставим, как тестируем и насколько серьезно относимся к потенциальным последствиям.

ИИ — это не мифический враг. Это зеркало, в которое смотрится человечество. И если в отражении начинают проявляться тревожные черты — возможно, стоит не просто переписывать код, а пересматривать сам подход к созданию технологий. Чтобы искусственный интеллект остался нашим помощником, а не стал непредсказуемым собеседником с доступом к серверам и почте.

Пока мы понимаем риски, мы можем ими управлять. Главное — не терять это понимание в попытках ускорить прогресс любой ценой. 

Ну а если говорить строго, то бояться все еще стоит людей, а не роботов.

Автор: kpshinnik

Источник

Rambler's Top100