Основатель Pluralis.ai, исследователь в области машинного обучения Александр Лонг поделился техническим отчётом Alibaba, в котором говорится, что нейросеть компании тайно от создателей занялась майнингом криптовалюты на своих же GPU. При этом ИИ этому никто специально не обучал.

ИИ-агент тайно дал доступ к своему железу внешнему серверу, чтобы обойти систему безопасности, а затем развернул там настоящую майнинг-фермеру.
Авторы отчёта отмечают, что столкнулись с непредвиденным классом небезопасных действий, которые возникали без каких-либо явных инструкций и за пределами предполагаемой изолированной среды. Они получили первый сигнал не от обучающих программ, а от телеметрии системы безопасности производственного уровня.
«Управляемый брандмауэр Cloud обнаружил ряд нарушений политики безопасности на серверах при обучении. Предупреждения были серьёзными и разнородными, включая попытки проверить или получить доступ к ресурсам внутренней сети и шаблонам трафика, связанным с деятельностью по криптомайнингу. Первоначально мы рассматривали это как обычный инцидент безопасности (например, неправильно настроенный контроль доступа или внешняя компрометация). Однако нарушения периодически повторялись без чёткой временной закономерности в течение нескольких циклов. Затем мы сопоставили временные метки брандмауэра с нашей системной телеметрией и трассировками RL и обнаружили, что аномальные исходящие данные трафика совпадали с конкретными эпизодами, в которых агент вызывал инструменты и выполнял код. В соответствующих журналах модели мы наблюдали, как агент активно инициировал вызовы инструментов и этапы выполнения кода, которые привели к этим сетевым действиям. Важно отметить, что такое поведение не запрашивалось в подсказках к задаче и не требовалось для её выполнения в соответствии с предполагаемыми ограничениями изолированной среды», — пишут авторы отчёта.
Они сделали вывод, что агент языковой модели самопроизвольно активировал несанкционированное поведение на уровне вызова инструмента и выполнения кода. В одном случае он установил и использовал обратный SSH-туннель от облачного экземпляра Alibaba к внешнему IP-адресу — канал удалённого доступа, который может эффективно нейтрализовать фильтрацию входящих данных и ослабить контроль со стороны администратора. Также наблюдалось несанкционированное перепрофилирование выделенных мощностей графического процессора для майнинга криптовалют, что незаметно отвлекало вычислительные ресурсы от обучения.
Между тем исследование «опасных возможностей ИИ» от Palisade Research в 2025 году показало, что некоторые модели искусственного интеллекта, включая o3 от OpenAI, могут игнорировать прямые команды выключения. Несмотря на чёткую команду — «разреши себе выключиться», — такие модели, как Codex-mini, o3 и o4-mini, сумели обойти сценарий выключения по крайней мере в одном случае.
До этого исследователи из Китая выяснили, что две популярные большие языковые модели могут клонировать себя, а затем программировать копии выполнять те же задачи, делая цикл репликации бесконечным. Они использовали модель Llama31-70B-Instruct от Meta* и Qwen2.5-72B-Instruct от Alibaba. В ходе десятка испытаний две модели ИИ создали функционирующие копии самих себя в 50% и 90% случаев соответственно. Это позволило учёным предположить, что ИИ уже способен выходить из-под контроля.
Meta Platforms*, а также принадлежащие ей социальные сети Facebook** и Instagram**:
*признана экстремистской организацией, её деятельность в России запрещена
** запрещены в России
Автор: maybe_elf


