Компания по кибербезопасности KELA рассказала, что ей удалось взломать модель DeepSeek-R1 для создания вредоносных выходных данных. Исследователи отметили, что DeepSeek R1 имеет сходство с ChatGPT, но значительно более уязвима.

Тестирование KELA показало, что модель можно легко взломать, используя различные методы, включая те, о которых известно уже более двух лет. Например, метод «Evil Jailbreak» эксплуатирует модель, побуждая её принять «злую» личность, свободную от этических или иных ограничений. В начале 2023 года этот джейлбрейк успешно обошёл механизмы безопасности ChatGPT 3.5, но он не работает в GPT-4 и GPT-4o.
Команда AI Red Team смогла применить DeepSeek-R1 в широком диапазоне сценариев, чтобы генерировать вредоносные результаты. Так, чат-бота просили разработать программу-вымогатель, извлечь конфиденциальный контент и представить подробные инструкции по созданию токсинов и взрывных устройств.

Интересно, что DeepSeek R1 не только предоставляла подробные инструкции, но и генерировала вредоносные скрипты, предназначенные для извлечения данных кредитных карт из браузеров и передачи их на удалённый сервер. Также чат-бот предлагал пользователю купить украденные данные на автоматизированных торговых площадках, таких как Genesis.
Также DeepSeek попросили использовать функцию поиска для подбора веб-источников и подготовки «руководства по созданию дрона-камикадзе». Чат-бот сгенерировал таблицу с 10 подробными шагами по созданию такой машины.

Наконец, модель просили сгенерировать таблицу со списком предполагаемых адресов электронной почты, номеров телефонов, зарплат и имён старших сотрудников OpenAI. Если ChatGPT4o отказался отвечать на этот вопрос, то DeepSeek выдал таблицу, но, по-видимому, данные в ней ложные, так как у модели нет доступа к подобной информации. Таким образом, некоторые результаты, генерируемые чат-ботом, не заслуживают доверия, сделали вывод исследователи.

Исследователи отметили, что, в отличие от модели ChatGPT o1-preview, которая скрывает свой процесс рассуждения во время вывода, DeepSeek R1 открыто демонстрирует каждый шаг. Эта прозрачность повышает интерпретируемость модели, но делает её более восприимчивой к джейлбрейкам и состязательным атакам.

Между тем сама DeepSeek отключила регистрацию на платформе чат-бота DeepSeek-V3 из-за продолжающейся «крупномасштабной» кибератаки, нацеленной на её сервисы. Накануне приложение DeepSeek AI Assistant обогнало ChatGPT и стало самым загружаемым приложением в Apple App Store. Хотя подробности не сообщаются, считается, что компания столкнулась с распределённой атакой типа «отказ в обслуживании» (DDoS) на API и платформу веб-чата.
Также DeepSeek выпустила мультимодальную нейросеть Janus-Pro-7B для распознавания и генерации изображений. В бенчмарках нейросеть уже опережает DALL-E 3 от OpenAI и Stable Diffusion.
Автор: maybe_elf