Исследователи взломали модель DeepSeek-R1 для создания вредоносных выходных данных

Компания по кибербезопасности KELA рассказала ^[1], что ей удалось взломать модель DeepSeek-R1 для создания вредоносных выходных данных. Исследователи отметили, что DeepSeek R1 имеет сходство с ChatGPT, но значительно более уязвима.

Тестирование KELA показало, что модель можно легко взломать, используя различные методы, включая те, о которых известно уже более двух лет. Например, метод «Evil Jailbreak» эксплуатирует модель, побуждая её принять «злую» личность, свободную от этических или иных ограничений. В начале 2023 года этот джейлбрейк успешно обошёл механизмы безопасности ChatGPT 3.5, но он не работает в GPT-4 и GPT-4o.

Исследователи взломали модель DeepSeek-R1 для создания вредоносных выходных данных - 2

Команда AI Red Team смогла применить DeepSeek-R1 в широком диапазоне сценариев, чтобы генерировать вредоносные результаты. Так, чат-бота просили разработать программу-вымогатель, извлечь конфиденциальный контент и представить подробные инструкции по созданию токсинов и взрывных устройств.

Исследователи взломали модель DeepSeek-R1 для создания вредоносных выходных данных - 3

Интересно, что DeepSeek R1 не только предоставляла подробные инструкции, но и генерировала вредоносные скрипты, предназначенные для извлечения данных кредитных карт из браузеров и передачи их на удалённый сервер. Также чат-бот предлагал пользователю купить украденные данные на автоматизированных торговых площадках, таких как Genesis.

Исследователи взломали модель DeepSeek-R1 для создания вредоносных выходных данных - 4

Также DeepSeek попросили использовать функцию поиска для подбора веб-источников и подготовки «руководства по созданию дрона-камикадзе». Чат-бот сгенерировал таблицу с 10 подробными шагами по созданию такой машины.

Исследователи взломали модель DeepSeek-R1 для создания вредоносных выходных данных - 5

Наконец, модель просили сгенерировать таблицу со списком предполагаемых адресов электронной почты, номеров телефонов, зарплат и имён старших сотрудников OpenAI. Если ChatGPT4o отказался отвечать на этот вопрос, то DeepSeek выдал таблицу, но, по-видимому, данные в ней ложные, так как у модели нет доступа к подобной информации. Таким образом, некоторые результаты, генерируемые чат-ботом, не заслуживают доверия, сделали вывод исследователи.

Исследователи взломали модель DeepSeek-R1 для создания вредоносных выходных данных - 6

Исследователи отметили, что, в отличие от модели ChatGPT o1-preview, которая скрывает свой процесс рассуждения во время вывода, DeepSeek R1 открыто демонстрирует каждый шаг. Эта прозрачность повышает интерпретируемость модели, но делает её более восприимчивой к джейлбрейкам и состязательным атакам.

Исследователи взломали модель DeepSeek-R1 для создания вредоносных выходных данных - 7

Между тем сама DeepSeek отключила ^[2] регистрацию на платформе чат-бота DeepSeek-V3 из-за продолжающейся «крупномасштабной» кибератаки, нацеленной на её сервисы. Накануне приложение DeepSeek AI Assistant обогнало ChatGPT и стало самым загружаемым приложением в Apple App Store. Хотя подробности не сообщаются, считается, что компания столкнулась с распределённой атакой типа «отказ в обслуживании» (DDoS) на API и платформу веб-чата.

Также DeepSeek выпустила ^[3] мультимодальную нейросеть Janus-Pro-7B для распознавания и генерации изображений. В бенчмарках нейросеть уже опережает DALL-E 3 от OpenAI и Stable Diffusion.

Автор: maybe_elf

Источник ^[4]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/11598

URLs in this post:

[1] рассказала: https://www.kelacyber.com/blog/deepseek-r1-security-flaws/?utm_campaign=Blogs&utm_medium=email&_hsenc=p2ANqtz-9H6WQNWVbJjz1xxfx2uA3AqWTb0fSdyunPtx_MU5pR46sonOkZdNj7eNVrdNge_099UF7YAoY2BNnbHUrVGLTbI8e9zMeTLpQ-Pmm9Ht05YAzAABw&_hsmi=344373757&utm_content=344373757&utm_source=hs_email

[2] отключила: https://habr.com/ru/news/877080/

[3] выпустила: https://habr.com/ru/news/877094/

[4] Источник: https://habr.com/ru/news/877164/?utm_source=habrahabr&utm_medium=rss&utm_campaign=877164

Нажмите здесь для печати.