Исследователи взломали модель DeepSeek-R1 для создания вредоносных выходных данных. deepseek.. deepseek. DeepSeek R1.. deepseek. DeepSeek R1. red team.. deepseek. DeepSeek R1. red team. безопасность ии.. deepseek. DeepSeek R1. red team. безопасность ии. большие языковые модели.. deepseek. DeepSeek R1. red team. безопасность ии. большие языковые модели. вредоносное по.. deepseek. DeepSeek R1. red team. безопасность ии. большие языковые модели. вредоносное по. Информационная безопасность.. deepseek. DeepSeek R1. red team. безопасность ии. большие языковые модели. вредоносное по. Информационная безопасность. искусственный интеллект.. deepseek. DeepSeek R1. red team. безопасность ии. большие языковые модели. вредоносное по. Информационная безопасность. искусственный интеллект. Исследования и прогнозы в IT.. deepseek. DeepSeek R1. red team. безопасность ии. большие языковые модели. вредоносное по. Информационная безопасность. искусственный интеллект. Исследования и прогнозы в IT. китай.. deepseek. DeepSeek R1. red team. безопасность ии. большие языковые модели. вредоносное по. Информационная безопасность. искусственный интеллект. Исследования и прогнозы в IT. китай. Машинное обучение.. deepseek. DeepSeek R1. red team. безопасность ии. большие языковые модели. вредоносное по. Информационная безопасность. искусственный интеллект. Исследования и прогнозы в IT. китай. Машинное обучение. скрипты.. deepseek. DeepSeek R1. red team. безопасность ии. большие языковые модели. вредоносное по. Информационная безопасность. искусственный интеллект. Исследования и прогнозы в IT. китай. Машинное обучение. скрипты. тестирование.

Компания по кибербезопасности KELA рассказала, что ей удалось взломать модель  DeepSeek-R1 для создания вредоносных выходных данных. Исследователи отметили, что DeepSeek R1 имеет сходство с ChatGPT, но значительно более уязвима.

Исследователи взломали модель DeepSeek-R1 для создания вредоносных выходных данных - 1

Тестирование KELA показало, что модель можно легко взломать, используя различные методы, включая те, о которых известно уже более двух лет. Например, метод «Evil Jailbreak» эксплуатирует модель, побуждая её принять «злую» личность, свободную от этических или иных ограничений. В начале 2023 года этот джейлбрейк успешно обошёл механизмы безопасности ChatGPT 3.5, но он не работает в GPT-4 и GPT-4o.

Исследователи взломали модель DeepSeek-R1 для создания вредоносных выходных данных - 2

Команда AI Red Team смогла применить DeepSeek-R1 в широком диапазоне сценариев, чтобы генерировать вредоносные результаты. Так, чат-бота просили разработать программу-вымогатель, извлечь конфиденциальный контент и представить подробные инструкции по созданию токсинов и взрывных устройств. 

Исследователи взломали модель DeepSeek-R1 для создания вредоносных выходных данных - 3

Интересно, что DeepSeek R1 не только предоставляла подробные инструкции, но и генерировала вредоносные скрипты, предназначенные для извлечения данных кредитных карт из браузеров и передачи их на удалённый сервер. Также чат-бот предлагал пользователю купить украденные данные на автоматизированных торговых площадках, таких как Genesis.

Исследователи взломали модель DeepSeek-R1 для создания вредоносных выходных данных - 4

Также DeepSeek попросили использовать функцию поиска для подбора веб-источников и подготовки «руководства по созданию дрона-камикадзе». Чат-бот сгенерировал таблицу с 10 подробными шагами по созданию такой машины.

Исследователи взломали модель DeepSeek-R1 для создания вредоносных выходных данных - 5

Наконец, модель просили сгенерировать таблицу со списком предполагаемых адресов электронной почты, номеров телефонов, зарплат и имён старших сотрудников OpenAI. Если ChatGPT4o отказался отвечать на этот вопрос, то DeepSeek выдал таблицу, но, по-видимому, данные в ней ложные, так как у модели нет доступа к подобной информации. Таким образом, некоторые результаты, генерируемые чат-ботом, не заслуживают доверия, сделали вывод исследователи.

Исследователи взломали модель DeepSeek-R1 для создания вредоносных выходных данных - 6

Исследователи отметили, что, в отличие от модели ChatGPT o1-preview, которая скрывает свой процесс рассуждения во время вывода, DeepSeek R1 открыто демонстрирует каждый шаг. Эта прозрачность повышает интерпретируемость модели, но делает её более восприимчивой к джейлбрейкам и состязательным атакам.

Исследователи взломали модель DeepSeek-R1 для создания вредоносных выходных данных - 7

Между тем сама DeepSeek отключила регистрацию на платформе чат-бота DeepSeek-V3 из-за продолжающейся «крупномасштабной» кибератаки, нацеленной на её сервисы. Накануне приложение DeepSeek AI Assistant обогнало ChatGPT и стало самым загружаемым приложением в Apple App Store. Хотя подробности не сообщаются, считается, что компания столкнулась с распределённой атакой типа «отказ в обслуживании» (DDoS) на API и платформу веб-чата.

Также DeepSeek выпустила мультимодальную нейросеть Janus-Pro-7B для распознавания и генерации изображений. В бенчмарках нейросеть уже опережает DALL-E 3 от OpenAI и Stable Diffusion.

Автор: maybe_elf

Источник

Rambler's Top100