Так ли страшен DeepSeek, как его малюет Cerebras?. cerebras systems.. cerebras systems. DeepSeek R1.. cerebras systems. DeepSeek R1. llm.. cerebras systems. DeepSeek R1. llm. Блог компании IDX.. cerebras systems. DeepSeek R1. llm. Блог компании IDX. ИИ.. cerebras systems. DeepSeek R1. llm. Блог компании IDX. ИИ. Информационная безопасность.. cerebras systems. DeepSeek R1. llm. Блог компании IDX. ИИ. Информационная безопасность. искусственный интеллект.

В последнее время две темы в новостях о новейших достижениях в области ИИ привлекали наибольшее внимание специалистов и досужей публики, которая желает все знать — китайский проект DeepSeek и производитель оборудования для ИИ американская компания Cerebras. Здесь, на Хабре своевременно появлялись публикации по обеим темам. Я сходил по некоторым ссылкам к первоисточникам, приведенным в этих публикациях для проверки фактов. Вы тоже можете это сделать, если захотите.

Для тех, кто не следил, напоминаю, что с успехами DeepSeek связывают недавнее обрушение фондового рынка Америки на триллион долларов, из которых шестьсот миллиардов пришлось на флагман в производстве оборудования для ИИ — компанию NVIDIA, поскольку сервис DeepSeek китайского базирования работает на платформе, не использующей NVIDIA. Мы еще не успели пережить крах Intel, а тут такое. Cerebras Systems тоже приходит к владельцам и управляющим NVIDIA в страшных снах, поскольку предлагают альтернативное GPU архитектурам решение для ИИ платформ, особенно облачных — компьютеры на кристалле по технологии wafer scale integration. Некоторые горячие головы называют Cerebras убийцей NVIDIA. Убийца или нет, но черный лебедь точно. А два черных лебедя — это тяжело даже для компании с капитализацией 2.89 триллиона долларов даже после последнего падения на 17.8% (с тех пор отпрыгнули опять за три триллиона).

И вот, последняя новость, два черных лебедя слились в объятьях — 30 января компания Cerebras объявила о том, что разместит на серверах, расположенных в США, китайскую модель ИИ DeepSeek R1 (оригинал публикации на сайте технологических новостей Venture Beat здесь, ее пересказ в блоге компании BotHub на Хабре — здесь). Я выделил жирным шрифтом те слова, которые, как мне кажется, отражают главный смысл этой новости. Чуть позже в той же публикации цитируются слова директора по маркетингу продуктов Cerebras Джеймса Ванга (James Wang), который в пересказе BotHub ошибочно называется старшим исполнительным директором. Так вот, этот Джеймс Ванг сказал в эксклюзивном интервью сайту Venture Beat буквально следующее: “Если вы используете API DeepSeek, который сейчас очень популярен, эти данные отправляются прямо в Китай” и это заявление меня слегка удивило своей неполиткорректностью и отсутствием доказательств. Впрочем, на мой взгляд, оно вполне в стиле внешней политики новой администрации США, которая того и гляди начнет торговую войну с Китаем.

Мы в компании IDX интересуемся всем, что связано с безопасностью данных, особенно персональных, поэтому я задумался, насколько обосновано такое утверждение. Думал, думал, и решил обратиться за помощью… к самой модели DeepSeek R1, тем более, что Cerebras уже открыл доступ к чату Cerebras Inference, в котором можно выбирать модель, с которой хочешь общаться — LLAMA 3.1 8B, LLAMA 3.3 70B или DeepSeek-R1-Distill-Llama-70B.

Вот что я спросил, что мне ответил DeepSeek, и что я думаю по поводу этих ответов.

Сначала я задал вопрос Deep Seek на платформе Cerebras на английском в нейтральной форме, просто потому что не сообразил, что уважающая себя LLM должна понимать русский язык.

There are fears that using API to AI inference platform may cause the leakage of the sensitive data. Are those fears justified? (Существуют опасения, что использование API к платформе логических рассуждений может привести к утечке чувствительных данных. Обоснованы ли эти опасения?).

В ответ я получил обширный трактат об угрозах утечки данных и способах их предотвращения, из которого понял, что вопрос был неточным, поскольку речь не идет о перехвате данных, содержащихся в запросах API, а только о возможностях платформы сохранять данные содержащиеся в запросах для дальнейшего использования в благовидных и неблаговидных целях.

Желающие посмотреть ответ целиком могут воспроизвести вопрос в интерфейсе Cerebras Inference по приведенной ранее ссылке.

После этого я перешел на русский и спросил в лоб:

Проверь достоверность утверждения представителя компании Cerebras Джеймса Ванга о том, что использование API DeepSeek приводит к утечке чувствительных данных в Китай”.

Вот ответ, из которого я вырезал вспомогательное бормотание движка, описывающее, как он понял вопрос (правильно понял) и как пришел к ответу (reasoning).

Утверждение Джеймса Ванга о том, что использование API DeepSeek приводит к утечке чувствительных данных в Китай, требует тщательной проверки. Вот основные шаги, которые необходимо предпринять для оценки достоверности этого утверждения:

1. Проверка источников информации:

   – Найти официальные заявления или публикации Cerebras, где Джеймс Ванг сделал это утверждение.

   – Изучить политику конфиденциальности и обработки данных DeepSeek.

2. Анализ технической стороны:

   – Изучить, как API DeepSeek взаимодействует с данными и есть ли возможные уязвимости.

   – Проконсультироваться с экспертами по кибербезопасности для анализа защищенности API.

3. Изучение предыдущих инцидентов:

   – Поискать информацию о предыдущих утечках данных, связанных с DeepSeek.

   – Проверить, есть ли у компании сертификаты безопасности данных (GDPR, CCPA и т.д.).

4. Рассмотрение мотивов:

   – Выяснить, есть ли у Cerebras конкуренция с DeepSeek, что может быть мотивом для дискредитации.

5. Оценка реакции DeepSeek:

   – Изучить, как DeepSeek отреагировала на обвинения: опровержения, доказательства, внутренние расследования.

6. Изучение законодательства:

   – Проверить, соответствует ли использование API DeepSeek законодательству о передаче данных через границы.

7. Репутация компании:

   – Оценить репутацию DeepSeek как надежного и безопасного провайдера.

8. Поиск независимых источников:

   – Найти независимые отчеты, исследования или статьи, которые подтверждают или опровергают обвинения.

Только после сбора и анализа всей этой информации можно сделать вывод о достоверности утверждения Джеймса Ванга.

Ну, что можно сказать об этом ответе — разумный, но в целом бесполезный. Я бы предпочел, чтобы модель сама выполнила для меня некоторые шаги своего рекомендательного перечня, по крайней мере, связанные с поисками информации о бизнес-практике Deep Seek и Cerebras. Либо у платформы пока нет открытого доступа к поиску в Интернете, либо он не подключается для бесплатной версии.

Чтобы исключить все, связанное с политикой, я задал еще один вопрос в общей форме:

В продолжение к предыдущему вопросу – в целом, с технологической точки зрения, насколько обосновано утверждение, что использование API к любой модели AI на любой платформе приводит к доступности данных, содержащихся в вызовах, для владельца платформы/модели?”.

В этом ответе я тоже опустил рассуждения, привожу только сам ответ.

С технологической точки зрения, обоснованность утверждения о том, что использование API любой модели AI на любой платформе приводит к доступности данных, содержащихся в вызовах, для владельца платформы/модели, зависит от нескольких ключевых факторов. Вот подробный анализ:

### 1. Архитектура API и обработка данных

   – Как работает API?  

     Обычно API принимает запросы от клиентов (например, текст, изображения, аудио и т.д.), обрабатывает их с помощью модели AI и возвращает результат.  

   – Сохранение данных:  

     Зависит от политики платформы. Некоторые платформы могут логировать запросы для улучшения модели, отладки или аналитики. Если данные сохраняются, владелец платформы может получить к ним доступ.  

   – Безопасность:  

     Если API не защищено должным образом (например, отсутствует шифрование или аутентификация), данные могут быть перехвачены третьими лицами.

### 2. Политика конфиденциальности платформы

   – Сбор данных:  

     Каждая платформа имеет свою политику конфиденциальности, которая определяет, какие данные собираются, как они хранятся и используются.  

   – Согласие пользователя:  

     Если пользователь согласился с политикой, платформа может использовать данные для своих целей, включая передачу третьим лицам.  

   – Законодательство:  

     В ЕС, например, GDPR обязывает компании透明но сообщать, как они обрабатывают данные. Однако в других юрисдикциях правила могут быть мягче.

### 3. Технические возможности доступа

   – Логирование запросов:  

     Многие платформы логгируют запросы для анализа и улучшения моделей. Эти логи могут содержать чувствительные данные.  

   – Доступ сотрудников:  

     В зависимости от внутренних политик платформы, сотрудники могут иметь доступ к этим данным.  

   – Шифрование:  

     Если данные передаются и хранятся в зашифрованном виде,风险 утечки снижается, но не исключается полностью.

### 4. Мотивы и практика платформы

   – Коммерческие интересы:  

     Некоторые платформы могут использовать данные для коммерческих целей, таких как обучение моделей илиargetированная реклама.  

   – Настройки приватности:  

     Некоторые платформы предоставляют возможность пользователям анонимизировать данные или запретить их сохранение.

### 5. Риски и уязвимости

   – Технические уязвимости:  

     Даже если платформа обещает конфиденциальность, уязвимости в коде или настройках могут привести к утечкам.  

   – Недостаточная аутентификация:  

     Если API не защищено должным образом, злоумышленники могут перехватить данные.  

   – Инсайдерская угроза:  

     Сотрудники платформы могут злоупотребить доступом к данным.

### 6. Примеры и реальные кейсы

   – Существуют известные кейсы, когда данные пользователей, переданные через API, были скомпрометированы или использованы не по назначению.  

   – Однако также существуют примеры платформ, которые严格 соблюдают конфиденциальность и не допускают доступа к данным без разрешения.

### Заключение

Утверждение о том, что использование API любой модели AI приводит к доступности данных для владельца платформы/модели, частично обосновано, но не является абсолютным.  

Обоснованность:  

  Если платформа сохраняет запросы и данные, владелец действительно может получить к ним доступ.  

Ограничения:  

  Многие платформы предоставляют гарантии конфиденциальности, используют шифрование и соблюдают законодательство.  

Рекомендации:  

  Чтобы минимизировать риски, важно:  

  1. Изучать политику конфиденциальности платформы.  

  2. Проверять, какие данные передаются через API.  

  3. Использовать дополнительные меры защиты, такие как анонимизация или шифрование данных на стороне клиента.  

Таким образом, утверждение верно только в том случае, если платформа не соблюдает стандарты конфиденциальности и безопасности.

Ну, в целом вполне разумный ответ, который может служить инструкцией для написания студенческой курсовой или даже диплома.

Те же самые вопросы я задал сервису DeepSeek Chat с их собственной моделью R1. Ответы были во многом сходны с ответами платформы Cerebras Inference, однако сервис работает гораздо медленнее.

Все ответы Cerebras были получены в пределах секунды-полутора, со скоростью 900-1300 токенов в секунду, информация об этом сообщается для каждого запроса. Собственный сервис DeepSeek такой информации не дает, может думать до минуты, несколько раз отказывал в ответе по причине перегрузки серверов. Впрочем, на нем уже, вероятно, висят десятки миллионов китайцев, в отличие от Cerebras Inference с DeepSeek R1, который работает всего несколько дней.

Ни один из двух сервисов не обладает самосознанием, например, не понимают выражения “этот сервис”, рассуждают о себе в третьем лице и советуют копаться в их документации. А сами то что ж?

Пользовательского соглашения, где могла быть указана политика по сохранению данных запросов для обоих этих сервисов я пока не нашел, но в любом случае, заявление Александра Ванга на фоне этих тестов выглядит как продвижение модели Deep Seek R1 американского базирования. Также я согласен с комментариями к публикации BotHot, в которых говорят, что сравнение производительности реализации этой модели на платформе Cerebras с другими выглядят некорректно. Цифра 57 выглядит взятой с потолка.

В качестве дополнения сообщу, что я протестировал Cerebras Inference на переводческих задачках, которые у меня возникли в ходе одного художественного перевода, которым я сейчас занимаюсь. Модель Deep Seek обнаружила глубокое знание тонкостей английского (американского) языка и даже привлекла сведения о стиле автора, известные ей, прежде, чем предложить окончательный вариант. Что сказать, как переводчик я под большим впечатлением.

 

Автор: DedaVova

Источник

Rambler's Top100