Мануал по запуску полной модели DeepSeek-R1 локально (бюджет ~6k$). DeepSeek R1.. DeepSeek R1. DevOps.. DeepSeek R1. DevOps. inference.. DeepSeek R1. DevOps. inference. llm.. DeepSeek R1. DevOps. inference. llm. искусственный интеллект.. DeepSeek R1. DevOps. inference. llm. искусственный интеллект. Компьютерное железо.. DeepSeek R1. DevOps. inference. llm. искусственный интеллект. Компьютерное железо. Машинное обучение.
тут не будет сгенерированных ИИшечкой картинок, пеинт рулит :)

тут не будет сгенерированных ИИшечкой картинок, пеинт рулит :)

Давеча наткнулся в экс-Твиттере на интересный тред (https://x.com/carrigmat/status/1884244369907278106?s=52) о том, как запустить самую мощную (на сегодня) ИИ reasoning модель DeepSeek-R1 прямо у себя под столом.

DeepSeek-R1 — это одна из топовых моделей (из Китая), наделавших много шума (и не только), для задач логики, математики и программирования. Она настолько умная, что может (с некоторыми оговорками) “конкурировать” с решениями от OpenAI, но при этом её можно запустить локально, без интернета, без смс и полностью контролировать весь процесс.

Почему это круто?
* все данные остаются с вами, никакие сторонние сервисы не получат доступ к вашим запросам.
* запуск на своём железе избавляет от затрат на облачные сервисы.
* модель способна решать сложные задачи и выдавать результаты на уровне профессионалов.

В статье я расскажу:
* какое оборудование нужно для запуска DeepSeek-R1.
* чем локальный запуск отличается от серверного.
* какие возможности открывает эта модель и как она может быть полезна.
* как сохранить безопасность и приватность при работе с ИИ.

В этом мануале описано, как настроить локальный запуск модели DeepSeek-R1 Q8, сохраняя максимальное качество и производительность без дистилляции или уменьшенной квантизации. Общая стоимость сборки составит около ~$6,000, и ниже приведены все необходимые ссылки на компоненты и инструкции.


Требования к оборудованию

Для запуска DeepSeek-R1 (размер модели — 650 ГБ) с Q8 квантизацией система должна быть ориентирована на объем памяти, пропускную способность и возможности процессора.

Ссылки взяты так же с треда, аналоги думаю можно поискать на сайтах дэнээсов, ситилинков.

Вот подробный список:


1. Материнская плата

  • Модель: Gigabyte MZ73-LM0 или MZ73-LM1

  • Причина: Эти материнские платы поддерживают два сокета AMD EPYC, что позволяет использовать 24 канала DDR5 памяти, максимально увеличивая объем и пропускную способность.

🔗 Материнская плата Gigabyte MZ73-LM0 или MZ73-LM1

Мануал по запуску полной модели DeepSeek-R1 локально (бюджет ~6k$) - 2

2. Процессоры (CPU)

AMD EPYC 5th Gen 9005 Series (Sixteen-Core) 16 Core – Model 9115 AMD – EPYC – Processor / Number: 9115 – Processor / Clock Speed: 2.6 – Total Threads: 32 – Socket SP5 – L3 Cache – 64MB Memory – OEM

  • Модель: 2x AMD EPYC 9004 или 9005 (например, EPYC 9115 или 9015 для экономии).

  • Почему: Инференс больших языковых моделей (LLM) ограничен пропускной способностью памяти, а не мощностью процессора. Бюджетные модели, такие как 9115 или 9015, вполне подходят для этой задачи.

🔗 AMD EPYC 9115 CPU

Мануал по запуску полной модели DeepSeek-R1 локально (бюджет ~6k$) - 3

3. Оперативная память (RAM)

  • Требование: Всего 768 ГБ через 24 канала DDR5 RDIMM.

  • Конфигурация: Используйте 24 модуля по 32 ГБ DDR5 RDIMM для максимальной пропускной способности памяти.

  • Примеры:

Мануал по запуску полной модели DeepSeek-R1 локально (бюджет ~6k$) - 4

4. Корпус

  • Модель: Enthoo Pro 2 Server Edition (или аналогичный).

  • Почему: Убедитесь, что корпус совместим с серверными материнскими платами и предоставляет достаточно места для охлаждения.

🔗 Корпус Phanteks Enthoo Pro 2 Server Edition

Мануал по запуску полной модели DeepSeek-R1 локально (бюджет ~6k$) - 5

5. Блок питания (PSU)

  • Модель: Corsair HX1000i (1000Вт, полностью модульный).

  • Почему: Этот блок питания обеспечивает достаточную мощность для двух процессоров и включает все необходимые кабели питания.

🔗 Corsair HX1000i PSU

Мануал по запуску полной модели DeepSeek-R1 локально (бюджет ~6k$) - 6

6. Система охлаждения

  • Модель: Совместимый с сокетом SP5 кулер для AMD EPYC.

  • Рекомендация:

  • Дополнительные вентиляторы: Замените вентиляторы кулера на Noctua NF-A12x25 PWM для более тихой работы.

🔗 Noctua NF-A12x25 PWM Fans

Мануал по запуску полной модели DeepSeek-R1 локально (бюджет ~6k$) - 7

7. SSD

  • Требование: 1 ТБ (или больше) NVMe SSD.

  • Почему: Быстрые накопители необходимы для загрузки 700 ГБ весов модели в оперативную память.

🔗 Примеры SSD


Настройка ПО

После сборки оборудования нужно настроить программное обеспечение для локального запуска DeepSeek-R1 Q8.


1. Установка llama.cpp

llama.cpp — это фреймворк для инференса LLM, таких как DeepSeek-R1, локально.

  • Инструкция: Следуйте руководству в репозитории GitHub.

  • 🔗 llama.cpp GitHub


2. Скачивание модели DeepSeek-R1

  • Размер модели: 650 ГБ (Q8 квантизация).

  • Источник: Hugging Face.

  • Скачивание: Скачайте все файлы из папки Q8_0.

  • 🔗 DeepSeek-R1 GGUF Model Files


3. Запуск модели

Используйте следующую команду для тестирования:

llama-cli -m ./DeepSeek-R1.Q8_0-00001-of-00015.gguf --temp 0.6 -no-cnv -c 16384 -p "<|User|>How many Rs are there in strawberry?<|Assistant|>"
  • Ожидаемый результат: Ответ модели в режиме реального времени, демонстрирующий её возможности.


Производительность и улучшения

Производительность

  • Скорость генерации: 6-8 токенов в секунду в зависимости от процессора и скорости памяти.

  • Длина контекста: При 768 ГБ ОЗУ можно достичь 100,000 токенов длины контекста.


Использование GPU (опционально)

  • Для ускорения генерации можно использовать GPU. Однако:

    • Q8 квантизация: Требуется 700 ГБ видеопамяти, что стоит ~$100,000.

    • Частичная загрузка: Можно загрузить часть модели (например, 300 ГБ) на GPU для ускорения инференса, всё что ниже 300 гб, не даст особого буста по отношению к кпу сетапу.


Итоговая стоимость

Мануал по запуску полной модели DeepSeek-R1 локально (бюджет ~6k$) - 8

itog

С этой сборкой вы сможете запускать DeepSeek-R1 Q8 локально, достигая передовой производительности LLM без использования внешних серверов или GPU. Система оптимизирована для пропускной способности памяти и объёма, что гарантирует плавную и эффективную работу даже с самыми крупными моделями.

И по классике мой канал в тгшечке, для тех, кому интересно.

Автор: took_the_lead

Источник

Rambler's Top100