Запускаем LLM локально на майнинг ферме из 4 GPU. chatgpt.. chatgpt. DevOps.. chatgpt. DevOps. DIY или Сделай сам.. chatgpt. DevOps. DIY или Сделай сам. gemma.. chatgpt. DevOps. DIY или Сделай сам. gemma. GPGPU.. chatgpt. DevOps. DIY или Сделай сам. gemma. GPGPU. gpu.. chatgpt. DevOps. DIY или Сделай сам. gemma. GPGPU. gpu. llm.. chatgpt. DevOps. DIY или Сделай сам. gemma. GPGPU. gpu. llm. Natural Language Processing.. chatgpt. DevOps. DIY или Сделай сам. gemma. GPGPU. gpu. llm. Natural Language Processing. qwen.. chatgpt. DevOps. DIY или Сделай сам. gemma. GPGPU. gpu. llm. Natural Language Processing. qwen. Видеокарты.. chatgpt. DevOps. DIY или Сделай сам. gemma. GPGPU. gpu. llm. Natural Language Processing. qwen. Видеокарты. майнинг.

В последнее время становится все более популярным локальный запуск LLM. У каждогг свои причины, но основные это: проблемы с западными сервисами, нестабильный интернет и утечка данных в открытый доступ (преценденты уже были).

В этой статье я расскажу как запускал LLM локально на майнинговом железе, какие тонкости есть при запуске. Расскажу архитектуру моей сборки и примерную стоимость железа. Также протестирую скорость работы с некоторыми наиболее популярными MoE LLM, включая модели от гугла и ChatGPT. По поводу целесообразности подобных сборок решение каждый примет сам исходя из своих задач и финансовых ресурсов.

На хабре уже есть несколько статей про локальный запуск LLM на сборках из нескольких GPU

Локальный ИИ: майнинг плата+ 3 RTX 3090 Тут скорость работы GPT-oss-120B около 100 токенов в секунду.

Как я собрал LLM-печку на 4 GPU и на что она способна. Тут 4 карты 3090 на игровой материнке показали 55т/сек на Qwen-35B-a3b-Q8 и 19 т/сек на Qwen 122B-Q5 при очень больших контекстах.

Темные лошадки ИИ – инференс LLM на майнинговых видеокартах Nvidia CMP40HX, CMP50HX, CMP90HX Тут cmp50hx+cmp90hx обогнали одну rtx3060 12g в инференсе gpt-oss 20b. 55т/c против 19 т/с

В этих статьях используются майнинговые GPU на игровых материнках либо игровые GPU на майнинговых материнках. Я же решил попробовать майнинговые GPU на майнинговых материнках. То есть на обычной майнинг ферме.

Перейдем к железу: у меня обычная майнинговая ферма из 2016 года. в последние 5 лет такое железо продается на барахолках по цене 10-20% от цены в 2016 году.

материнская плата:H510 Pro BTC+. Видеокарты: 3 штуки p106-100 и одна p104-100 (каждая карта по 1000-2000руб на авито). Корпус майнинговый название не помню. Процессор i3-10100 , ОЗУ 32ГБ  ddr3 кажется. ssd 1tb. Колесики для корпуса из леруа. Кулеры 5 шт с ручной регулировкой частоты вращения.
материнская плата:H510 Pro BTC+. Видеокарты: 3 штуки p106-100 и одна p104-100 (каждая карта по 1000-2000руб на авито). Корпус майнинговый название не помню. Процессор i3-10100 , ОЗУ 32ГБ ddr3 кажется. ssd 1tb. Колесики для корпуса из леруа. Кулеры 5 шт с ручной регулировкой частоты вращения.

Порядок работы:

  1. Установка виндовс

  2. Установка неофициальных драйверов под видеокарты (официальных у нвидиа нет для майнинговах карт под винду)

  3. Устанавливаем LM studio либо Kubold.ccp (старые gpu с архитектурой pascal работают чуть быстрее в Kubold, поэтому все тесты я проводил там)

  4. Прямо в LM studio находим и скачиваем нужные LLM. Я скачал gemma-4-26B-A4B-it-QAT-GGUF в Q4 Qwen3.6-35B-A3B-GGUF тоже в Q4 и еще несколько.

Запускаем gemma 26B сначала на одной GPU p106-100 чтобы было от чего отталкиваться.

получаем 11,52 токенов в секунду. Если учитывать, что человек читает в среднем со скоростью 5-10 токенов в секунду, то этим уже можно пользоваться. Все, что ниже 10 уже кажется мучительно долго для среднего человека.

получаем 11,52 токенов в секунду. Если учитывать, что человек читает в среднем со скоростью 5-10 токенов в секунду, то этим уже можно пользоваться. Все, что ниже 10 уже кажется мучительно долго для среднего человека.

Теперь запускаем на двух GPU p106-100. Gemma 26B занимает порядка 14 гб поэтому в 2 видеокарты по 6гб она не помещается. Часть остается в ОЗУ.

получаем скорость 9,67 т/с что ниже, чем с одной видеокартой. Распределение LLM по двум GPU и ОЗУ оказалось хуже, чем распределение той же LLM между одним GPU и ОЗУ.

получаем скорость 9,67 т/с что ниже, чем с одной видеокартой. Распределение LLM по двум GPU и ОЗУ оказалось хуже, чем распределение той же LLM между одним GPU и ОЗУ.

Запускаем на 3 p106-100. На деффолтных настройках 14 гб gemma не умешается в трех картах по 6 гб, но с ручными настройками можно уместить.

получаем 12.16 т/c если не распределить LLM по трем видеокартаи и 19,11 т/c если уместить LLM в GPU

получаем 12.16 т/c если не распределить LLM по трем видеокартаи и 19,11 т/c если уместить LLM в GPU

Добавление четвертой видеокарты дает нам те же 19-20 т/с, но LLM уже по дефолту умещается в видеокарты. И контекст не нужно ограничивать, он в kubold 12000 по умолчанию.

Сначала карты работали не очень стабиньно, выдавая то 20, то 15, то 10 токенов в секунду.

на двух верхних графиках видно, что карты  скидывают частоты по непонятной причине. Соответственно инференс в это время замедляется.

на двух верхних графиках видно, что карты скидывают частоты по непонятной причине. Соответственно инференс в это время замедляется.

Пришлось жестко зафиксировать частоты карт через MSI afterburner.

это мои настройки по разгону gpu в msi afterburner

это мои настройки по разгону gpu в msi afterburner

В итоге gemma26B в Q4 c нормальным контекстом 12000 выдает стабильные 19-20 т/с на четырех GPU.

Для сравнения тут запуск gemma4 26b на 4 майнинговых GPU cmp50hx через райзеры. Скорость 22т/c:( https://youtube.com/watch?v=tqaw5HJMFxU&si=lU5Rn-nQrGVvFzuY Gemma 4 26В и 31В на 2х СМР 50НХ: сколько токен/сек выжмет майнинг-карта? )

Qwen3.6-35B-A3B вQ4 выдает у меня те же 19-20 т/с c таким же контекстом.

Для сравнения: тот же qwen35b выдает 27 т/с на 3060 12 гб на дефолтных настройках LM studio. ( инфа отсюда: https://youtube.com/watch?v=QxpRuOAw-BE&si=7nQsYeg8sJtv-f96 )

MiniPC с AMD AI395+ 128гб ОЗУ с qwen35b выдает около 60 т/c

Ну и наконец тестим GPT-oss 20B: результат получился 25т/с с тем же контекстом 12288

Выводы:

  1. Все конфигурации ферм, которые я собирал и которые видел в сети выдавали 15-20 т/с. Если Вас такая скорость устраивает-то можете пробовать запускать LLM на майнинг фермах.

  2. Запускать маленькие модели в 20-40B параметров не имеет особого смысла на фермах. Обычные игровые ПК обеспечат скорость выше 15-20 токенов или примерно такую же.

  3. Запуск средних моделей с более 100 млрд параметров( типа Qwen122B 75GB или gpt-oss120B 63GB) может иметь смысл на майнинг фермах. Если кто-то уже запускал-пожалуйста поделитесь результатом в комментах.

Автор: malyazin_2010

Источник