- BrainTools - https://www.braintools.ru -
В последнее время становится все более популярным локальный запуск LLM. У каждогг свои причины, но основные это: проблемы с западными сервисами, нестабильный интернет и утечка данных в открытый доступ (преценденты уже были).
В этой статье я расскажу как запускал LLM локально на майнинговом железе, какие тонкости есть при запуске. Расскажу архитектуру моей сборки и примерную стоимость железа. Также протестирую скорость работы с некоторыми наиболее популярными MoE LLM, включая модели от гугла и ChatGPT. По поводу целесообразности подобных сборок решение каждый примет сам исходя из своих задач и финансовых ресурсов.
На хабре уже есть несколько статей про локальный запуск LLM на сборках из нескольких GPU
Локальный ИИ: майнинг плата+ 3 RTX 3090 [1] Тут скорость работы GPT-oss-120B около 100 токенов в секунду.
Как я собрал LLM-печку на 4 GPU и на что она способна [2]. Тут 4 карты 3090 на игровой материнке показали 55т/сек на Qwen-35B-a3b-Q8 и 19 т/сек на Qwen 122B-Q5 при очень больших контекстах.
Темные лошадки ИИ – инференс LLM на майнинговых видеокартах Nvidia CMP40HX, CMP50HX, CMP90HX [3] Тут cmp50hx+cmp90hx обогнали одну rtx3060 12g в инференсе gpt-oss 20b. 55т/c против 19 т/с
В этих статьях используются майнинговые GPU на игровых материнках либо игровые GPU на майнинговых материнках. Я же решил попробовать майнинговые GPU на майнинговых материнках. То есть на обычной майнинг ферме.
Перейдем к железу: у меня обычная майнинговая ферма из 2016 года. в последние 5 лет такое железо продается на барахолках по цене 10-20% от цены в 2016 году.
Порядок работы:
Установка виндовс
Установка неофициальных драйверов под видеокарты (официальных у нвидиа нет для майнинговах карт под винду)
Устанавливаем LM studio либо Kubold.ccp (старые gpu с архитектурой pascal работают чуть быстрее в Kubold, поэтому все тесты я проводил там)
Прямо в LM studio находим и скачиваем нужные LLM. Я скачал gemma-4-26B-A4B-it-QAT-GGUF в Q4 Qwen3.6-35B-A3B-GGUF тоже в Q4 и еще несколько.
Запускаем gemma 26B сначала на одной GPU p106-100 чтобы было от чего отталкиваться.
Теперь запускаем на двух GPU p106-100. Gemma 26B занимает порядка 14 гб поэтому в 2 видеокарты по 6гб она не помещается. Часть остается в ОЗУ.
Запускаем на 3 p106-100. На деффолтных настройках 14 гб gemma не умешается в трех картах по 6 гб, но с ручными настройками можно уместить.
Добавление четвертой видеокарты дает нам те же 19-20 т/с, но LLM уже по дефолту умещается в видеокарты. И контекст не нужно ограничивать, он в kubold 12000 по умолчанию.
Сначала карты работали не очень стабиньно, выдавая то 20, то 15, то 10 токенов в секунду.
Пришлось жестко зафиксировать частоты карт через MSI afterburner.
В итоге gemma26B в Q4 c нормальным контекстом 12000 выдает стабильные 19-20 т/с на четырех GPU.
Для сравнения тут запуск gemma4 26b на 4 майнинговых GPU cmp50hx через райзеры. Скорость 22т/c:( https://youtube.com/watch?v=tqaw5HJMFxU&si=lU5Rn-nQrGVvFzuY [4] Gemma 4 26В и 31В на 2х СМР 50НХ: сколько токен/сек выжмет майнинг-карта? )
Qwen3.6-35B-A3B вQ4 выдает у меня те же 19-20 т/с c таким же контекстом.
Для сравнения: тот же qwen35b выдает 27 т/с на 3060 12 гб на дефолтных настройках LM studio. ( инфа отсюда: https://youtube.com/watch?v=QxpRuOAw-BE&si=7nQsYeg8sJtv-f96 [5] )
MiniPC с AMD AI395+ 128гб ОЗУ с qwen35b выдает около 60 т/c
Ну и наконец тестим GPT-oss 20B: результат получился 25т/с с тем же контекстом 12288
Выводы:
Все конфигурации ферм, которые я собирал и которые видел в сети выдавали 15-20 т/с. Если Вас такая скорость устраивает-то можете пробовать запускать LLM на майнинг фермах.
Запускать маленькие модели в 20-40B параметров не имеет особого смысла на фермах. Обычные игровые ПК обеспечат скорость выше 15-20 токенов или примерно такую же.
Запуск средних моделей с более 100 млрд параметров( типа Qwen122B 75GB или gpt-oss120B 63GB) может иметь смысл на майнинг фермах. Если кто-то уже запускал-пожалуйста поделитесь результатом в комментах.
Автор: malyazin_2010
Источник [6]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/32607
URLs in this post:
[1] Локальный ИИ: майнинг плата+ 3 RTX 3090: https://habr.com/ru/articles/1019940/
[2] Как я собрал LLM-печку на 4 GPU и на что она способна: https://habr.com/ru/articles/1041422/
[3] Темные лошадки ИИ – инференс LLM на майнинговых видеокартах Nvidia CMP40HX, CMP50HX, CMP90HX: https://habr.com/ru/articles/940226/
[4] https://youtube.com/watch?v=tqaw5HJMFxU&si=lU5Rn-nQrGVvFzuY: https://youtube.com/watch?v=tqaw5HJMFxU&si=lU5Rn-nQrGVvFzuY
[5] https://youtube.com/watch?v=QxpRuOAw-BE&si=7nQsYeg8sJtv-f96: https://youtube.com/watch?v=QxpRuOAw-BE&si=7nQsYeg8sJtv-f96
[6] Источник: https://habr.com/ru/articles/1055222/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1055222
Нажмите здесь для печати.