- BrainTools - https://www.braintools.ru -
Прошлой весной я впервые столкнулся с нейросетью — Гигачат от Сбербанка. До этого я считал такие сервисы «несерьёзной фигнёй». После нескольких экспериментов с Гигачатом моё мнение кардинально изменилось: ответы оказались впечатляющими, и я начал задумываться о применении ИИ в работе.
Однако использовать внешний сервис в коммерческих проектах оказалось дорогим. Я начал искать альтернативу — локальные модели, которые можно запускать на собственном железе без постоянных расходов.
Для начала я собрал компьютер с двумя видеокартами RTX 5070 (12 ГБ видеопамяти каждая) и 64 ГБ ОЗУ. На нём удалось запустить небольшие модели (до 20 ГБ), которые работали приемлемо, но всё равно уступали Гигачату по качеству и скорости. Плюс был очевиден: всё происходило локально, без ограничений со стороны провайдера.
Чтобы сравнивать более крупные модели, я вложил поборов свою внутреннюю “жабу” в следующую конфигурацию:
|
КОМПОНЕНТ |
ХАРАКТЕРИСТИКА |
|
GPU |
2 × RTX 4090 (48 ГБ VRAM каждая) |
|
Оперативная память [1] DDR5 |
192Гб (4 планки по 48Гб) |
|
Процессор |
Intel i9‑14900K |
|
Материнская плата |
ASUS ROG MAXIMUS Z790 DARK HERO |
Эта система позволяет запускать модели размером до ≈ 100 ГБ, а скорость вычислений выросла в разы.
Недавно на Хабре я нашел статью Задача Эйнштейна — большой тест LLM нейросетей на логическое мышление / Хабр [2]. Я решил проверить, как моя локальная модель справится с этим тестом. И вот какие результаты я получил.
|
Модель |
Параметры |
Объём VRAM |
Время решения |
Результат |
|
gpt‑oss:120b |
120 млрд параметров |
~70Gb |
1 мин |
ВЕРНО |
|
Qwen3‑next:80b |
80 млрд параметров |
~50Gb |
1 мин |
ВЕРНО |
|
DevStral2‑123b |
123 млрд параметров |
~95Gb |
14 мин |
НЕ ВЕРНО |
|
Гигачат (Сбербанк) |
неизвестно, но много |
очень много |
12 мин |
НЕ ВЕРНО |
Что мы видим?
Модели, запущенные локально на мощном железе (gpt‑oss 120b, Qwen3‑next 80b), дают быстрый и правильный результат.
Некоторые крупные модели (DevStral2‑123b) работают медленно и дают ошибку [3], несмотря на полное использование GPU.
Сервис Гигачат, работающий на «больших серверах», в данном случае решал задачу дольше и выдал неверный ответ.
Выводы:
Локальный запуск может превзойти облачные сервисы – при достаточном оборудовании модель способна быстрее и точнее решать задачи, чем коммерческий API.
Не всякая «большая» модель гарантирует качество – размер параметров не всегда коррелирует с точностью; оптимизация и обучение [4] играют большую роль.
Стоимость vs. контроль – собственный сервер избавляет от расходов на запросы к API и даёт полный контроль над данными и настройками, но требует значительных капитальных вложений в оборудование.
Конечно события с текущими ценами на память и ажиотажем делают сборку такого сервера еще более недоступной, но мне видимо повезло, я его собрал прошлым летом как раз перед бумом.
Если у вас есть аналогичный опыт [5] или идеи по оптимизации локальных ИИ серверов, буду рад обсудить в комментариях!
Автор: softel
Источник [6]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/24980
URLs in this post:
[1] память: http://www.braintools.ru/article/4140
[2] Задача Эйнштейна — большой тест LLM нейросетей на логическое мышление / Хабр: https://habr.com/ru/articles/806523/
[3] ошибку: http://www.braintools.ru/article/4192
[4] обучение: http://www.braintools.ru/article/5125
[5] опыт: http://www.braintools.ru/article/6952
[6] Источник: https://habr.com/ru/articles/991192/?utm_campaign=991192&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.