- BrainTools - https://www.braintools.ru -

Локальная модель vs Гигачат: мой опыт и выводы

Как всё началось

Прошлой весной я впервые столкнулся с нейросетью — Гигачат от Сбербанка. До этого я считал такие сервисы «несерьёзной фигнёй». После нескольких экспериментов с Гигачатом моё мнение кардинально изменилось: ответы оказались впечатляющими, и я начал задумываться о применении ИИ в работе.

Однако использовать внешний сервис в коммерческих проектах оказалось дорогим. Я начал искать альтернативу — локальные модели, которые можно запускать на собственном железе без постоянных расходов.


Первый шаг: небольшие модели

Для начала я собрал компьютер с двумя видеокартами RTX 5070 (12 ГБ видеопамяти каждая) и 64 ГБ ОЗУ. На нём удалось запустить небольшие модели (до 20 ГБ), которые работали приемлемо, но всё равно уступали Гигачату по качеству и скорости. Плюс был очевиден: всё происходило локально, без ограничений со стороны провайдера.


Апгрейд железа

Чтобы сравнивать более крупные модели, я вложил поборов свою внутреннюю “жабу” в следующую конфигурацию:

КОМПОНЕНТ

ХАРАКТЕРИСТИКА

GPU

2 × RTX 4090 (48 ГБ VRAM каждая)

Оперативная память [1] DDR5

192Гб (4 планки по 48Гб)

Процессор

Intel i9‑14900K

Материнская плата

ASUS ROG MAXIMUS Z790 DARK HERO

Эта система позволяет запускать модели размером до ≈ 100 ГБ, а скорость вычислений выросла в разы.


Тестирование на «Задаче Эйнштейна»

Недавно на Хабре я нашел статью Задача Эйнштейна — большой тест LLM нейросетей на логическое мышление / Хабр [2]. Я решил проверить, как моя локальная модель справится с этим тестом. И вот какие результаты я получил.

Модель

Параметры

Объём VRAM

Время решения

Результат

gpt‑oss:120b

120 млрд параметров

~70Gb

1 мин

ВЕРНО

Qwen3‑next:80b

80 млрд параметров

~50Gb

1 мин

ВЕРНО

DevStral2‑123b

123 млрд параметров

~95Gb

14 мин

НЕ ВЕРНО

Гигачат (Сбербанк)

неизвестно, но много

очень много

12 мин

НЕ ВЕРНО

Что мы видим?

  • Модели, запущенные локально на мощном железе (gpt‑oss 120b, Qwen3‑next 80b), дают быстрый и правильный результат.

  • Некоторые крупные модели (DevStral2‑123b) работают медленно и дают ошибку [3], несмотря на полное использование GPU.

  • Сервис Гигачат, работающий на «больших серверах», в данном случае решал задачу дольше и выдал неверный ответ.

Выводы:

  • Локальный запуск может превзойти облачные сервисы – при достаточном оборудовании модель способна быстрее и точнее решать задачи, чем коммерческий API.

  • Не всякая «большая» модель гарантирует качество – размер параметров не всегда коррелирует с точностью; оптимизация и обучение [4] играют большую роль.

  • Стоимость vs. контроль – собственный сервер избавляет от расходов на запросы к API и даёт полный контроль над данными и настройками, но требует значительных капитальных вложений в оборудование.

Конечно события с текущими ценами на память и ажиотажем делают сборку такого сервера еще более недоступной, но мне видимо повезло, я его собрал прошлым летом как раз перед бумом.

Если у вас есть аналогичный опыт [5] или идеи по оптимизации локальных ИИ серверов, буду рад обсудить в комментариях!

Автор: softel

Источник [6]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/24980

URLs in this post:

[1] память: http://www.braintools.ru/article/4140

[2] Задача Эйнштейна — большой тест LLM нейросетей на логическое мышление / Хабр: https://habr.com/ru/articles/806523/

[3] ошибку: http://www.braintools.ru/article/4192

[4] обучение: http://www.braintools.ru/article/5125

[5] опыт: http://www.braintools.ru/article/6952

[6] Источник: https://habr.com/ru/articles/991192/?utm_campaign=991192&utm_source=habrahabr&utm_medium=rss

www.BrainTools.ru

Rambler's Top100