На что способна новая модель NVIDIA — Nemotron 3 Super 120B. Бенчмарки, тесты и интеграция в Luxms BI

120 миллиардов параметров, контекст 256K токенов, агентное поведение ^[1] — и всё это на одной видеокарте. Мы подключили Nemotron 3 Super к Luxms BI и неделю тестировали на реальных аналитических задачах. В этой статье — что получилось, где модель справляется, а где пока нет.

Одна видеокарта – это принципиально другая экономика владения. Кластер из 8 карт – это капитальные затраты, инженерная команда для обслуживания, электричество, охлаждение и площадь в серверной. Одна RTX PRO 6000 – это единица оборудования, которая встаёт в стандартную рабочую станцию. Разница в совокупной стоимости владения (TCO) – на порядок.

11 марта 2026 года NVIDIA выпустила Nemotron 3 Super – MoE-модель на 120 миллиардов параметров и с 12 миллиардами активных параметров.

Мы решили проверить ее на реальных аналитических задачах – быстро, локально и без кластера. Мы развернули Nemotron 3 на одной RTX PRO 6000 (96 ГБ), подключили ее к Luxms BI ^[2] и неделю тестировали в сценариях, близких к реальной работе с данными.

Меня зовут Саид Мухамад, я занимаюсь ИИ в Luxms. В этой статье расскажу не только про результаты, но и про практику – где модель действительно работает, а где упирается в ограничения.

Главный вопрос, на который мы хотели ответить – можно ли сегодня решать реальные аналитические задачи на одной GPU там, где обычно требуется кластер.

Спойлер: можно. Но не всегда и не без компромиссов.

Контекст

Сейчас на рынке формируется целый класс ~120B MoE-моделей, которые обещают качество, близкое к передовым (например, GLM или Kimi), при кратно меньших вычислительных затратах – GPT-OSS-120B, Qwen3.5-122B, и теперь Nemotron 3 Super. Но есть нюансы:

Для Qwen3.5-122B официальный референсный сетап на 262K контекста — 8 GPU [1]
GPT-OSS-120B работает на одной RTX PRO 6000, но на длинных контекстах (от 128K токенов) качество резко падает.

А Nemotron 3 Super:

помещается в одну GPU с 96 ГБ
стабильно держит контекст 64K–256K
и именно в этом диапазоне контекста она выглядит сильнее GPT-OSS-120B

Инференс – это режим, в котором модель генерирует ответы, в отличие от режима обучения ^[3], где она обновляет свои параметры

Для нас одна GPU – это быстрые итерации: развернул, прогнал тесты, свернул. Никакой координации кластера, никаких накладных расходов на межузловое взаимодействие. Именно поэтому мы решили присмотреться к ней всерьёз. (Плюс так дешевле)

Что говорят бенчмарки

Прежде чем перейти к нашему собственному опыту ^[4], посмотрим на результаты от комьюнити. Основное сравнение – с GPT-OSS-120B.

*Для Qwen3.5-122B официальный референсный сетап на 262K контекста предполагает 8 GPU

Длинный контекст – где начинается расхождение

Самое интересное проявляется в RULER – тесте на длинный контекст. При 256K токенов Nemotron набирает 96,3%, а GPT-OSS-120B проседает до 52,3%. На 512K разрыв увеличивается ещё сильнее – 95,7% против 46,7%. А при 1M токенов GPT-OSS фактически перестает понимать задачу – 22,3%.

Разница носит не количественный, а качественный характер. Для задач, связанных с объёмными схемами данных, рассуждением по множеству документов или длинной историей диалога – а именно так выглядит большинство реальных BI-сценариев, это критически важно.

На что способна новая модель NVIDIA — Nemotron 3 Super 120B. Бенчмарки, тесты и интеграция в Luxms BI - 2

По остальным метрикам в сравнении с GPT-OSS-120B: Nemotron убедительно выигрывает в SWE-Bench (60,5% против 41,9%), идёт вровень по использованию инструментов (TauBench) и поочерёдно лидирует в математическом рассуждении (GPT-OSS выходит вперед в AIME, Nemotron в HMMT). По следованию инструкциям – на несколько пунктов впереди. Единственная область, где GPT-OSS лидирует явно – LiveCodeBench (88,0% против 81,2%).

Qwen 3.5-122B набирает больше по ряду бенчмарков — MMLU-Pro, GPQA, SWE-Bench, TauBench.

Наш сетап на одной карте

Мы использовали:

RTX PRO 6000 (96 ГБ VRAM)
веса с Hugging Face [2]
vLLM для инференса

vllm serve nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 
  --trust-remote-code 
  --async-scheduling 
  --kv-cache-dtype fp8 
  --swap-space 0 
  --attention-backend TRITON_ATTN 
  --enable-chunked-prefill

В такой конфигурации vllm модель стабильно работала с контекстом до 256K токенов.

Для наших задач этого более чем достаточно – типичный контекст BI-запросов комфортно помещается в это окно.

Проверка на русском: MMLU-RU

Прежде чем тестировать модель в Luxms BI, мы проверили MMLU-RU [3] – русскоязычную версию стандартного бенчмарка, как базовую проверку качества рассуждений на других языках.

Результат: 70,8% точности (5-shot).

Это хороший результат, учитывая, что русский язык не заявлен в списке поддерживаемых и не был основным языком обучения.

Сильные стороны:

Социальные науки лидируют с 77,6% по категории в целом, несколько предметов превышают 85%. Гуманитарные – 71,5%.

Слабые стороны:

На что способна новая модель NVIDIA — Nemotron 3 Super 120B. Бенчмарки, тесты и интеграция в Luxms BI - 4

STEM в целом – 66,5%, тянут вниз абстрактная математика ^[5] и формальные науки, где модель показывает результат, слабый относительно остальных категорий (49% по абстрактной алгебре и университетской информатике).

Итог

Где справляется

Модель уверенно работает со структурированными доменами — экономика, медицина, социальные науки — и хорошо понимает фактологию. Для BI это ключевое: нам не нужно решение дифференциальных уравнений, нам нужно понимание бизнес-данных.

Отдельно стоит отметить следование инструкциям. Модель точно держит формат, соблюдает ограничения и делает то, что просят — без лишней «отсебятины». В агентных сценариях это проявляется особенно хорошо: она использует инструменты, повторяет попытки при ошибках и самостоятельно их исправляет.

Контекст от 16K до 256K токенов отработал стабильно на одной GPU при утилизации 92 ГБ из 96 ГБ VRAM. Деградации не заметили.

Где пока нет

Модель приходит к правильному решению — но не всегда с первого раза. Например, при генерации дэшлета, мы просим модель вызвать функцию проверки дашлета, прежде чем показывать его пользователю. Там, где более мощные модели сразу выдают нужный результат, Nemotron 3 Super, ошибается, исправляется, пробует разные размерности, агрегации и тд. Это работает, но стоит времени. В продакшене, где важна скорость отклика, эти лишние итерации заметны.

Например, в нашем BI можно тегнуть конкретный ресурс и попросить модель с ним поработать. Вместо того чтобы сразу взяться за задачу, она может пойти изучить смежные таблицы, перепроверить связи, заглянуть в соседние данные, дэшлеты – на всякий случай. Иногда это выглядит избыточно. Но в итоге визуализация получается качественной, модель просто тратит больше шагов на дорогу к ней.

Ещё один момент – креативность. Модель надёжно решает задачи с понятной структурой, но реже предлагает неочевидные подходы. Это сложно измерить бенчмарком, но в работе чувствуется: она скорее исполнитель, чем изобретатель. Для типовой аналитики – нормально. Для задач, где нужен нестандартный взгляд, – ограничение.

Производительность – главный компромисс

На что способна новая модель NVIDIA — Nemotron 3 Super 120B. Бенчмарки, тесты и интеграция в Luxms BI - 5

Мы замерили пропускную способность на нашем железе при разной конкурентности запросов (вход 2K токенов, выход 2K токенов, одна RTX PRO 6000):

На что способна новая модель NVIDIA — Nemotron 3 Super 120B. Бенчмарки, тесты и интеграция в Luxms BI - 6

Главный вывод:

Nemotron отвечает медленнее
GPT-OSS быстрее примерно в 2–2.5 раза

Что в итоге:

Мы остались довольны потенциалом модели. Что пока не позволяет нам перейти полностью на этот сетап – недостаточная скорость инференса (в токенах/с) на одной RTX PRO 6000, а это наша базовая конфигурация для клиентов. Это склоняет нашу команду к использованию GPT-OSS-120B в продакшене, учитывая, что мы получаем двукратную пропускную способность на той же GPU для того же класса моделей.

Когда имеет смысл использовать Nemotron 3 Super:

Вам важен длинный контекст (от 64K до 256K токенов)
У вас одна GPU на всё
Вы делаете прототип, исследуете агентные сценарии или решаете задачи в экономике, медицине, социальных науках
Скорость инференса не главное

Когда лучше выбрать другой вариант:

высоконагруженный продакшн с десятками параллельных пользователей
скорость в 2–3 раза важнее качества на длинном контексте
нужно решать абстрактные математические задачи

Что дальше

Круто, что продолжают появляться 120B модели, которые могут работать на одной GPU и способны качественно работать с длинным контекстом. Их появление меняет не только стоимость, но и сам подход к внедрению – сложные сценарии начинают помещаться в небольшие конфигурации.

И мы рассчитываем, что в будущем появятся более эффективные методы инференса для Nemotron 3 Super, которые откроют больше пространства для экспериментов и внедрения. Ждем:)

Поделитесь вашим опытом! С какими моделями работаете?

О нас

Luxms BI ^[2] – это не просто BI, а платформа, в которой можно строить собственные сценарии работы с данными и ИИ. Luxms BI позволяет не только визуализировать данные, но и использовать LLM-модели прямо внутри аналитических процессов – от создания кубов до построения дэшбордов и автоматизации аналитики.

Мы не ограничиваемся готовыми функциями вроде чат-ботов или встроенных ассистентов. Вместо этого даем возможность подключать LLM-модели и использовать их там, где это действительно нужно – внутри аналитики, процессов и бизнес-логики.

Сегодня это может быть ИИ-аналитик внутри BI ^[6], а завтра – любая другая задача, которую требуется бизнесу. Сценарии не ограничены, платформа Luxms BI универсальна

P.S. Если хотите с нами заниматься классными задачами ^[7], то приглашаем вас в команду.

Источники

Qwen3.5-122B-A10B – https://huggingface.co/Qwen/Qwen3.5-122B-A10B ^[8]
NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 – https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 ^[9]
mmlu ru – https://huggingface.co/datasets/NLPCoreTeam/mmlu_ru ^[10]

Автор: saidmukhamad

Источник ^[11]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/28332

URLs in this post:

[1] поведение: http://www.braintools.ru/article/9372

[2] Luxms BI: https://luxmsbi.ru/

[3] обучения: http://www.braintools.ru/article/5125

[4] опыту: http://www.braintools.ru/article/6952

[5] математика: http://www.braintools.ru/article/7620

[6] ИИ-аналитик внутри BI: https://luxmsbi.ru/products/gotovye-resheniya/ii-analitik-v-luxms-bi/

[7] классными задачами: https://hh.ru/vacancy/129934499?hhtmFromLabel=employer_vacancy_tab&hhtmFrom=employer

[8] https://huggingface.co/Qwen/Qwen3.5-122B-A10B: https://huggingface.co/Qwen/Qwen3.5-122B-A10B

[9] https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4: https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4

[10] https://huggingface.co/datasets/NLPCoreTeam/mmlu_ru: https://huggingface.co/datasets/NLPCoreTeam/mmlu_ru

[11] Источник: https://habr.com/ru/companies/luxms_bi/articles/1019774/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1019774

Нажмите здесь для печати.