- BrainTools - https://www.braintools.ru -
С выходом Open-Source модели от OpenAI, появилось очень много новостей и обсуждений бенчмарков, но реальной статистики, гайдов запуска, и загрузочных тестов, лично я не встречал.
В этой статье я покажу максимальную производительность GPT-OSS 20B, которую можно добиться на современной H100, чтобы сэкономить время тем, кто вдруг решит ее разворачивать локально на своем оборудовании!
Установите Ubuntu 22.04.5 LTS [1]
Сначала скачаем контейнер под vLLM для gpt-oss-20b. Он отличается тем, что внутри него конкретная версия vllm 0.10.1 и другие важные зависимости.
Дальше копируем код, который я подготовил для теста:
https://github.com/Chashchin-Dmitry/gpt-oss-20b-h100-benchmark/tree/main [3]
Запускаем контейнер с GPT-OSS-20b
docker run --gpus all -p 8000:8000 --ipc=host vllm/vllm-openai:gptoss --model openai/gpt-oss-20b --max-model-len 65536 --gpu-memory-utilization 0.96 --max-num-seqs 64 --max-num-batched-tokens 8192 --disable-log-requests --port 8000
Дополнительная информация по флагам, запуску vllm с этой версией, и общие рекомендации к конфигурациям: https://docs.vllm.ai/projects/recipes/en/latest/OpenAI/GPT-OSS.html [4]
Запускаем Python файл для симуляции нагрузки с реальным промтом(пример):
python3 vllm_gptoss20b_benchmark.py
--url http://0.0.0.0:8000 [5]
--model openai/gpt-oss-20b
--n-requests 100
--concurrency 16
|
Метрика |
Значение |
|---|---|
|
Количество запросов (всего) |
64 |
|
Параллельно (concurrency) |
64 |
|
Wall-time всей волны (сек) |
27.25 |
|
Среднее время на 1 запрос (сек) |
25.29 |
|
p50 латентности (сек) |
27.09 |
|
p99 латентности (сек) |
27.18 |
|
Входных токенов (сумма) |
1 520 704 |
|
Входных токенов на запрос (сред) |
~23 761 |
|
Выходных токенов (сумма) |
120 704 |
|
Выходных токенов на запрос (сред) |
~1 886 |
|
TPS генерации (wall) |
4 429 ток/с |
|
TPS prompt+gen (wall) |
60 233 ток/с |
|
GPU загрузка |
~91 % |
|
Метрика |
16 потоков |
32 потока |
64 потока |
|---|---|---|---|
|
Количество запросов (всего) |
160 |
320 |
640 |
|
Параллельно (concurrency) |
16 |
32 |
64 |
|
Wall-time всей волны (сек) |
198.99 |
146.43 |
227.06 |
|
Среднее время на 1 запрос (сек) |
~6.89 |
~7.48 |
~10.79 |
|
p50 латентности (сек) |
5.89 |
7.01 |
11.07 |
|
p95 латентности (сек) |
13.19 |
9.00 |
15.64 |
|
p99 латентности (сек) |
27.53 |
17.19 |
19.24 |
|
Входных токенов (сумма) |
396 000 |
792 000 |
1 584 000 |
|
Входных токенов на запрос (сред) |
~2 475 |
~2 475 |
~2 475 |
|
Выходных токенов (сумма) |
147 167 |
266 293 |
500 587 |
|
Выходных токенов на запрос (сред) |
~2 475 |
~2 600 |
~2 600 |
|
TPS генерации (wall) |
~736 ток/с |
~1 819 ток/с |
~2 205 ток/с |
|
TPS prompt+gen (wall) |
~2 674 ток/с |
~7 227 ток/с |
~9 181 ток/с |
|
GPU загрузка |
~80 % |
~85 % |
~91 % |
Сколько выходит токенов в месяц при загрузке 24/7?
Генерация:
Общая пропускная способность:
Маловероятный сценарий, поскольку сложно загружать ИИ на различные задачи постоянно. Однако вот, применяйте статистику для своих нужд!
Чем больше полезной информации по разным моделям ИИ, тем больше сообщество будет применять локальные ИИ решения в повседневной жизни и в среде бизнеса!
Я думаю, что бенчмарки выше, будут одинаково полезны как для любителей, кто увлекается этим делом, так и для людей, кто всерьез планирует разместить такую большую “штуку” у себя в северной!
Дисклеймер: Обязательно тестируйте самостоятельно ваши бизнес-кейсы на облачных решениях, прежде чем закупать оборудование.
Автор: Dmitrii-Chashchin
Источник [6]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/18700
URLs in this post:
[1] Ubuntu 22.04.5 LTS: https://releases.ubuntu.com/jammy/
[2] https://hub.docker.com/layers/vllm/vllm-openai/gptoss/images/sha256-43892706699a4a390dab480e6a3b2f144203de11e0caebdbcb0c29ca1bce63c6: https://hub.docker.com/layers/vllm/vllm-openai/gptoss/images/sha256-43892706699a4a390dab480e6a3b2f144203de11e0caebdbcb0c29ca1bce63c6
[3] https://github.com/Chashchin-Dmitry/gpt-oss-20b-h100-benchmark/tree/main: https://github.com/Chashchin-Dmitry/gpt-oss-20b-h100-benchmark/tree/main
[4] https://docs.vllm.ai/projects/recipes/en/latest/OpenAI/GPT-OSS.html: https://docs.vllm.ai/projects/recipes/en/latest/OpenAI/GPT-OSS.html
[5] http://0.0.0.0:8000: http://0.0.0.0:8000
[6] Источник: https://habr.com/ru/articles/939950/?utm_campaign=939950&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.