GPT-OSS-20B, H100: выжимаем 156 миллиардов токенов в месяц
С выходом Open-Source модели от OpenAI, появилось очень много новостей и обсуждений бенчмарков, но реальной статистики, гайдов запуска, и загрузочных тестов, лично я не встречал. В этой статье я покажу максимальную производительность GPT-OSS 20B, которую можно добиться на современной H100, чтобы сэкономить время тем, кто вдруг решит ее разворачивать локально на своем оборудовании!С чего начнем? Установите Ubuntu 22.04.5 LTSСначала скачаем контейнер под vLLM для gpt-oss-20b. Он отличается тем, что внутри него конкретная версия vllm 0.10.1 и другие важные зависимости.

