GPT-OSS-120B.

Запускаем GPT-OSS-120B на 6 Гб GPU и ускоряем до 30 t-s. Вам нужна RAM, а не VRAM. Параметр -cmoe для ускорения MoE LLM

продолжить чтение

GPT-OSS-20B – 120B: Сухие цифры после реальных тестов

OpenAI выпустила GPT-OSS модели (https://huggingface.co/openai/gpt-oss-20b и https://huggingface.co/openai/gpt-oss-120b) , и сообщество немедленно начало экспериментировать. Но реальные бенчмарки производительности найти сложно. В этой статье представлены результаты нашего практического тестирования на арендованном железе через RunPod с использованием Ollama.Ремарка: Тесты проводились на Ollama для быстрого деплоя. Если будете использовать vLLM, то производительность будет примерно +30%, но он слабо адаптирован под консьюмерские GPU, за исключением RTX 5090. Что тестировалось:

продолжить чтение

Rambler's Top100