gpu.
Как сократить расходы на инференс LLM? Разберемся на вебинаре
Привет, Хабр! Присоединяйтесь к вебинару 22 августа в 16:00 мск. Особенно ждем ML- и MLOps-инженеров, Data Scientists и NLP-инженеров, CTO и менеджеров ML-проектов. Поделимся опытом команды «Актион», которая сократила расходы на GPU на 60% и увеличила пропускную способность в 36 раз благодаря решению Compressa на инфраструктуре Selectel. Участникам дадим бесплатный двухнедельный тест LLM-платформы Compressa на инфраструктуре Selectel с GPU.Зарегистрироваться →ПрограммаПроблемы внешних API и open-source моделей «из коробки»Способы оптимизации LLM-моделей на своем сервере

