volcano scheduler.

DRAматургия GPU в Kubernetes: зачем нужен DRA, если Device Plugin работает? Разбираем грабли AI-инфраструктуры

Device Plugin честно отработал свою эпоху: он научил Kubernetes видеть GPU и выдавать их подам. Но с AI‑бумом GPU превратились в общий ресурс для десятков команд. Тут уже не «лишь бы запустилось», а нужны жёсткая изоляция, топология и утилизация. Старая модель упёрлась в потолок. Чтобы обойти её ограничения, команды вынуждены городить поверх «второй Kubernetes». А это дорого, часто ломается и плохо масштабируется.

продолжить чтение