Распределённый инференс и шардирование LLM. Часть 1: настройка GPU, проброс в Proxmox и настройка Kubernetes
Привет, Хабр! Меня зовут Александр Подмосковный, я работаю в «Московском кредитном банке» и, как многие, увлёкся темой искусственного интеллекта. Когда модель DeepSeek R1 стала широко обсуждаться в сообществе, я заинтересовался, можно ли эффективно использовать её и другие крупные модели в домашних условиях, не прибегая к дорогостоящим облачным сервисам. Так как DevOps и инфраструктурой я увлекаюсь уже несколько лет, за это время у меня постепенно сформировалась домашняя лаборатория, на которой я и решил проверить эту идею.
Сервер туманного гейминга или проблемы на ровном месте за 30 руб.-ч
К написанию этой статьи меня подтолкнули две причины. Во-первых в силу сложившихся изначально причин тривиальная задача превратилась в интересное и увлекательное приключение. Во-вторых точка в этой истории еще не поставлена, а среди комментариев встречаются полезные советы.Начало этого приключения уходит корнями в 2020 год. Времена санитарных ограничений мы с семьей проводили в сельском доме родителей, улучшая в нем жилищные условия. Чистый воздух, свободное время, интерес к электронным устройствам и стремление к новому опыту привели меня в мир домашней автоматизации и майнинга.

