Распределённый инференс и шардирование LLM. Часть 3: настройка авторизации и интеграция с Open WebUI
Мы с вами подобрались к заключительной части статьи-инструкции об организации распределённого инференса и шардирования LLM в домашних условиях. Мы уже запустили модель Gemma 3 и протестировали API, самое время настроить авторизацию и удобный веб-интерфейс для взаимодействия с нашей моделью. Им станет бесплатный Open WebUI. В конце статьи попросим домашнюю LLM подвести итоги всей проделанной работы, а также поговорим о планах по развитию проекта.
Распределённый инференс и шардирование LLM. Часть 2: скрипт vLLM, Ray Serve для вывода API и настройка KubeRay Cluster
Продолжаем разбираться с тем, как можно эффективно работать с большими языковыми моделями, используя доступное оборудование.В этой части мы перейдём к организации распределённого инференса с помощью vLLM и обеспечим доступ к нему через Ray Serve. А ещё выясним, как запустить модель Gemma 3 в Ray-кластере и как проверить работу нашего OpenAI-совместимого эндпойнта с JWT-аутентификацией.
Распределённый инференс и шардирование LLM. Часть 1: настройка GPU, проброс в Proxmox и настройка Kubernetes
Привет, Хабр! Меня зовут Александр Подмосковный, я работаю в «Московском кредитном банке» и, как многие, увлёкся темой искусственного интеллекта. Когда модель DeepSeek R1 стала широко обсуждаться в сообществе, я заинтересовался, можно ли эффективно использовать её и другие крупные модели в домашних условиях, не прибегая к дорогостоящим облачным сервисам. Так как DevOps и инфраструктурой я увлекаюсь уже несколько лет, за это время у меня постепенно сформировалась домашняя лаборатория, на которой я и решил проверить эту идею.
Баланс между скоростью разработки, UX и безопасностью: погружение в трилемму современного IT
Вступление: больше чем трилемма – стратегический императив
Навайбкодил с Cursor AI рабочее приложение. Но в чём подвох?
Я устал писать бойлерплейт и базовые стили. В итоге заставил ИИ делать это за меня. Результаты, размышления и откровения — внутри.О тексте в двух предложениях
Дайджест ключевых ИT-новостей из атомной отрасли за прошедшие недели:
Новый релиз «Атом.Око», открытие Центра критической инфраструктуры, переход «ТОРЭКСа» на отечественную платформу «АКСИОМА». Привет, Хабр!Вы на канале, где мы, одни из представителей ИТ-сообщества Росатома, делимся обзором ключевых цифровых событий отрасли. Мы хотим, чтобы наши читатели были в курсе актуальных новостей атомной отрасли. Здесь — все об инновациях, системах и решениях, которые трансформируют производство, управление и безопасность.
DUC meetup #1: приручаем Cilium и строим домашний LLM-кластер на Deckhouse
20 мая пройдёт наш первый инженерный митап Deckhouse User Community. В программе — доклады про работу Cilium и распределённый инференс LLM в домашних условиях с использованием K8s. После них проведём открытую дискуссию с инженерами Deckhouse и «Московского кредитного банка». Присоединяйтесь, регистрация уже открыта.ПрограммаCilium: всё, о чём вы догадывались, но боялись спросить
Policy as Code в Apache Kafka: опыт внедрения Open Policy Agent
1 Краткая постановка проблемыНа фоне опыта в развертывании нескольких кластеров Kafka появилось понимание того, что стандартные Access Control List'ы (ACL) неудобны по следующим причинам:сложность в конфигурировании через одну из вспомогательных утилит Kafka (bash‑скрипты, поставляемые в комплекте);необходимость вести реестр разрешений отдельно от ПО‑конфигуратора;

