DevOps. - страница 14

Распределённый инференс и шардирование LLM. Часть 3: настройка авторизации и интеграция с Open WebUI

Мы с вами подобрались к заключительной части статьи-инструкции об организации распределённого инференса и шардирования LLM в домашних условиях. Мы уже запустили модель Gemma 3 и протестировали API, самое время настроить авторизацию и удобный веб-интерфейс для взаимодействия с нашей моделью. Им станет бесплатный Open WebUI. В конце статьи попросим домашнюю LLM подвести итоги всей проделанной работы, а также поговорим о планах по развитию проекта.

продолжить чтение

Распределённый инференс и шардирование LLM. Часть 2: скрипт vLLM, Ray Serve для вывода API и настройка KubeRay Cluster

Продолжаем разбираться с тем, как можно эффективно работать с большими языковыми моделями, используя доступное оборудование.В этой части мы перейдём к организации распределённого инференса с помощью vLLM и обеспечим доступ к нему через Ray Serve. А ещё выясним, как запустить модель Gemma 3 в Ray-кластере и как проверить работу нашего OpenAI-совместимого эндпойнта с JWT-аутентификацией.

продолжить чтение

Распределённый инференс и шардирование LLM. Часть 1: настройка GPU, проброс в Proxmox и настройка Kubernetes

Привет, Хабр! Меня зовут Александр Подмосковный, я работаю в «Московском кредитном банке» и, как многие, увлёкся темой искусственного интеллекта. Когда модель DeepSeek R1 стала широко обсуждаться в сообществе, я заинтересовался, можно ли эффективно использовать её и другие крупные модели в домашних условиях, не прибегая к дорогостоящим облачным сервисам. Так как DevOps и инфраструктурой я увлекаюсь уже несколько лет, за это время у меня постепенно сформировалась домашняя лаборатория, на которой я и решил проверить эту идею. 

продолжить чтение

Баланс между скоростью разработки, UX и безопасностью: погружение в трилемму современного IT

Вступление: больше чем трилемма – стратегический императив

продолжить чтение

40 открытых уроков мая: куда движется мир IT в 2025 году

продолжить чтение

Как бессерверные gpu делают AI доступным. Введение в платформу PrimeWay

продолжить чтение

Навайбкодил с Cursor AI рабочее приложение. Но в чём подвох?

Я устал писать бойлерплейт и базовые стили. В итоге заставил ИИ делать это за меня. Результаты, размышления и откровения — внутри.О тексте в двух предложениях

продолжить чтение

Дайджест ключевых ИT-новостей из атомной отрасли за прошедшие недели:

Новый релиз «Атом.Око», открытие Центра критической инфраструктуры, переход «ТОРЭКСа» на отечественную платформу «АКСИОМА». Привет, Хабр!Вы на канале, где мы, одни из представителей ИТ-сообщества Росатома, делимся обзором ключевых цифровых событий отрасли. Мы хотим, чтобы наши читатели были в курсе актуальных новостей атомной отрасли. Здесь — все об инновациях, системах и решениях, которые трансформируют производство, управление и безопасность.

продолжить чтение

DUC meetup #1: приручаем Cilium и строим домашний LLM-кластер на Deckhouse

20 мая пройдёт наш первый инженерный митап Deckhouse User Community. В программе — доклады про работу Cilium и распределённый инференс LLM в домашних условиях с использованием K8s. После них проведём открытую дискуссию с инженерами Deckhouse и «Московского кредитного банка». Присоединяйтесь, регистрация уже открыта.ПрограммаCilium: всё, о чём вы догадывались, но боялись спросить

продолжить чтение

Policy as Code в Apache Kafka: опыт внедрения Open Policy Agent

1 Краткая постановка проблемыНа фоне опыта в развертывании нескольких кластеров Kafka появилось понимание того, что стандартные Access Control List'ы (ACL) неудобны по следующим причинам:сложность в конфигурировании через одну из вспомогательных утилит Kafka (bash‑скрипты, поставляемые в комплекте);необходимость вести реестр разрешений отдельно от ПО‑конфигуратора;

продолжить чтение

Rambler's Top100