Распределённый инференс и шардирование LLM. Часть 2: скрипт vLLM, Ray Serve для вывода API и настройка KubeRay Cluster

Продолжаем разбираться с тем, как можно эффективно работать с большими языковыми моделями, используя доступное оборудование.В этой части мы перейдём к организации распределённого инференса с помощью vLLM и обеспечим доступ к нему через Ray Serve. А ещё выясним, как запустить модель Gemma 3 в Ray-кластере и как проверить работу нашего OpenAI-совместимого эндпойнта с JWT-аутентификацией.

продолжить чтение

Оставлено в

Мощнее, холоднее и дешевле, чем RTX 4060 Ti: обзорщики высоко оценили RTX 5060 Ti 16 ГБ

Это уже не карточка начального уровня

продолжить чтение

Оставлено в

ЦОД 2050: три реалистичные концепции развития дата-центров

Что будет с дата-центрами, когда физические пределы достигнуты? Когда PUE упадёт ниже единицы, а каждая новая стойка будет выходить в минус? Ответ уже начинает проявляться. Новый виток эволюции ЦОДов не в росте плотности или увеличении каналов. Он — в изменении самой парадигмы: дата-центр не как здание, а как среда, экосистема, организм. В статье представил три сценария будущего дата-центров. Спойлер: ни одна из описанных ниже концепций не является фантастикой. Все они — логическое продолжение уже происходящих процессов.

продолжить чтение

Оставлено в

Распределённый инференс и шардирование LLM. Часть 1: настройка GPU, проброс в Proxmox и настройка Kubernetes

Привет, Хабр! Меня зовут Александр Подмосковный, я работаю в «Московском кредитном банке» и, как многие, увлёкся темой искусственного интеллекта. Когда модель DeepSeek R1 стала широко обсуждаться в сообществе, я заинтересовался, можно ли эффективно использовать её и другие крупные модели в домашних условиях, не прибегая к дорогостоящим облачным сервисам. Так как DevOps и инфраструктурой я увлекаюсь уже несколько лет, за это время у меня постепенно сформировалась домашняя лаборатория, на которой я и решил проверить эту идею.

продолжить чтение

Оставлено в

ЦОДы, GPU, NVIDIA A16, охлаждение: о серьезных вещах простым языком

Добрый день, дорогой читатель. Меня зовут Селезнев Павел, я инженер второй линии поддержки в облачном провайдере Nubes. С каждой новой статьёй я расту в должности, поэтому пишу ещё одну :)Несколько месяцев назад нам с коллегой поставили задачу: провести сравнительные тесты, чтобы проверить, насколько сильно разогреется видеокарта под нагрузкой при использовании воздуха и диэлектрической жидкости.Об этих тестах я и расскажу в статье, которая должна пролить свет на жизнь GPU в ЦОДе.Предисловие

продолжить чтение

Оставлено в

Из чего сделаны GPU от Т1 Облако? Фотообзор и примеры применения

Привет, Хабр. На связи команда Т1 Облако. Если вы следите за новостями в мире серверных видеокарт для ML, то точно знаете об Nvidia H100 — вычислительной молотилке на GPU, даже не имеющей видеовыхода. Она играет важную роль в области машинного обучения, анализа больших данных, 3D‑моделирования и много другого. Устройство корпоративного уровня, то есть домой себе такое купят разве что полтора энтузиаста.

продолжить чтение

Оставлено в

Подробное руководство по облачной инфраструктуре для ИИ-проектов

Всем привет! Меня зовут Александр, я COO в SaaS-платформе аналитики данных. Последний год активно изучаю внедрение AI-решений в кросс-функциональные процессы. Делюсь материалами, которые помогают:Продуктовым менеджерам — интегрировать AI без перегрузки команд;Разработчикам — выбирать инструменты под конкретные бизнес-задачи;Специалистам по данным — избегать ошибок в production-развертывании.У себя в телеграм-канале делюсь сжатыми и структурированными саммери статей.Сегодняшний перевод —

продолжить чтение

Оставлено в

Ведущий разработчик ChatGPT и его новый проект — Безопасный Сверхинтеллект

Многие знают об Илье Суцкевере только то, что он выдающийся учёный и программист, родился в СССР, соосновал OpenAI и входит в число тех, кто в 2023 году изгнал из компании менеджера Сэма Альтмана. А когда того вернули, Суцкевер уволился по собственному желанию в новый стартап Safe Superintelligence («Безопасный Сверхинтеллект»). Илья Суцкевер действительно организовал OpenAI вместе с Маском, Брокманом, Альтманом и другими единомышленниками, причём был главным техническим гением в компании. Ведущий учёный OpenAI сыграл ключевую роль в разработке ChatGPT и других продуктов. Сейчас Илье всего 38 лет — совсем немного для звезды мировой величины.

продолжить чтение

Оставлено в

Виноград, Фурье и немного наивности: 4 подхода к реализации сверток с простыми примерами

Привет, Хабр! Меня зовут Кирилл Колодяжный, я работаю в YADRO и продолжаю изучать машинное обучение на С++. Я уже писал, как реализовать модели для распознавания лиц на фото и для поиска объекта в пространстве с помощью computer vision. Ссылки на материалы ищите в конце статьи.Сегодня затрону «математическую» тему и расскажу о реализации сверток: что это за операция и какие есть алгоритмы для вычисления. Приведу простые примеры с кодом, чтобы вы могли опробовать решения.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

gpu.

Объяснение графических процессоров для тех, кто привык работать с ЦП

Распределённый инференс и шардирование LLM. Часть 2: скрипт vLLM, Ray Serve для вывода API и настройка KubeRay Cluster

Мощнее, холоднее и дешевле, чем RTX 4060 Ti: обзорщики высоко оценили RTX 5060 Ti 16 ГБ

ЦОД 2050: три реалистичные концепции развития дата-центров

Распределённый инференс и шардирование LLM. Часть 1: настройка GPU, проброс в Proxmox и настройка Kubernetes

ЦОДы, GPU, NVIDIA A16, охлаждение: о серьезных вещах простым языком

Из чего сделаны GPU от Т1 Облако? Фотообзор и примеры применения

Подробное руководство по облачной инфраструктуре для ИИ-проектов

Ведущий разработчик ChatGPT и его новый проект — Безопасный Сверхинтеллект

Виноград, Фурье и немного наивности: 4 подхода к реализации сверток с простыми примерами

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

gpu.