GPU vs vGPU: что выбирать для быстрого запуска AI-сценариев и контроля над данными

Меня зовут Дмитрий Сергеев. Я менеджер продукта «виртуальные серверы» (GPU) в компании VK Tech.

Одна из ключевых проблем внедрения нейросетей в бизнес — отсутствие подготовленной ИТ-инфраструктуры. Почти всегда приходится разбираться, какая из тысяч моделей подойдет для задачи и будет учитывать специфику и процессы бизнеса. Часто это становится дорогим занятием без предсказуемого результата.

В этой статье я на примере сервисов VK Cloud разберу, в каких сценариях востребованы физические GPU, а также где и как их можно эффективно заменить с помощью vGPU, чтобы оптимизировать бюджет и сэкономить на аренде полного объема ресурсов.

Что такое GPU и зачем они нужны в ИТ-инфраструктуре

GPU в широком понимании — это простая видеокарта, которая нужна для работы с графикой. Но на практике сферы ее применения уже вышли за привычные рамки. Так, в ИТ-среде GPU — прежде всего процессор, архитектура которого заточена под быструю параллельную обработку данных. В отличие от центрального процессора (CPU), который решает задачи последовательно, GPU способен одновременно выполнять тысячи вычислений. Именно эта способность делает GPU полезными для широкого спектра бизнес-задач.

Так, GPU уже сейчас применяются в качестве базового, практически незаменимого инструмента для разных сценариев.

Машинное обучение ^[1]. По сравнению с CPU, GPU ускоряет сложные вычисления, классификацию изображений, обучение нейросетей, распознавание речи.
LLM и RAG. С помощью GPU можно создавать LLM и RAG-ассистентов под свои бизнес-задачи, обучать их и ускорять время ответов готовых моделей.
Транскодинг видео. На серверах с GPU можно легко транскодировать видео в режиме реального времени: преобразовывать файлы из одного формата в другой, адаптировать видеопотоки под разные размеры экранов.
Работа с графикой и рендеринг видео. Использование GPU позволяет создавать 3D-модели и обрабатывать фотографии без зависаний, заниматься монтажом видео, рендерингом, кодированием и не только.
Рабочие места VDI. Развертывание рабочих мест с GPU в облаке позволяет безопасно работать с любыми ресурсоемкими приложениями из любой точки мира, где есть интернет.

Однако закупка, установка и поддержка собственной физической инфраструктуры на базе GPU — это дорогостоящий и сложный процесс. Он требует значительных капитальных вложений (CapEx), регулярного обновления «железа» и привлечения высококвалифицированных специалистов для обслуживания. Масштабирование такой системы также представляет собой нетривиальную задачу, которая может привести к простою оборудования или его нехватке в пиковые моменты.

Именно поэтому все больше компаний выбирают более гибкую модель — аренду мощностей. Такой подход дает комплексный эффект:

Превращение капитальных затрат в операционные. Оплачивается только время, когда ресурсы реально используются, что исключает необходимость крупных единовременных вложений и позволяет планировать бюджет.
Мгновенный доступ к ресурсам. Не нужно ждать поставки и монтажа оборудования. Нужные мощности можно развернуть за считаные минуты.
Гибкое масштабирование. Инфраструктуру можно легко увеличивать или уменьшать в зависимости от текущей нагрузки, избегая простоев или нехватки производительности.
Отсутствие хлопот с поддержкой. Провайдер берет на себя все заботы по обслуживанию, обновлению и обеспечению отказоустойчивости оборудования.

Аренда видеокарт доступна и в облаке VK Cloud в рамках сервиса Cloud GPU ^[2]. Причем на выбор доступны графические ускорители для высокопроизводительных вычислений, машинного обучения и сложной аналитики, 3D-моделирования и работы с видео. Об этом немного подробнее.

GPU-ускорители в VK Cloud

В облаке VK Cloud доступен парк различных графических ускорителей, предназначенных для разных типов нагрузок. Рассмотрим некоторые из них.

Cloud GPU 141 Гб

Это специализированное решение для пиковых нагрузок в области ИИ и высокопроизводительных вычислений (HPC). Оно представляет собой единый аппаратный модуль на базе ускорителя с огромным объемом видеопамяти HBM3e (141 Гб) и пропускной способностью в 4,8 TB/s, что позволяет запускать очень крупные опенсорсные модели целиком (например, LLaMA-2 на 70 млрд параметров или gpt-oss на 120 млрд параметров).

GPU vs vGPU: что выбирать для быстрого запуска AI-сценариев и контроля над данными - 2

Для задач, требующих еще большей суммарной мощности, несколько таких ускорителей объединяются в рамках серверной платформы HGX. Это сервер, объединяющий восемь графических процессоров в формфакторе SXM5 и оснащенный передовой высокоскоростной памятью ^[3] HBM3e. Для соединения нескольких серверов высокоскоростной сетью 400 Gb/s используются свичи Quantum-2 InfiniBand.

GPU vs vGPU: что выбирать для быстрого запуска AI-сценариев и контроля над данными - 3

Универсальный GPU ускоритель L40S

Подходит не только для обучения ИИ-моделей или инференс-систем, но и в качестве основы для систем рендеринга 3D-графики, визуализации или создания и запуска приложений.

L40S является альтернативой А100.

Так, в контексте задач машинного обучения L40S не просто «догоняет», а во многих сценариях оптимизирован лучше для современных фреймворков. У нее больше TFLOPS в FP32 и ниже стоимость аренды в час, чем у A100. Аналогично и в части рендеринга графики и обработки изображений на стороне сервера — L40S предлагает более мощный функционал для визуализации с равноценной поддержкой кодирования и декодирования видео.

GPU vs vGPU: что выбирать для быстрого запуска AI-сценариев и контроля над данными - 4

L4 24 Gb

Универсальный ускоритель для обработки видео, ИИ и графических enterprise-приложений. Обеспечивает пользователям развертывание виртуальных рабочих мест с GPU в облаке без необходимости устанавливать дорогое оборудование локально.

Позволяет бизнесу централизованно управлять рабочими местами, а сотрудникам — безопасно работать с графикой, 3D-проектированием, архитектурой, чертежами, анимацией, инженерными приложениями из любой точки мира.

GPU vs vGPU: что выбирать для быстрого запуска AI-сценариев и контроля над данными - 5

Помимо этих моделей, в парке VK Cloud доступны и другие варианты карт под разные задачи.

Карта	Обучение	Инференс	3D-графика	Кодирование видео	Актуальное поколение
Cloud GPU 141 Гб	Да	Да	Нет	Нет	Да
L40S 48 Гб	Частично	Да	Да	Да	Да
L4 24 Гб	Нет	Частично	Да	Да	Да
А100 40/80 Гб	Да	Да	Нет	Нет	Нет
А30 24 Гб	Да	Частично	Нет	Нет	Нет
V100 16/32 Гб	Частично	Да	Нет	Да	Нет

Стоит отметить, что карты подключаются как PCI-устройства и пробрасываются напрямую в виртуальную машину с помощью технологии passthrough.

При этом между виртуальными машинами и физическими картами находится слой гипервизора, который позволяет создавать готовые конфигурации (флейворы) с разным количеством ускорителей (до восьми штук в одном флейворе).

GPU vs vGPU: что выбирать для быстрого запуска AI-сценариев и контроля над данными - 6

Такая реализация исключает необходимость в дополнительных «прослойках», что позволяет исключить задержки и получать максимум производительности от видеокарт.

Однако у этого подхода есть и обратная сторона — масштабировать подобную архитектуру сложно, поскольку для этого требуется много физических устройств. Кроме того, ресурсы целой карты может быть сложно утилизировать полностью, особенно при неравномерных или периодических нагрузках. Поэтому в ряде случаев гораздо рациональнее использовать не GPU, а vGPU.

От GPU к vGPU

vGPU (виртуальный графический процессор) — это технология, которая позволяет разделить ресурсы одной физической видеокарты между несколькими виртуальными машинами. То есть вместо того чтобы выделять целую и зачастую избыточную карту под одну задачу, можно использовать лишь ее часть — логический срез с гарантированным объемом видеопамяти и вычислительной мощности.

В основе vGPU лежит технология виртуализации NVIDIA, которая работает по принципу временного разделения (time-sliced): физический ускоритель поочередно выполняет задачи от разных виртуальных машин, создавая у каждой из них иллюзию наличия собственного выделенного устройства.

Например, в облаке VK Cloud vGPU предоставляются в соответствии со следующей архитектурой:

GPU vs vGPU: что выбирать для быстрого запуска AI-сценариев и контроля над данными - 7

На нижнем слое находятся физические движки самой GPU: 3D/Compute для вычислений, а также видеоэнкодеры и декодеры.
Слоем выше располагаются компоненты NVIDIA: vGPU Manager, отвечающий за корректное приземление лицензирования, и vGPU Host Drivers, которые обеспечивают работу драйверов как на сервере, так и внутри виртуальных машин.
Далее каждой виртуальной машине выделяется свой размер фреймбуфера. Более того, для каждого такого выделения используется конкретный профиль карты — сущность, которая определяет, сколько гигабайтов видеопамяти будет выделено из общей карты для выполнения нагрузки на модели.

Наличие лицензии для работы с NVIDIA vGPU — обязательно. Безусловно, запустить виртуальную машину без нее можно, но это будет иметь серьезные последствия. Так, через 20 минут производительность (FPS) начнет падать до 15, а CUDA (Compute Unified Device Architecture) деградирует. Если виртуальная машина так и не получит лицензию, то через 24 часа FPS упадет до 3, CUDA полностью отключится, а планировщик GPU включит троттлинг, что сделает вычисления практически невозможными.

При этом все карты, доступные для виртуализации, можно разделить на несколько типов профилей, которые определяют их назначение и производительность:

Q-series. Этот профиль обеспечивает до 60 кадров в секунду и идеально подходит для ресурсоемких вычислений, сложной 3D-графики и высокопроизводительных рабочих станций (VDI).
B-series. Этот профиль рассчитан на 45 кадров в секунду и оптимален для офисных задач. Его основное назначение — развертывание виртуальных рабочих столов (VDI) для сотрудников, не работающих с тяжелой графикой.

В рамках тестирования в VK Cloud мы выбрали Q-серию как более универсальную, поскольку она обеспечивает максимальную производительность и подходит как для вычислений, так и для работы с графикой. И, что особенно важно, карты можно делить довольно гибко. Например, карту L4 на 24 Гб (L4-24Q) можно разделить на 24 части вплоть до L4S-1Q с 1 Гб видеопамяти.

Оптимальные сценарии применения vGPU

Есть немало сценариев, где vGPU не просто эффективны, но и позволяют экономить до 60% бюджета по сравнению с арендой целого GPU. К подобным можно отнести:

Инференс небольших AI-моделей. Ресурсов vGPU будет достаточно для создания чат-ботов, классификации текстов, работы с небольшими языковыми моделями (SLM) на 1–7 млрд параметров.
Компьютерное зрение ^[4] и видеоаналитика. С помощью vGPU можно эффективно решать задачи детекции людей, подсчета посетителей и анализа видеопотока в реальном времени.
Эмбеддинговые модели. vGPU отлично подходит для векторизации и скоринга запросов при поиске в базе знаний для моделей объемом не более 7 млрд параметров.
Работа с графикой и рендеринг видео. Производительности выделенного сегмента карты (vGPU) достаточно для комфортной работы с графическим контентом: создания 3D-моделей, обработки фотографий, монтажа видео и наложения эффектов онлайн без зависаний.
Рабочие места с VDI. Развертывание виртуальных рабочих мест с vGPU в облаке позволяет сотрудникам безопасно работать с ресурсоемкими приложениями (например, AutoCAD или Revit) из любой точки мира без необходимости в мощном локальном оборудовании.

И это лишь часть сценариев, ведь использование vGPU не ограничивает потенциал видеокарты, а лишь позволяет задействовать ровно тот объем ресурсов, который нужен для конкретной задачи.

Что в итоге

GPU остается предпочтительным вариантом для задач, требующих максимальной пиковой производительности и прямого доступа к «железу»:

обучение сверхкрупных нейросетей с нуля;
сложный 3D-рендеринг в реальном времени;
научные вычисления с непрерывной высокой нагрузкой.

В то же время технология vGPU выступает как рациональная и эффективная альтернатива для сценариев с неравномерной нагрузкой или задачами, которым не нужна вся мощь отдельной карты. Причем, как показывает практика, во многих профильных кейсах vGPU справляется ничуть не хуже полноценной физической карты, но позволяет оптимизировать затраты на инфраструктуру до 60%.

Поэтому выбор между GPU и vGPU — это не вопрос превосходства одной технологии над другой, а поиск оптимального инструмента под конкретные условия. И в VK Cloud можно закрыть обе потребности ^[5] — в рамках сервиса Cloud GPU ^[2] платформа позволяет использовать как GPU, так и vGPU с сохранением контроля над данными и инфраструктурой, предсказуемыми затратами и в полном соответствии с требованиями регуляторов (152-ФЗ, PCI DSS, ГОСТ Р 57580, ISO 27001/17/18).

Не теряйте время — регистрируйтесь в VK Cloud, гибко управляйте бюджетом на аренде GPU с тарифами от нескольких копеек в минуту или мгновенно масштабируйте бизнес до уровня кластеров с NVLink/NVSwitch, опережая конкурентов на рынке ИИ уже сегодня!

Автор: dmitriy_sergeev

Источник ^[6]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/32431

URLs in this post:

[1] обучение: http://www.braintools.ru/article/5125

[2] Cloud GPU: https://cloud.vk.com/cloud-gpu/

[3] памятью: http://www.braintools.ru/article/4140

[4] зрение: http://www.braintools.ru/article/6238

[5] потребности: http://www.braintools.ru/article/9534

[6] Источник: https://habr.com/ru/companies/vktech/articles/1053456/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1053456

Нажмите здесь для печати.