- BrainTools - https://www.braintools.ru -

Почему мощных видеокарт недостаточно для ИИ

Почему мощных видеокарт недостаточно для ИИ - 1

Привет! Меня зовут Дмитрий Шиченко, я руководитель отдела разработки встроенных систем в Selectel [1]. Сегодня компании активно находят способы применения ИИ, чтобы повышать эффективность бизнес-процессов. Но в погоне за быстрым результатом они часто упускают ключевые детали внедрения, которые в итоге и определяют успех или провал проекта. 

В результате процесс внедрения ИИ в бизнес выглядит для них следующим образом: компания хочет увеличить эффективность за счет ИИ, поэтому покупает сервер с мощными видеокартами, развертывает модель и PyTorch — и думает, что на этом все готово. Однако на практике все сложнее: без тщательной подготовки эффективность от GPU-сервера будет минимальной. Это все равно, что ехать на болиде Формулы-1 по гравию — мощность есть, но результата нет. 

В статье разберем, как построить сбалансированную ИИ-инфраструктуру для инференса и какие принципы мы заложили в собственный AI-сервер Selectel. 

Из чего состоит пайплайн инференса

Не существует универсального сервера для ИИ. Есть инфраструктура, которая заточена под конкретный пайплайн и реальный профиль нагрузки.

Прежде чем перейти к выбору железа для ИИ, зафиксируем базовую информацию. При построении ИИ-систем можно выделить три уровня оптимизации: прикладной, инфраструктурный и аппаратный.

Прикладной уровень показывает, насколько эффективно модель решает конкретную задачу и использует доступные вычислительные ресурсы. Сюда входят выбор архитектуры модели, квантование, методы параллелизма, алгоритмы инференса и оптимизация вычислений.

Инфраструктурный уровень отвечает за стабильную работу модели в продакшене. Здесь уже говорим про уровень обсервации, управление жизненным циклом и отказоустойчивость. Такой подход уходит в сторону MLOps.

Аппаратный уровень связывает требования модели и инфраструктуры с реальными ресурсами. С его помощью можно узнать, как устроена вычислительная нода, из каких компонентов она состоит и как GPU, CPU, память [2], сеть и хранилище влияют на производительность моделей. 

Представим, что у нас есть большая языковая модель или модель компьютерного зрения [3]. Вот так будет выглядеть пайплайн инференса в реальном времени. Давайте пошагово разберем, что происходит на аппаратном уровне.  

Почему мощных видеокарт недостаточно для ИИ - 2

Сначала мы получаем пользовательский запрос по сети, который нагружает сетевую карту. Далее загружаем полученные данные в оперативную память, после чего начинается постоянный процесс обмена данными между оперативной памятью и центральным процессором. 

Именно на CPU происходит предпроцессинг — предварительная обработка данных, то есть нормализация и токенизация. Нормализация приводит исходный текст или числовые данные к единому стандартизированному виду. Затем текст разбивается на фрагменты (токены), с которыми непосредственно работает архитектура нейросети-трансформера. 

После этого мы формируем очередь запросов в определенной последовательности, чтобы передать эти данные в GPU. При этом отслеживаем совместимые запросы и объединяем их в батчи. Дальше передаем все запросы по PCIe-шине в видеопамять. 

Один из самых ресурсоемких этапов пайплайна — это префил. Делаем первый проход и используем декодирование, где с каждым запросом генерируем последующий токен с помощью KV-кэша.

Выходные данные модели передаем на центральный процессор, где и происходит их постобработка. Из токенов получаем человекочитаемые символы и слова, которые передаем на сетевую карту и отдаем конечному пользователю. 

Как видите, процесс завязан не только на GPU. В пайплайне много разных элементов, которые вносят непосредственный вклад в эффективность и производительность всей системы. 

Почему мощных видеокарт недостаточно для ИИ - 3

Хотите выиграть призы и бонусы на аренду серверов?

Приглашаем решить ИТ-кроссворд! Более 100 вопросов на разные темы из мира ИИ и машинного обучения [4] — ежедневно с 6 по 9 июля

Зарегистрироваться → [5]

Как построить сбалансированную и эффективную ИИ-инфраструктуру для инференса

Наш отдел детально разобрал весь пайплайн по шагам: как движутся данные, какие вычислительные узлы задействованы и как они взаимодействуют между собой. В результате мы разработали AI-сервер Selectel с прицелом на сбалансированный инференс. Нам удалось уйти от простой агрегации GPU к гармонизации работы всех элементов инференса: видеокарт, центральных процессоров, шин ввода-вывода и оперативной памяти. 

AI-сервер Selectel [1] — это 8U-платформа для высокопроизводительных вычислений. В нее можно установить до 16 полноформатных видеокарт, например RTX Pro 6000 Server Edition, чтобы получить большое количество CUDA-ядер на одну ноду. К материнской плате подключены два процессора Intel® Xeon® 6, в каждом до 144 ядер, которые позволяют без задержек подготавливать данные для обработки на GPU. Кроме того, сервер поддерживает NVlink, современную архитектуру PCIe 5.0 и возможность установки до 8 ТБ оперативной памяти DDR5. 

Процессор

Intel® Xeon® 6700E

Intel® Xeon® 6500P

Архитектура

Sierra Forest

Granite Rapids

Количество ядер

64–144

32–86

Количество потоков

144

64–172

Базовая частота / Turbo

2,4 ГГц / 3,2 ГГц

2 ГГц / 4,3 ГГц

Количество сокетов

2

2

Давайте на примере AI-сервера разберем, какие архитектурные принципы позволяют оптимизировать вывод моделей и какие легли в основу разработки нашей платформы. 

Баланс ресурсов

В пайплайне инференса важно отслеживать баланс между CPU и GPU. С одной стороны у нас есть современные процессоры до 144 ядер, которые позволяют выполнять предпроцессинг больших объемов данных. Их можно обрабатывать на актуальных графических картах NVIDIA® без задержек. 

С другой стороны важным элементом производительности является соотношение вычислительной ноды и оперативной памяти. С 4 ТБ памяти DDR5 на частоте 6 400 МГц увеличивается пропускная способность и скорость доступа к памяти.

Интерконнекты

Интерконнекты отвечают за соединение всех компонентов внутри сервера. Обмен данными между CPU и GPU происходит по PCIe 5.0 с пропускной способностью до 128 ГБ/с. Передача данных между GPU осуществляется через NVLink с поддержкой до четырех карт и пропускной способностью до 900 ГБ/с.

При построении больших многонодовых систем важнейшим фактором является связанность между нодами, где пропускная способность достигает 400 ГБ/с.

Топология

Мы разрабатывали топологию материнской платы с оглядкой на несколько составляющих. Во-первых, на NUMA-ноды, где каждый вычислительный узел имеет быстрый локальный доступ к оперативной памяти. 

Во-вторых, на детерминированную архитектуру PCIe-линий. Их мы делим на две зоны доступности: 

  • tier-1 — это графические карты, которые связаны с CPU; 

  • tier-2 — сетевые карты и прочая периферия, которые нужны для того, чтобы пользователь мог сбалансировано получать быстрые ответы. 

В-третьих, на CXL-совместимую экосистему. Это наш задел на будущее, о котором я чуть позже подробнее расскажу. 

Дезагрегация ресурсов

Ниже — таблица этапов инференса и ключевых ресурсов, от которых зависит производительность на каждом этапе. Как мы видим, перечисленные проблемы могут отразиться на клиенте и стать заметными для конечного пользователя. 

Почему мощных видеокарт недостаточно для ИИ - 4

При этом фиксированный набор ресурсов сервера не может удовлетворить динамический спрос на ресурсы. Возникает коллизия: как использовать фиксированный набор ресурсов для решения динамических задач — и не просто решать, а делать это эффективно и надежно? Ответ кроется в архитектурном подходе, который называется дезагрегацией.

Дезагрегация позволяет гибко настраивать и подключать ресурсы. С помощью высокоскоростных интерконнектов и протокола CXL мы подключаем удаленные пулы RAM, CPU, GPU, дисков и получаем масштабируемую среду под конкретную нагрузку. Кроме того, дезагрегация предоставляет для всех компонентов системы единое адресное пространство, которое превращает  весь дата-центр в единый суперкомпьютер. 

Почему мощных видеокарт недостаточно для ИИ - 5

Теперь переходим от теории к практике: рассмотрим, как работает дезагрегация на реальном железе в условиях современных задач. Возьмем кейс с подключением удаленной оперативной памяти и последовательно запустим на сервере тесты.

Тест №1 

Это синтетический тест Memory Latency Checker с тремя разными видами памяти: 

  • локальная RAM, установленная в сервере, — 8x 32 ГБ Samsung 4800 DDR5 M321R4GA0BB0-CQKET(256 ГБ);

  • удаленная память, подключенная через LRDR9G91, CXL Expander и 2x 128 ГБ Samsung 4800 DDR5 M321R4GA0BB0-CQKET (512 ГБ);

  • смешанная память — локальная и удаленная.

Итак, рассмотрим график зависимости задержки инъекции от пропускной способности памяти. Красная линия — локальная память, которая установлена в сервере. Синяя линия — удаленная подключенная память, желтая — смешанная память. 

Задержка инъекции (delay injection) — это параметр который определяет время задержки между последовательными запросами к памяти. То есть времени ожидания перед тем, как система отправит следующий запрос к памяти после предыдущего запроса.

Почему мощных видеокарт недостаточно для ИИ - 6

Наглядно видно, что в синтетических тестах CXL заметно уступает обычной оперативной памяти. Однако в реальных приложениях нулевых задержек не бывает, поэтому накладные издержки на запросы к кешу и RAM будут всегда присутствовать.

Например, в PostgreSQL задержка инъекции составляет около 200 нс. Поскольку архитектура моделей отличается от баз данных, в качестве ориентира будем использовать базовую задержку в 50 нс.

Получается, что с учетом задержки 50 нс, пропускная способность локальной памяти составляет порядка 270 Гбит/с или 33,75 ГБ/с, а пропускная способность смешанной памяти — 50 Гбит/с или 6,25 ГБ/с. Как видите, пропускная способность хуже примерно в 5,5 раз. 

Тест №2 

Здесь те же условия, но измерять будем отношение задержки ответа памяти к задержки инъекции. Красным обозначен локальная RAM, синим — смешанная RAM. 

Задержки ответа (latency) — это время задержки между моментом, когда процессор запрашивает данные из модуля памяти, и моментом, когда эти данные готовы к использованию.

На базовой задержки приложения в 50 нс мы получаем кратную разницу: примерно 170 нс для локального RAM и 1 170 нс для RAM+CXL. Соответственно, и в этом показателе разница в 6,7 раза. 

Почему мощных видеокарт недостаточно для ИИ - 7

На основе этих графиков можно сделать вывод, что за все приходится платить. Гибкое масштабирование серверов позволяет быстро наращивать ресурсы, если возрастает в этом потребность [6]. Но с другой стороны задержки доступа к памяти, которые мы получаем, выходят за рамки стандартных и незаметных для пользователя. Полная утилизация является важным параметром, который позволяет снизить затраты на внедрение ИИ в компаниях, но на данном этапе развития технические ограничения не позволяют получить этой выгоды.

На мой взгляд, с развитием технологий интерконнектов, в том числе CXL 3.0, одним из ключевых подходов для возрастающих ИИ-нагрузок станет дезагрегация. Компании все чаще будут строить свою инфраструктуру на базе гибких ресурсов, потому что это экономически выгоднее. Конечно, для широкого применения сама технология должна стать более зрелой и совершенной, чтобы пропускная способность и задержки не сильно отличались от локальной памяти. 

Реальные кейсы использования

Все аппаратное обеспечение, которые используем в наших дата-центрах, мы детально тестируем на разных уровнях — например, на отказоустойчивость, функциональные характеристики, пользовательские сценарии и прочее. Именно такие тесты для AI-сервера Selectel и выполняли наши MLOps-инженеры, попутно решая реальные задачи для бизнеса. Ниже рассмотрим два кейса с локальным инференсом моделей.

Первый кейс

Рассмотрим инференс корпоративной LLM для работы с внутренней документацией, поиска по базе знаний и генерации отчетов. У нас будет типичная enterprise-нагрузка для среднего бизнеса, а именно:

  • несколько сотен пользователей, в нашем случае 200 сотрудников;

  • запросы в течение рабочего дня;

  • требование безопасности — данные не выходят в публичный контур.

Решение

Мы использовали модель Qwen 3.5 с 400 миллиардами параметров. У нее достаточно большое контекстное окно, поэтому она эффективно работает с объемными документами. 

Основные задачи — анализ и поиск по документации. Для этого мы подобрали конфигурацию с учетом нагрузки: AI-сервер Selectel, восемь графических карт H100, 112-ядерный процессор Intel 6746Е, 512 ГБ памяти DDR5, NVMe-диски и сеть со скоростью 10 Гбит/с. Видеокарты H100 — не самое производительное решение, но по соотношению цена/производительность отлично подходит под запрос.

Результат, который мы получили, превзошел даже наши ожидания. Генерация составила порядка 500 токенов в секунду.

Почему мощных видеокарт недостаточно для ИИ - 8

Второй кейс

Теперь рассмотрим более сложный и интересный сценарий — локальный инференс сверхбольшой MoE-модели (Mixture of Experts) с длинным контекстом. Такая модель позволяет создавать корпоративные базы знаний, ассистентов разработчика, сложные системы аналитики и внутренних ИИ-ассистентов для сотрудников.

Ключевые требования:

  • данные не покидают периметр;

  • большой контекст — десятки или сотни тысяч токенов;

  • много одновременных пользователей — порядка тысяч;

  • приемлемая задержка.

Решение

Для решения такой ресурсоемкой задачи мы использовали Kimi K2 с триллионом параметров. Из-за ее архитектуры нагрузка на вычисления и память распределяется по-другому, чем у обычных моделей.

У Kimi K2 активна только часть параметров, поэтому требуется меньше вычислений. При этом все веса должны быть доступны, из-за чего растут требования к памяти. KV-cache сильно увеличивается из-за длинного контекста. Доступ к памяти становится непредсказуемым, что приводит к высокой нагрузке на пропускную способность.

Для этого мы модернизировали нашу конфигурацию. Разумеется, поменяли карты на RTX PRO 6000 Server Edition и увеличили до 2 ТБ оперативной памяти DDR5. Также повысили скорость передачи данных по сети, чтобы не было узкого горлышка при одновременных обращениях пользователей.  

Результат составил около 150 токенов в секунду генерации. Да, это значительно меньше, чем в предыдущем эксперименте, но нужно учитывать масштаб и сложность модели.

Почему мощных видеокарт недостаточно для ИИ - 9

На практике даже 50 токенов в секунду хватает для комфортного диалога: нейросеть успевает выдавать ответы быстрее, чем их прочитает человек. Поэтому показатели в 150 токенов в секунду являются очень достойным результатом. 

Заключение

Инфраструктура для инференса искусственного интеллекта [7] — это сложная, многоуровневая экосистема, которая выходит далеко за рамки простой закупки мощных графических процессоров. Успешное развертывание моделей в продакшене требует комплексного проектирования четырех взаимосвязанных уровней.

  • Специфика входящего потока данных. Необходимо анализировать тип контента (текст, аудио, видео высокого разрешения), размер пакетов и характер трафика. Импульсные операции или непрерывный стриминг требуют принципиально разных архитектурных решений для минимизации задержек.

  • Архитектура серверного оборудования. Производительность GPU может быть ограничена остальными компонентами ноды. Критически важны пропускная способность шины PCIe, скорость и объем оперативной памяти (DRAM) и видеопамяти (HBM), быстродействие локальных NVMe-накопителей, а также высокоскоростные интерконнекты для связи между серверами.

  • Архитектура модели. Количество параметров, глубина нейросети и тип архитектуры напрямую определяют требования к вычислительным ресурсам. Оптимизация под конкретное железо — например, квантование до INT8/FP4 или прунинг — критически важна для эффективного распределения весов модели в памяти.

  • Бизнес-метрики и общие внешние ограничения. Инженерные решения должны строго соответствовать целевым показателям бизнеса. Сюда относятся требования к SLA по времени отклика, бюджетные лимиты на обслуживание, планируемый масштаб системы и совокупная стоимость владения инфраструктурой.

Хотите создать собственную инфраструктуру для ИИ? Возьмите AI-сервер Selectel в тест, а после арендуйте его у нас или закажите с доставкой в свой дата-центр. Сервер подойдет компаниям, которые запускают инференс LLM, HPC-расчеты или аналитику больших данных. 

Подайте заявку [1], чтобы бесплатно протестировать AI-сервер Selectel для ИИ-задач.

Автор: Dmitrii_Shichenko

Источник [8]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/32600

URLs in this post:

[1] встроенных систем в Selectel: https://selectel.ru/services/dedicated/selectel-server/?utm_source=habr.com&utm_medium=referral&utm_campaign=dedicated_article_aiserver_030726

[2] память: http://www.braintools.ru/article/4140

[3] зрения: http://www.braintools.ru/article/6238

[4] обучения: http://www.braintools.ru/article/5125

[5] Зарегистрироваться →: https://promo.selectel.ru/itcross_2026?utm_source=habr.com&utm_medium=referral&utm_campaign=itcrossword3_article_aiserver_030726_banner_ord

[6] потребность: http://www.braintools.ru/article/9534

[7] интеллекта: http://www.braintools.ru/article/7605

[8] Источник: https://habr.com/ru/companies/selectel/articles/1054968/?utm_campaign=1054968&utm_source=habrahabr&utm_medium=rss

www.BrainTools.ru

Rambler's Top100