
Привет! Меня зовут Дмитрий Шиченко, я руководитель отдела разработки встроенных систем в Selectel. Сегодня компании активно находят способы применения ИИ, чтобы повышать эффективность бизнес-процессов. Но в погоне за быстрым результатом они часто упускают ключевые детали внедрения, которые в итоге и определяют успех или провал проекта.
В результате процесс внедрения ИИ в бизнес выглядит для них следующим образом: компания хочет увеличить эффективность за счет ИИ, поэтому покупает сервер с мощными видеокартами, развертывает модель и PyTorch — и думает, что на этом все готово. Однако на практике все сложнее: без тщательной подготовки эффективность от GPU-сервера будет минимальной. Это все равно, что ехать на болиде Формулы-1 по гравию — мощность есть, но результата нет.
В статье разберем, как построить сбалансированную ИИ-инфраструктуру для инференса и какие принципы мы заложили в собственный AI-сервер Selectel.
Из чего состоит пайплайн инференса
Не существует универсального сервера для ИИ. Есть инфраструктура, которая заточена под конкретный пайплайн и реальный профиль нагрузки.
Прежде чем перейти к выбору железа для ИИ, зафиксируем базовую информацию. При построении ИИ-систем можно выделить три уровня оптимизации: прикладной, инфраструктурный и аппаратный.
Прикладной уровень показывает, насколько эффективно модель решает конкретную задачу и использует доступные вычислительные ресурсы. Сюда входят выбор архитектуры модели, квантование, методы параллелизма, алгоритмы инференса и оптимизация вычислений.
Инфраструктурный уровень отвечает за стабильную работу модели в продакшене. Здесь уже говорим про уровень обсервации, управление жизненным циклом и отказоустойчивость. Такой подход уходит в сторону MLOps.
Аппаратный уровень связывает требования модели и инфраструктуры с реальными ресурсами. С его помощью можно узнать, как устроена вычислительная нода, из каких компонентов она состоит и как GPU, CPU, память, сеть и хранилище влияют на производительность моделей.
Представим, что у нас есть большая языковая модель или модель компьютерного зрения. Вот так будет выглядеть пайплайн инференса в реальном времени. Давайте пошагово разберем, что происходит на аппаратном уровне.

Сначала мы получаем пользовательский запрос по сети, который нагружает сетевую карту. Далее загружаем полученные данные в оперативную память, после чего начинается постоянный процесс обмена данными между оперативной памятью и центральным процессором.
Именно на CPU происходит предпроцессинг — предварительная обработка данных, то есть нормализация и токенизация. Нормализация приводит исходный текст или числовые данные к единому стандартизированному виду. Затем текст разбивается на фрагменты (токены), с которыми непосредственно работает архитектура нейросети-трансформера.
После этого мы формируем очередь запросов в определенной последовательности, чтобы передать эти данные в GPU. При этом отслеживаем совместимые запросы и объединяем их в батчи. Дальше передаем все запросы по PCIe-шине в видеопамять.
Один из самых ресурсоемких этапов пайплайна — это префил. Делаем первый проход и используем декодирование, где с каждым запросом генерируем последующий токен с помощью KV-кэша.
Выходные данные модели передаем на центральный процессор, где и происходит их постобработка. Из токенов получаем человекочитаемые символы и слова, которые передаем на сетевую карту и отдаем конечному пользователю.
Как видите, процесс завязан не только на GPU. В пайплайне много разных элементов, которые вносят непосредственный вклад в эффективность и производительность всей системы.

Хотите выиграть призы и бонусы на аренду серверов?
Приглашаем решить ИТ-кроссворд! Более 100 вопросов на разные темы из мира ИИ и машинного обучения — ежедневно с 6 по 9 июля.
Как построить сбалансированную и эффективную ИИ-инфраструктуру для инференса
Наш отдел детально разобрал весь пайплайн по шагам: как движутся данные, какие вычислительные узлы задействованы и как они взаимодействуют между собой. В результате мы разработали AI-сервер Selectel с прицелом на сбалансированный инференс. Нам удалось уйти от простой агрегации GPU к гармонизации работы всех элементов инференса: видеокарт, центральных процессоров, шин ввода-вывода и оперативной памяти.
AI-сервер Selectel — это 8U-платформа для высокопроизводительных вычислений. В нее можно установить до 16 полноформатных видеокарт, например RTX Pro 6000 Server Edition, чтобы получить большое количество CUDA-ядер на одну ноду. К материнской плате подключены два процессора Intel® Xeon® 6, в каждом до 144 ядер, которые позволяют без задержек подготавливать данные для обработки на GPU. Кроме того, сервер поддерживает NVlink, современную архитектуру PCIe 5.0 и возможность установки до 8 ТБ оперативной памяти DDR5.
|
Процессор |
Intel® Xeon® 6700E |
Intel® Xeon® 6500P |
|
Архитектура |
Sierra Forest |
Granite Rapids |
|
Количество ядер |
64–144 |
32–86 |
|
Количество потоков |
144 |
64–172 |
|
Базовая частота / Turbo |
2,4 ГГц / 3,2 ГГц |
2 ГГц / 4,3 ГГц |
|
Количество сокетов |
2 |
2 |
Давайте на примере AI-сервера разберем, какие архитектурные принципы позволяют оптимизировать вывод моделей и какие легли в основу разработки нашей платформы.
Баланс ресурсов
В пайплайне инференса важно отслеживать баланс между CPU и GPU. С одной стороны у нас есть современные процессоры до 144 ядер, которые позволяют выполнять предпроцессинг больших объемов данных. Их можно обрабатывать на актуальных графических картах NVIDIA® без задержек.
С другой стороны важным элементом производительности является соотношение вычислительной ноды и оперативной памяти. С 4 ТБ памяти DDR5 на частоте 6 400 МГц увеличивается пропускная способность и скорость доступа к памяти.
Интерконнекты
Интерконнекты отвечают за соединение всех компонентов внутри сервера. Обмен данными между CPU и GPU происходит по PCIe 5.0 с пропускной способностью до 128 ГБ/с. Передача данных между GPU осуществляется через NVLink с поддержкой до четырех карт и пропускной способностью до 900 ГБ/с.
При построении больших многонодовых систем важнейшим фактором является связанность между нодами, где пропускная способность достигает 400 ГБ/с.
Топология
Мы разрабатывали топологию материнской платы с оглядкой на несколько составляющих. Во-первых, на NUMA-ноды, где каждый вычислительный узел имеет быстрый локальный доступ к оперативной памяти.
Во-вторых, на детерминированную архитектуру PCIe-линий. Их мы делим на две зоны доступности:
-
tier-1 — это графические карты, которые связаны с CPU;
-
tier-2 — сетевые карты и прочая периферия, которые нужны для того, чтобы пользователь мог сбалансировано получать быстрые ответы.
В-третьих, на CXL-совместимую экосистему. Это наш задел на будущее, о котором я чуть позже подробнее расскажу.
Дезагрегация ресурсов
Ниже — таблица этапов инференса и ключевых ресурсов, от которых зависит производительность на каждом этапе. Как мы видим, перечисленные проблемы могут отразиться на клиенте и стать заметными для конечного пользователя.

При этом фиксированный набор ресурсов сервера не может удовлетворить динамический спрос на ресурсы. Возникает коллизия: как использовать фиксированный набор ресурсов для решения динамических задач — и не просто решать, а делать это эффективно и надежно? Ответ кроется в архитектурном подходе, который называется дезагрегацией.
Дезагрегация позволяет гибко настраивать и подключать ресурсы. С помощью высокоскоростных интерконнектов и протокола CXL мы подключаем удаленные пулы RAM, CPU, GPU, дисков и получаем масштабируемую среду под конкретную нагрузку. Кроме того, дезагрегация предоставляет для всех компонентов системы единое адресное пространство, которое превращает весь дата-центр в единый суперкомпьютер.

Теперь переходим от теории к практике: рассмотрим, как работает дезагрегация на реальном железе в условиях современных задач. Возьмем кейс с подключением удаленной оперативной памяти и последовательно запустим на сервере тесты.
Тест №1
Это синтетический тест Memory Latency Checker с тремя разными видами памяти:
-
локальная RAM, установленная в сервере, — 8x 32 ГБ Samsung 4800 DDR5 M321R4GA0BB0-CQKET(256 ГБ);
-
удаленная память, подключенная через LRDR9G91, CXL Expander и 2x 128 ГБ Samsung 4800 DDR5 M321R4GA0BB0-CQKET (512 ГБ);
-
смешанная память — локальная и удаленная.
Итак, рассмотрим график зависимости задержки инъекции от пропускной способности памяти. Красная линия — локальная память, которая установлена в сервере. Синяя линия — удаленная подключенная память, желтая — смешанная память.
Задержка инъекции (delay injection) — это параметр который определяет время задержки между последовательными запросами к памяти. То есть времени ожидания перед тем, как система отправит следующий запрос к памяти после предыдущего запроса.

Наглядно видно, что в синтетических тестах CXL заметно уступает обычной оперативной памяти. Однако в реальных приложениях нулевых задержек не бывает, поэтому накладные издержки на запросы к кешу и RAM будут всегда присутствовать.
Например, в PostgreSQL задержка инъекции составляет около 200 нс. Поскольку архитектура моделей отличается от баз данных, в качестве ориентира будем использовать базовую задержку в 50 нс.
Получается, что с учетом задержки 50 нс, пропускная способность локальной памяти составляет порядка 270 Гбит/с или 33,75 ГБ/с, а пропускная способность смешанной памяти — 50 Гбит/с или 6,25 ГБ/с. Как видите, пропускная способность хуже примерно в 5,5 раз.
Тест №2
Здесь те же условия, но измерять будем отношение задержки ответа памяти к задержки инъекции. Красным обозначен локальная RAM, синим — смешанная RAM.
Задержки ответа (latency) — это время задержки между моментом, когда процессор запрашивает данные из модуля памяти, и моментом, когда эти данные готовы к использованию.
На базовой задержки приложения в 50 нс мы получаем кратную разницу: примерно 170 нс для локального RAM и 1 170 нс для RAM+CXL. Соответственно, и в этом показателе разница в 6,7 раза.

На основе этих графиков можно сделать вывод, что за все приходится платить. Гибкое масштабирование серверов позволяет быстро наращивать ресурсы, если возрастает в этом потребность. Но с другой стороны задержки доступа к памяти, которые мы получаем, выходят за рамки стандартных и незаметных для пользователя. Полная утилизация является важным параметром, который позволяет снизить затраты на внедрение ИИ в компаниях, но на данном этапе развития технические ограничения не позволяют получить этой выгоды.
На мой взгляд, с развитием технологий интерконнектов, в том числе CXL 3.0, одним из ключевых подходов для возрастающих ИИ-нагрузок станет дезагрегация. Компании все чаще будут строить свою инфраструктуру на базе гибких ресурсов, потому что это экономически выгоднее. Конечно, для широкого применения сама технология должна стать более зрелой и совершенной, чтобы пропускная способность и задержки не сильно отличались от локальной памяти.
Реальные кейсы использования
Все аппаратное обеспечение, которые используем в наших дата-центрах, мы детально тестируем на разных уровнях — например, на отказоустойчивость, функциональные характеристики, пользовательские сценарии и прочее. Именно такие тесты для AI-сервера Selectel и выполняли наши MLOps-инженеры, попутно решая реальные задачи для бизнеса. Ниже рассмотрим два кейса с локальным инференсом моделей.
Первый кейс
Рассмотрим инференс корпоративной LLM для работы с внутренней документацией, поиска по базе знаний и генерации отчетов. У нас будет типичная enterprise-нагрузка для среднего бизнеса, а именно:
-
несколько сотен пользователей, в нашем случае 200 сотрудников;
-
запросы в течение рабочего дня;
-
требование безопасности — данные не выходят в публичный контур.
Решение
Мы использовали модель Qwen 3.5 с 400 миллиардами параметров. У нее достаточно большое контекстное окно, поэтому она эффективно работает с объемными документами.
Основные задачи — анализ и поиск по документации. Для этого мы подобрали конфигурацию с учетом нагрузки: AI-сервер Selectel, восемь графических карт H100, 112-ядерный процессор Intel 6746Е, 512 ГБ памяти DDR5, NVMe-диски и сеть со скоростью 10 Гбит/с. Видеокарты H100 — не самое производительное решение, но по соотношению цена/производительность отлично подходит под запрос.
Результат, который мы получили, превзошел даже наши ожидания. Генерация составила порядка 500 токенов в секунду.

Второй кейс
Теперь рассмотрим более сложный и интересный сценарий — локальный инференс сверхбольшой MoE-модели (Mixture of Experts) с длинным контекстом. Такая модель позволяет создавать корпоративные базы знаний, ассистентов разработчика, сложные системы аналитики и внутренних ИИ-ассистентов для сотрудников.
Ключевые требования:
-
данные не покидают периметр;
-
большой контекст — десятки или сотни тысяч токенов;
-
много одновременных пользователей — порядка тысяч;
-
приемлемая задержка.
Решение
Для решения такой ресурсоемкой задачи мы использовали Kimi K2 с триллионом параметров. Из-за ее архитектуры нагрузка на вычисления и память распределяется по-другому, чем у обычных моделей.
У Kimi K2 активна только часть параметров, поэтому требуется меньше вычислений. При этом все веса должны быть доступны, из-за чего растут требования к памяти. KV-cache сильно увеличивается из-за длинного контекста. Доступ к памяти становится непредсказуемым, что приводит к высокой нагрузке на пропускную способность.
Для этого мы модернизировали нашу конфигурацию. Разумеется, поменяли карты на RTX PRO 6000 Server Edition и увеличили до 2 ТБ оперативной памяти DDR5. Также повысили скорость передачи данных по сети, чтобы не было узкого горлышка при одновременных обращениях пользователей.
Результат составил около 150 токенов в секунду генерации. Да, это значительно меньше, чем в предыдущем эксперименте, но нужно учитывать масштаб и сложность модели.

На практике даже 50 токенов в секунду хватает для комфортного диалога: нейросеть успевает выдавать ответы быстрее, чем их прочитает человек. Поэтому показатели в 150 токенов в секунду являются очень достойным результатом.
Заключение
Инфраструктура для инференса искусственного интеллекта — это сложная, многоуровневая экосистема, которая выходит далеко за рамки простой закупки мощных графических процессоров. Успешное развертывание моделей в продакшене требует комплексного проектирования четырех взаимосвязанных уровней.
-
Специфика входящего потока данных. Необходимо анализировать тип контента (текст, аудио, видео высокого разрешения), размер пакетов и характер трафика. Импульсные операции или непрерывный стриминг требуют принципиально разных архитектурных решений для минимизации задержек.
-
Архитектура серверного оборудования. Производительность GPU может быть ограничена остальными компонентами ноды. Критически важны пропускная способность шины PCIe, скорость и объем оперативной памяти (DRAM) и видеопамяти (HBM), быстродействие локальных NVMe-накопителей, а также высокоскоростные интерконнекты для связи между серверами.
-
Архитектура модели. Количество параметров, глубина нейросети и тип архитектуры напрямую определяют требования к вычислительным ресурсам. Оптимизация под конкретное железо — например, квантование до INT8/FP4 или прунинг — критически важна для эффективного распределения весов модели в памяти.
-
Бизнес-метрики и общие внешние ограничения. Инженерные решения должны строго соответствовать целевым показателям бизнеса. Сюда относятся требования к SLA по времени отклика, бюджетные лимиты на обслуживание, планируемый масштаб системы и совокупная стоимость владения инфраструктурой.
Хотите создать собственную инфраструктуру для ИИ? Возьмите AI-сервер Selectel в тест, а после арендуйте его у нас или закажите с доставкой в свой дата-центр. Сервер подойдет компаниям, которые запускают инференс LLM, HPC-расчеты или аналитику больших данных.
Подайте заявку, чтобы бесплатно протестировать AI-сервер Selectel для ИИ-задач.
Автор: Dmitrii_Shichenko


