- BrainTools - https://www.braintools.ru -

Привет! Меня зовут Дмитрий Шиченко, я руководитель отдела разработки встроенных систем в Selectel [1]. Сегодня компании активно находят способы применения ИИ, чтобы повышать эффективность бизнес-процессов. Но в погоне за быстрым результатом они часто упускают ключевые детали внедрения, которые в итоге и определяют успех или провал проекта.
В результате процесс внедрения ИИ в бизнес выглядит для них следующим образом: компания хочет увеличить эффективность за счет ИИ, поэтому покупает сервер с мощными видеокартами, развертывает модель и PyTorch — и думает, что на этом все готово. Однако на практике все сложнее: без тщательной подготовки эффективность от GPU-сервера будет минимальной. Это все равно, что ехать на болиде Формулы-1 по гравию — мощность есть, но результата нет.
В статье разберем, как построить сбалансированную ИИ-инфраструктуру для инференса и какие принципы мы заложили в собственный AI-сервер Selectel.
Не существует универсального сервера для ИИ. Есть инфраструктура, которая заточена под конкретный пайплайн и реальный профиль нагрузки.
Прежде чем перейти к выбору железа для ИИ, зафиксируем базовую информацию. При построении ИИ-систем можно выделить три уровня оптимизации: прикладной, инфраструктурный и аппаратный.
Прикладной уровень показывает, насколько эффективно модель решает конкретную задачу и использует доступные вычислительные ресурсы. Сюда входят выбор архитектуры модели, квантование, методы параллелизма, алгоритмы инференса и оптимизация вычислений.
Инфраструктурный уровень отвечает за стабильную работу модели в продакшене. Здесь уже говорим про уровень обсервации, управление жизненным циклом и отказоустойчивость. Такой подход уходит в сторону MLOps.
Аппаратный уровень связывает требования модели и инфраструктуры с реальными ресурсами. С его помощью можно узнать, как устроена вычислительная нода, из каких компонентов она состоит и как GPU, CPU, память [2], сеть и хранилище влияют на производительность моделей.
Представим, что у нас есть большая языковая модель или модель компьютерного зрения [3]. Вот так будет выглядеть пайплайн инференса в реальном времени. Давайте пошагово разберем, что происходит на аппаратном уровне.

Сначала мы получаем пользовательский запрос по сети, который нагружает сетевую карту. Далее загружаем полученные данные в оперативную память, после чего начинается постоянный процесс обмена данными между оперативной памятью и центральным процессором.
Именно на CPU происходит предпроцессинг — предварительная обработка данных, то есть нормализация и токенизация. Нормализация приводит исходный текст или числовые данные к единому стандартизированному виду. Затем текст разбивается на фрагменты (токены), с которыми непосредственно работает архитектура нейросети-трансформера.
После этого мы формируем очередь запросов в определенной последовательности, чтобы передать эти данные в GPU. При этом отслеживаем совместимые запросы и объединяем их в батчи. Дальше передаем все запросы по PCIe-шине в видеопамять.
Один из самых ресурсоемких этапов пайплайна — это префил. Делаем первый проход и используем декодирование, где с каждым запросом генерируем последующий токен с помощью KV-кэша.
Выходные данные модели передаем на центральный процессор, где и происходит их постобработка. Из токенов получаем человекочитаемые символы и слова, которые передаем на сетевую карту и отдаем конечному пользователю.
Как видите, процесс завязан не только на GPU. В пайплайне много разных элементов, которые вносят непосредственный вклад в эффективность и производительность всей системы.

Хотите выиграть призы и бонусы на аренду серверов?
Приглашаем решить ИТ-кроссворд! Более 100 вопросов на разные темы из мира ИИ и машинного обучения [4] — ежедневно с 6 по 9 июля.
Наш отдел детально разобрал весь пайплайн по шагам: как движутся данные, какие вычислительные узлы задействованы и как они взаимодействуют между собой. В результате мы разработали AI-сервер Selectel с прицелом на сбалансированный инференс. Нам удалось уйти от простой агрегации GPU к гармонизации работы всех элементов инференса: видеокарт, центральных процессоров, шин ввода-вывода и оперативной памяти.
AI-сервер Selectel [1] — это 8U-платформа для высокопроизводительных вычислений. В нее можно установить до 16 полноформатных видеокарт, например RTX Pro 6000 Server Edition, чтобы получить большое количество CUDA-ядер на одну ноду. К материнской плате подключены два процессора Intel® Xeon® 6, в каждом до 144 ядер, которые позволяют без задержек подготавливать данные для обработки на GPU. Кроме того, сервер поддерживает NVlink, современную архитектуру PCIe 5.0 и возможность установки до 8 ТБ оперативной памяти DDR5.
|
Процессор |
Intel® Xeon® 6700E |
Intel® Xeon® 6500P |
|
Архитектура |
Sierra Forest |
Granite Rapids |
|
Количество ядер |
64–144 |
32–86 |
|
Количество потоков |
144 |
64–172 |
|
Базовая частота / Turbo |
2,4 ГГц / 3,2 ГГц |
2 ГГц / 4,3 ГГц |
|
Количество сокетов |
2 |
2 |
Давайте на примере AI-сервера разберем, какие архитектурные принципы позволяют оптимизировать вывод моделей и какие легли в основу разработки нашей платформы.
В пайплайне инференса важно отслеживать баланс между CPU и GPU. С одной стороны у нас есть современные процессоры до 144 ядер, которые позволяют выполнять предпроцессинг больших объемов данных. Их можно обрабатывать на актуальных графических картах NVIDIA® без задержек.
С другой стороны важным элементом производительности является соотношение вычислительной ноды и оперативной памяти. С 4 ТБ памяти DDR5 на частоте 6 400 МГц увеличивается пропускная способность и скорость доступа к памяти.
Интерконнекты отвечают за соединение всех компонентов внутри сервера. Обмен данными между CPU и GPU происходит по PCIe 5.0 с пропускной способностью до 128 ГБ/с. Передача данных между GPU осуществляется через NVLink с поддержкой до четырех карт и пропускной способностью до 900 ГБ/с.
При построении больших многонодовых систем важнейшим фактором является связанность между нодами, где пропускная способность достигает 400 ГБ/с.
Мы разрабатывали топологию материнской платы с оглядкой на несколько составляющих. Во-первых, на NUMA-ноды, где каждый вычислительный узел имеет быстрый локальный доступ к оперативной памяти.
Во-вторых, на детерминированную архитектуру PCIe-линий. Их мы делим на две зоны доступности:
tier-1 — это графические карты, которые связаны с CPU;
tier-2 — сетевые карты и прочая периферия, которые нужны для того, чтобы пользователь мог сбалансировано получать быстрые ответы.
В-третьих, на CXL-совместимую экосистему. Это наш задел на будущее, о котором я чуть позже подробнее расскажу.
Ниже — таблица этапов инференса и ключевых ресурсов, от которых зависит производительность на каждом этапе. Как мы видим, перечисленные проблемы могут отразиться на клиенте и стать заметными для конечного пользователя.

При этом фиксированный набор ресурсов сервера не может удовлетворить динамический спрос на ресурсы. Возникает коллизия: как использовать фиксированный набор ресурсов для решения динамических задач — и не просто решать, а делать это эффективно и надежно? Ответ кроется в архитектурном подходе, который называется дезагрегацией.
Дезагрегация позволяет гибко настраивать и подключать ресурсы. С помощью высокоскоростных интерконнектов и протокола CXL мы подключаем удаленные пулы RAM, CPU, GPU, дисков и получаем масштабируемую среду под конкретную нагрузку. Кроме того, дезагрегация предоставляет для всех компонентов системы единое адресное пространство, которое превращает весь дата-центр в единый суперкомпьютер.

Теперь переходим от теории к практике: рассмотрим, как работает дезагрегация на реальном железе в условиях современных задач. Возьмем кейс с подключением удаленной оперативной памяти и последовательно запустим на сервере тесты.
Это синтетический тест Memory Latency Checker с тремя разными видами памяти:
локальная RAM, установленная в сервере, — 8x 32 ГБ Samsung 4800 DDR5 M321R4GA0BB0-CQKET(256 ГБ);
удаленная память, подключенная через LRDR9G91, CXL Expander и 2x 128 ГБ Samsung 4800 DDR5 M321R4GA0BB0-CQKET (512 ГБ);
смешанная память — локальная и удаленная.
Итак, рассмотрим график зависимости задержки инъекции от пропускной способности памяти. Красная линия — локальная память, которая установлена в сервере. Синяя линия — удаленная подключенная память, желтая — смешанная память.
Задержка инъекции (delay injection) — это параметр который определяет время задержки между последовательными запросами к памяти. То есть времени ожидания перед тем, как система отправит следующий запрос к памяти после предыдущего запроса.

Наглядно видно, что в синтетических тестах CXL заметно уступает обычной оперативной памяти. Однако в реальных приложениях нулевых задержек не бывает, поэтому накладные издержки на запросы к кешу и RAM будут всегда присутствовать.
Например, в PostgreSQL задержка инъекции составляет около 200 нс. Поскольку архитектура моделей отличается от баз данных, в качестве ориентира будем использовать базовую задержку в 50 нс.
Получается, что с учетом задержки 50 нс, пропускная способность локальной памяти составляет порядка 270 Гбит/с или 33,75 ГБ/с, а пропускная способность смешанной памяти — 50 Гбит/с или 6,25 ГБ/с. Как видите, пропускная способность хуже примерно в 5,5 раз.
Здесь те же условия, но измерять будем отношение задержки ответа памяти к задержки инъекции. Красным обозначен локальная RAM, синим — смешанная RAM.
Задержки ответа (latency) — это время задержки между моментом, когда процессор запрашивает данные из модуля памяти, и моментом, когда эти данные готовы к использованию.
На базовой задержки приложения в 50 нс мы получаем кратную разницу: примерно 170 нс для локального RAM и 1 170 нс для RAM+CXL. Соответственно, и в этом показателе разница в 6,7 раза.

На основе этих графиков можно сделать вывод, что за все приходится платить. Гибкое масштабирование серверов позволяет быстро наращивать ресурсы, если возрастает в этом потребность [6]. Но с другой стороны задержки доступа к памяти, которые мы получаем, выходят за рамки стандартных и незаметных для пользователя. Полная утилизация является важным параметром, который позволяет снизить затраты на внедрение ИИ в компаниях, но на данном этапе развития технические ограничения не позволяют получить этой выгоды.
На мой взгляд, с развитием технологий интерконнектов, в том числе CXL 3.0, одним из ключевых подходов для возрастающих ИИ-нагрузок станет дезагрегация. Компании все чаще будут строить свою инфраструктуру на базе гибких ресурсов, потому что это экономически выгоднее. Конечно, для широкого применения сама технология должна стать более зрелой и совершенной, чтобы пропускная способность и задержки не сильно отличались от локальной памяти.
Все аппаратное обеспечение, которые используем в наших дата-центрах, мы детально тестируем на разных уровнях — например, на отказоустойчивость, функциональные характеристики, пользовательские сценарии и прочее. Именно такие тесты для AI-сервера Selectel и выполняли наши MLOps-инженеры, попутно решая реальные задачи для бизнеса. Ниже рассмотрим два кейса с локальным инференсом моделей.
Рассмотрим инференс корпоративной LLM для работы с внутренней документацией, поиска по базе знаний и генерации отчетов. У нас будет типичная enterprise-нагрузка для среднего бизнеса, а именно:
несколько сотен пользователей, в нашем случае 200 сотрудников;
запросы в течение рабочего дня;
требование безопасности — данные не выходят в публичный контур.
Решение
Мы использовали модель Qwen 3.5 с 400 миллиардами параметров. У нее достаточно большое контекстное окно, поэтому она эффективно работает с объемными документами.
Основные задачи — анализ и поиск по документации. Для этого мы подобрали конфигурацию с учетом нагрузки: AI-сервер Selectel, восемь графических карт H100, 112-ядерный процессор Intel 6746Е, 512 ГБ памяти DDR5, NVMe-диски и сеть со скоростью 10 Гбит/с. Видеокарты H100 — не самое производительное решение, но по соотношению цена/производительность отлично подходит под запрос.
Результат, который мы получили, превзошел даже наши ожидания. Генерация составила порядка 500 токенов в секунду.

Теперь рассмотрим более сложный и интересный сценарий — локальный инференс сверхбольшой MoE-модели (Mixture of Experts) с длинным контекстом. Такая модель позволяет создавать корпоративные базы знаний, ассистентов разработчика, сложные системы аналитики и внутренних ИИ-ассистентов для сотрудников.
Ключевые требования:
данные не покидают периметр;
большой контекст — десятки или сотни тысяч токенов;
много одновременных пользователей — порядка тысяч;
приемлемая задержка.
Решение
Для решения такой ресурсоемкой задачи мы использовали Kimi K2 с триллионом параметров. Из-за ее архитектуры нагрузка на вычисления и память распределяется по-другому, чем у обычных моделей.
У Kimi K2 активна только часть параметров, поэтому требуется меньше вычислений. При этом все веса должны быть доступны, из-за чего растут требования к памяти. KV-cache сильно увеличивается из-за длинного контекста. Доступ к памяти становится непредсказуемым, что приводит к высокой нагрузке на пропускную способность.
Для этого мы модернизировали нашу конфигурацию. Разумеется, поменяли карты на RTX PRO 6000 Server Edition и увеличили до 2 ТБ оперативной памяти DDR5. Также повысили скорость передачи данных по сети, чтобы не было узкого горлышка при одновременных обращениях пользователей.
Результат составил около 150 токенов в секунду генерации. Да, это значительно меньше, чем в предыдущем эксперименте, но нужно учитывать масштаб и сложность модели.

На практике даже 50 токенов в секунду хватает для комфортного диалога: нейросеть успевает выдавать ответы быстрее, чем их прочитает человек. Поэтому показатели в 150 токенов в секунду являются очень достойным результатом.
Инфраструктура для инференса искусственного интеллекта [7] — это сложная, многоуровневая экосистема, которая выходит далеко за рамки простой закупки мощных графических процессоров. Успешное развертывание моделей в продакшене требует комплексного проектирования четырех взаимосвязанных уровней.
Специфика входящего потока данных. Необходимо анализировать тип контента (текст, аудио, видео высокого разрешения), размер пакетов и характер трафика. Импульсные операции или непрерывный стриминг требуют принципиально разных архитектурных решений для минимизации задержек.
Архитектура серверного оборудования. Производительность GPU может быть ограничена остальными компонентами ноды. Критически важны пропускная способность шины PCIe, скорость и объем оперативной памяти (DRAM) и видеопамяти (HBM), быстродействие локальных NVMe-накопителей, а также высокоскоростные интерконнекты для связи между серверами.
Архитектура модели. Количество параметров, глубина нейросети и тип архитектуры напрямую определяют требования к вычислительным ресурсам. Оптимизация под конкретное железо — например, квантование до INT8/FP4 или прунинг — критически важна для эффективного распределения весов модели в памяти.
Бизнес-метрики и общие внешние ограничения. Инженерные решения должны строго соответствовать целевым показателям бизнеса. Сюда относятся требования к SLA по времени отклика, бюджетные лимиты на обслуживание, планируемый масштаб системы и совокупная стоимость владения инфраструктурой.
Хотите создать собственную инфраструктуру для ИИ? Возьмите AI-сервер Selectel в тест, а после арендуйте его у нас или закажите с доставкой в свой дата-центр. Сервер подойдет компаниям, которые запускают инференс LLM, HPC-расчеты или аналитику больших данных.
Подайте заявку [1], чтобы бесплатно протестировать AI-сервер Selectel для ИИ-задач.
Автор: Dmitrii_Shichenko
Источник [8]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/32600
URLs in this post:
[1] встроенных систем в Selectel: https://selectel.ru/services/dedicated/selectel-server/?utm_source=habr.com&utm_medium=referral&utm_campaign=dedicated_article_aiserver_030726
[2] память: http://www.braintools.ru/article/4140
[3] зрения: http://www.braintools.ru/article/6238
[4] обучения: http://www.braintools.ru/article/5125
[5] Зарегистрироваться →: https://promo.selectel.ru/itcross_2026?utm_source=habr.com&utm_medium=referral&utm_campaign=itcrossword3_article_aiserver_030726_banner_ord
[6] потребность: http://www.braintools.ru/article/9534
[7] интеллекта: http://www.braintools.ru/article/7605
[8] Источник: https://habr.com/ru/companies/selectel/articles/1054968/?utm_campaign=1054968&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.