ИИ-серверы Majestic Labs Prometheus: 128 ТБ памяти в одном устройстве, которое заменяет целую стойку. ram.. ram. selectel.. ram. selectel. Блог компании Selectel.. ram. selectel. Блог компании Selectel. ключевые слова.. ram. selectel. Блог компании Selectel. ключевые слова. озу.. ram. selectel. Блог компании Selectel. ключевые слова. озу. серверы.
ИИ-серверы Majestic Labs Prometheus: 128 ТБ памяти в одном устройстве, которое заменяет целую стойку - 1

Majestic Labs — небольшая команда, о которой мало кто слышал до ноября прошлого года. В мае 2026 они анонсировали серверную ИИ-платформу Prometheus. Задача, которую взялась решать компания, хорошо знакома всем, кто разворачивал инференс больших моделей. Вычислительные блоки простаивают, пока ждут данные из памяти. Чем крупнее модель, тем острее эта проблема — и тем сложнее и дороже обойти ее в «традиционных» GPU. Что предлагает стартап и что это за устройство, которое согласно громкому заявлению заменяет целую стойку?

Архитектура

В основе серверов Prometheus — Ignite, собственные чипы AIU (AI Processing Unit, специализированный ускоритель для задач искусственного интеллекта).

Гибридная конструкция с нетипичным сочетанием компонентов:

  • CPU-ядра на архитектуре Arm,

  • векторные и тензорные движки на базе RISC-V,

  • единое адресное пространство памяти до 128 ТБ на весь сервер,

  • поддержка фреймворков PyTorch, vLLM и OpenAI Triton без изменения кода.

Пункт про память — ключевой. Речь не о распределенной памяти с сетевым доступом через межсерверный интерконнект, а именно о едином пространстве, в котором работают все Ignite-чипы одновременно.

Для масштаба: восемь B300 SXM в стандартной HGX-конфигурации от NVIDIA дают суммарно 2304 ГБ памяти типа HBM3e. Prometheus предлагает примерно в 60 раз больше, но при этом компания пока не публикует цифры по пропускной способности. Это может оказаться неспроста: объем без скорости — даже не половина истории. Какой смысл в автобусе, который везет 1 000 пассажиров, но со скоростью 10 км/ч?

Архитектурно идея опирается на разделение вычислений и памяти в отдельные домены (disaggregation). Сама по себе концепция не новая: аналогичным образом устроен стандарт CXL (Compute Express Link — высокоскоростной интерфейс для связи процессора с памятью и ускорителями), который активно развивается на рынке. Однако, Majestic Labs заявляет, что у них это не надстройка над стандартным сервером, а нативная архитектура с нуля.

ИИ-серверы Majestic Labs Prometheus: 128 ТБ памяти в одном устройстве, которое заменяет целую стойку - 2

Новые GPU в облаке Selectel от 196,09 ₽/час

Видеокарты для ресурсоемких задач — NVIDIA® H100, H200, RTX™ 6000 Pro.

Подробнее →

Конкуренты

Источник.

Majestic Labs заходит на рынок, где уже есть несколько игроков с похожими амбициями.

  • Cerebras со своим WSE-3 (Wafer Scale Engine — ускоритель размером с целую кремниевую пластину) решает проблему памяти радикально: 900 000 ядер и 44 ГБ SRAM прямо на чипе, без каких-либо обращений во внешнюю память. Латентность минимальная, но объем все равно несопоставим с тем, что обещает Prometheus.

  • SambaNova идет другим путем — архитектура RDU (Reconfigurable Dataflow Unit — реконфигурируемый ускоритель с потоковой обработкой данных) оптимизирована под конкретные модели и переносит часть работы с памятью на уровень компилятора. Работает хорошо на узком классе задач, гибкость меньше.

  • Groq строит системы на основе своих TSP (Tensor Streaming Processor — потоковый процессор для тензорных вычислений) с детерминированным временем выполнения и огромной пропускной способностью памяти, но ценой жесткой привязки к своей экосистеме.

Наконец, в корпоративном сегменте активно развивается стандарт CXL, предлагающий расширение пула памяти через стандартные интерфейсы – без проприетарных ускорителей. Это решение совместимо с уже существующей инфраструктурой, процессорами и памятью.

На этом фоне Prometheus занимает свою нишу: больше памяти, чем у Cerebras, больше гибкости, чем у Groq, и более цельная архитектура, чем CXL-расширения. Но всё это – пока только на бумаге, а не в виде конечного продукта.

Сценарии

Majestic Labs метит в задачи, где классические GPU-кластеры не справляются: модели с триллионами параметров, длинные контекстные окна, MoE-архитектуры (Mixture of Experts — подход, при котором модель состоит из множества специализированных подсетей, активируя только часть из них при каждом запросе), графовые нейронные сети и AI-агенты.

MoE — показательный пример. У DeepSeek или Mixtral в каждый момент активна лишь часть весов, но весь банк экспертов должен быть доступен с низкой латентностью. На GPU-кластерах это решается через NVSwitch (коммутатор NVIDIA для высокоскоростной связи между GPU) и быстрый межузловой интерконнект. Это работает, но дорого и сложно масштабируется, вплоть до расчета места в дата-центрах. Единое пространство памяти снимает часть этой головной боли концептуально — вопрос в том, хватит ли реальной пропускной способности.

Итог

Источник.

Идея здравая, архитектурное направление интересное. Но пока Prometheus существует в виде лендинга и описания — без публичных бенчмарков, цен, сроков поставок. Утверждение «заменяем несколько стоек одним сервером» требует цифр, а не деклараций.

Главный вопрос, ответа на который компания пока избегает — какая реальная пропускная способность у этих 128 ТБ видеопамяти? Если она окажется на порядок ниже HBM, преимущество по объему превратится в красивую цифру на слайде. Следим за первыми реальными тестами и остаемся на связи.

Автор: skovalev

Источник