Самый настоящий FP64 для ядерных расчетов? Анонс AMD Instinct MI430X. selectel.. selectel. Видеокарты.. selectel. Видеокарты. Машинное обучение.. selectel. Видеокарты. Машинное обучение. Научные вычисления.
Официальный рендер HPC-ускорителя AMD Instinct MI430X. Источник.

Официальный рендер HPC-ускорителя AMD Instinct MI430X. Источник.

На майском HPC User Forum в Остине AMD рассказали о MI430X — ускорителе серии MI400, который позиционируется как инструмент для научных вычислений. Пока индустрия увлечена инференсом и считает токены в секунду на FP4, AMD напомнила, что CFD-код (Computational Fluid Dynamics) не интересует, насколько быстро чип умножает восьмибитные числа.

Меня зовут Сергей Ковалёв, я менеджер выделенных серверов в SelectelХ. В этой статье мы мысленно «разберем» MI430X и обсудим, насколько новинка подходит для «ядерных расчетов» и машинного обучения. Подробности под катом!

Технические характеристики

MI430X — прямой наследник MI300A. Это GPU на следующем поколении CDNA (предположительно, CDNA 5) с 432 ГБ памяти HBM4 и пропускной способностью 19,6 ТБ/c.

  • Архитектура: CDNA 5 — следующее поколение после CDNA 4 в MI350-серии.

  • Память: 432 ГБ HBM4.

  • Пропускная способность памяти: 19,6 ТБ/с.

  • FP64 (нативный, вектор): более 200 TFLOPs.

  • Интерконнект: Infinity Fabric пятого поколения + UALink — первые ускорители в семействе AMD MI430X, MI440X и MI455X с поддержкой обоих стандартов одновременно.

  • Целевые задачи: HPC + AI (двойная специализация).

Ключевой показатель — более 200 TFLOPs нативной FP64-производительности в векторном режиме. Без звездочек и мелкого шрифта. Да, MI430X вместе с MI440X и MI455X стал первым ускорителем, поддерживающим Infinity Fabric в связке с UALink — открытым стандартом scale-up (соединение GPU друг с другом внутри одного узла или стойки), альтернативой закрытому NVLink.

Сравнение с другими GPU

Серверный узел на базе ускорителей AMD Instinct MI430X. Источник.

Серверный узел на базе ускорителей AMD Instinct MI430X. Источник.

Параметр

AMD Instinct MI300X

AMD Instinct MI350X

AMD Instinct MI430X

NVIDIA

Rubin (R200)

Архитектура

CDNA 3

CDNA 4

CDNA 5

Rubin

Память

192 ГБ HBM3

288 ГБ HBM3E

432 ГБ HBM4

288 ГБ HBM4

Пропускная способность

5,3 ТБ/с

8 ТБ/с

19,6 ТБ/с

22 ТБ/с

FP64 нативный

~48 TFLOPs

~79 TFLOPs

>200 TFLOPs

33 TFLOPs

Интерконнект

Infinity Fabric 4

Infinity Fabric 4

Infinity Fabric + UALink

NVLink 6

Целевые задачи

AI / HPC

AI / LLM

HPC + AI

AI / Агентный

В сравнении с MI350X: 288 ГБ HBM3E и 8 ТБ/с. MI430X добавляет сверху 50%, а пропускная способность вырастает в 2,4 раза. Это не эволюция для инференса, это другой класс устройства с другой целевой функцией.

MI350X и ее ближайший родственник MI355X с жидкостным охлаждением построены на архитектура CDNA 4 — 3-нм техпроцессе. Обе карты сделаны под AI: MI355X поддерживает MXFP6 и MXFP4, FP8, и выдает до 20 PFLOPs в низкоточных форматах. Для LLM-инференса — отлично, а вот для расчета горения в двигателе – не то железо.

В этом контексте MI430X меняет подход. Вместо того чтобы отказаться от традиционного HPC в пользу AI-ориентированных решений, AMD намерена поддерживать оба рынка одновременно. Простая схема: MI350X — для дата-центров и инференса, а MI430X — для национальных лабораторий и уравнений Навье-Стокса.

В сравнении AMD Instinct с NVIDIA Rubin начинается самое интересное. В своих таблицах AMD ставит MI430X с 200+ TFLOPs FP64 напротив Rubin — и выигрывает. Но это некорректное сравнение, потому что у Rubin и AMD используются разные определения FP64.

Нативный FP64 у Rubin — 33 TFLOPs. Для сравнения: Blackwell (B200) давал 45 TFLOPs. NVIDIA сознательно пошла на регресс в угоду AI-производительности. Еще забавнее здесь выглядит B300 с ее 1,25 TFLOPs для FP64. Можно сказать, что этот тип вычислений из B300 убрали.

NVIDIA в ответ предлагает другой путь: через программные библиотеки CUDA можно получить до 200 TFLOPs эмулированного FP64 — прирост в разы относительно нативных возможностей Blackwell. В основе лежит схема Одзаки: разложение FP64-операций на множество INT8-умножений на тензорных ядрах. 

Самый настоящий FP64 для ядерных расчетов? Анонс AMD Instinct MI430X - 3

Арендуйте GPU за 1 рубль!

Выберите нужную конфигурацию в панели управления Selectel. *

Подробнее →

«Звучит элегантно, но дьявол в деталях»

Схема хорошо подходит для систем с высокой численной устойчивостью. Именно на таких вычислениях построен тест HPL, определяющий самые мощные суперкомпьютеры в рейтинге Top500. Но в задачах материаловедения или программах для численного моделирования горения, где системы менее обусловлены, могут возникать ошибки. Кроме того, алгоритм не полностью соответствует стандарту IEEE: не учитываются тонкости вроде положительного и отрицательного нуля или NaN. Еще один нюанс — эмуляция примерно удваивает расход памяти для FP64-матриц. 

Для HPL (High Performance Linpack), который определяет место в Top500, эмуляция вполне работает — это DGEMM-ориентированный тест с хорошо обусловленными матрицами. Именно поэтому Rubin-системы теоретически могут показывать конкурентные цифры в рейтинге. Но реальные производственные коды — это другая история.

Николас Малайя из AMD, который сам работает с HPC-кодами, оценил, что для 60–70% реальных научных задач живут в режиме vector FMA, а не матричных умножений. Для них никакой эмуляции нет, и Rubin работает на своих медленных нативных ядрах. Иными словами: 200 TFLOPs эмулированного FP64, которыми оперирует NVIDIA в презентациях, достижимы только для меньшинства HPC-задач. Большинство реальных производственных кодов получат от Rubin те самые 33 TFLOPs – в шесть раз меньше, чем обещает MI430X.

Зачем нужен нативный FP64

Это ключевой вопрос, который стоит разобрать в обсуждении GPU для HPC. Почему нельзя обойтись FP32 или BF16 с накоплением?

Суть проблемы — в накоплении ошибок округления. FP64 оперирует числами с 15–16 значащими десятичными цифрами, FP32 — только с 7. На первый взгляд разница кажется академической. На практике она определяет, получите ли вы правильный ответ через тысячу итераций.

В вычислительной гидродинамике (CFD), где симулируются потоки воздуха вокруг турбины, горение в камере или разлет продуктов взрыва, численные схемы строятся на итеративном решении систем уравнений. Каждая итерация вносит ошибку округления. В плохо обусловленных системах (а они встречаются в реальных геометриях постоянно) ошибка FP32 за тысячи шагов накапливается до уровня, когда результат теряет физический смысл. Comsol, OpenFOAM, Star-CCM+ — все работают в FP64 не потому, что разработчики ретрограды, а потому что иначе просто не сходится.

В молекулярной динамике — расчетах взаимодействия атомов в белках, полимерах, материалах — симуляции запускаются на миллионы временных шагов. Небольшой дрейф энергии из-за ошибок округления в FP32 за такое время превращается в нефизические артефакты: молекулы расползаются туда, куда не должны, или вовсе разлетаются. Пакеты GROMACS и AMBER допускают смешанную точность в некоторых операциях, но критические вычисления сил держат в FP64.

В климатических моделях горизонт симуляции — десятилетия. Минимальное искажение в шестом знаке начальных условий уже через год полностью меняет прогноз. Именно поэтому ECMWF и ведущие метеорологические центры не переходят на FP32: это не консерватизм, это физика хаотических систем.

В ядерных расчетах требования к точности еще жестче. Задачи диффузии нейтронов, цепных реакций и термоядерного горения требуют не только точности, но и строгой IEEE-совместимости. То есть результат вычислений должен быть воспроизводим побитово. Это уже требование регуляторное, а не инженерное.

Где будет работать решение

Суперкомпьютер Discovery от HPE и AMD. Источник.

Суперкомпьютер Discovery от HPE и AMD. Источник.

AI Factory Discovery в Ок-Риджской национальной лаборатории строится на MI430X и EPYC Venice на платформе HPE Cray GX5000. Это суперкомпьютер, который должен позволить исследователям одновременно работать с крупными AI-моделями и запускать традиционные научные расчеты на том же железе. Развертывание Discovery запланировано на 2028 год.  

В Европе анонсирован Alice Recoque, exascale-класс системы на MI430X и EPYC Venice под управлением платформы Eviden BullSequana XH3500, ориентированной на параллельную работу с HPC и AI-нагрузками.

Подводим итоги

Ситуация с FP64 в 2026 году выглядит следующим образом. AMD наращивает нативную производительность — больше железных вычислительных блоков, честные TFLOPs без оговорок. NVIDIA же делает ставку на программную эмуляцию поверх быстрых тензорных ядер, заточенных под AI. Для Top500 подход NVIDIA может работать достаточно хорошо.

Для вычислительной гидродинамики, молекулярной динамики, ядерных расчетов и климатических моделей вопрос остается открытым. И именно этот разрыв AMD использует как главный аргумент для MI430X перед NVIDIA.

По иронии судьбы, обе компании называют цифру «~200 TFLOPs FP64» в контексте своих платформ. Только это разные терафлопсы. Что победит, увидим уже совсем скоро — следите за обновлениями в Академии Selectel.

Возможно, вам будет интересно:

Автор: skovalev

Источник