Тестировать друг за другом видеокарты от NVIDIA надоедает, благо разница в последнем поколении только в мощностях процессоров семейства Blackwell, объеме памяти и ширине шины. А вот посмотреть, что предлагают конкуренты, а тем более громко называя это «ИИ», уже интересней.
|
Серверы с GPU-картами с почасовой оплатой. Подходят для задач ИИ, рендеринга и высоконагруженных вычислений с оплатой за фактическое использование. |
Сегодня мы «помучаем» AMD RADEON AI PRO R9700 на 32 гигабайта видеопамяти. Это первая в истории AMD профессиональная видеокарта, созданная специально для локального ускорения искусственного интеллекта на рабочих станциях. И это будет не классическая карта для рабочих станций 3D-рендеринга или CAD (как серия Radeon PRO W), а новая категория продуктов — «ИИ-ускоритель для настольных систем». Хотя, если смотреть чисто по железу, то перед нами тот же Radeon RX 9070 XT, так как обе карты используют один и тот же чип Navi 48 с 64 CU и 4 096 потоковыми процессорами, но с большим в два раза объемом памяти (и ценой).
Официально GPU адресован разработчикам ИИ для прототипирования и тестирования моделей без облака, исследователям для запуска экспериментов с открытыми моделями и предприятиям для развертывания приватных ИИ-ассистентов внутри корпоративной сети.
Заглядываем под капот
Спецификация GPU приведена в таблице. Заодно сразу же сравним по характеристикам с предыдущим поколением NVIDIA в лице RTX A5000 24 Гб, так и семейством Blackwell в лице RTX PRO 4000 24 Гб.
|
Параметр |
AMD Radeon™ AI PRO R9700 32GB |
NVIDIA RTX PRO 4000 Blackwell |
NVIDIA RTX A5000 24GB |
|---|---|---|---|
|
Дата выхода |
Июль 2025 (OEM), октябрь 2025 (розница) |
Q1 2025 (март-май 2025) |
Апрель 2021 |
|
Архитектура |
RDNA™ 4 (Navi 48) |
Blackwell (GB203/GB204) |
Ampere (GA102) |
|
Техпроцесс |
4 нм (TSMC) |
5 нм (TSMC) |
8 нм (Samsung) |
|
Транзисторы |
53,9 млрд |
26 млрд |
28,3 млрд |
|
Вычислительные блоки |
4096 потоковых процессоров 64 Compute Units |
8960 CUDA Cores |
8192 CUDA Cores |
|
Специализированные ускорители |
128 AI Accelerators (2-го поколения) 64 Ray Accelerators (3-го поколения) |
280 Tensor Cores (5-го поколения) 70 RT Cores (4-го поколения) |
256 Tensor Cores (3-го поколения) 64 RT Cores |
|
Видеопамять |
32 ГБ GDDR6 256-bit шина 20 Gbps |
24 ГБ GDDR7 с ECC 192-bit шина 28 Gbps |
24 ГБ GDDR6 с ECC 384-bit шина 19,5 Gbps |
|
Пропускная способность памяти |
640 ГБ/с |
672–896 ГБ/с (в зависимости от конфигурации) |
768 ГБ/с |
|
Доп. кэш |
64 МБ Infinity Cache |
Отсутствует |
Отсутствует |
|
Частоты |
Базовая: 1660 МГц Boost: до 2920 МГц |
Базовая: 975 МГц Boost: 1950 МГц |
Базовая: 1170 МГц Boost: 1695 МГц |
|
Производительность |
FP16: 95,7 TFLOPS INT4: ~1531 TOPS |
FP16/BF16: 140–160 TFLOPS AI TOPS: 750–900 (FP8/INT8) |
FP32: 27,8 TFLOPS FP16: 111,2 TFLOPS (с упаковкой) |
|
Потребление (TDP) |
300 Вт |
140 Вт |
230 Вт |
|
Энергоэффективность ИИ |
5,1 TOPS/Вт (INT4) |
5,4–6,4 TOPS/Вт |
0,8 TOPS/Вт (устаревшие Tensor Cores) |
|
Интерфейс |
PCIe 5.0 ×16 |
PCIe 5.0 ×16 (стандарт) / ×8 (SFF) |
PCIe 4.0 ×16 |
|
Видеовыходы |
4× DisplayPort 2.1a + 1× HDMI 2.1b |
4× DisplayPort 2.1 |
4× DisplayPort 1.4a |
|
Форм-фактор |
Полноценный (267×111 мм) |
Стандартный и SFF (Small Form Factor) |
Двухслотовый, полновысотный |
|
Охлаждение |
Активное (турбовентилятор) |
Активное (турбовентилятор) |
Активное (турбовентилятор) |
|
Поддержка ИИ-функций |
ROCm 6.0+, DirectML, Windows ML |
TensorRT, Blackwell Transformer Engine |
TensorRT |
|
Целевое применение |
Локальный ИИ-инференс, обучение моделей 10B–30B, генеративный ИИ с большими контекстами |
Профессиональная визуализация, ИИ-инференс в компактных системах |
Классическая 3D-визуализация, CAD/CAM, инференс ИИ. |
|
Ориентировочная цена |
$1299 |
$1559 |
$1800–2200 (на вторичном рынке). Новая ~$2500) |
Как видно, новинка от AMD хоть и сделана по более продвинутому техпроцессу, но имеет память GDDR6 и самое большое энергопотребление. Но при этом несет на борту больше на 16 Гб видеопамяти и имеет меньшую цену.
Тестируем карту в деле
Для тестов использовались два сервера: помощней с процессором AMD Ryzen 9 7950X 4.5GHz (16 ядер), 128 Гб DDR5 и 1Tb NVMe SSD и послабей на основе Core i9-9900K 5.0GHz (8 ядер), 64 Гб DDR 5 и 1Tb NVMe SSD. Забегая вперед скажу, что первая платформа давала лучший результат, но чисто в задачах, использующих CPU, или где необходимо было быстро прогрузить большую модель с SSD. В GPU тестах разница была менее 1%.
Фото первой сборки (на основе EPYC), увы, не сделали, а вот вторую покажем. Причем собран сервер в корпусах собственного производства, которые можно установить на полку три в ряд, заняв 3U по высоте. О самих корпусах можем рассказать подробнее в следующих статьях.
Фото самой карты, выпущенной Sapphire.


И ее же установленной в корпус.

Как видно, карта двухслотовая с охлаждением из одного вентилятора (турбина), похожего на те, что делает для своих профессиональных GPU Nvidia.
А теперь тесты
Для начала карту нужно «завести». В качестве операционной системы мы использовали Ubuntu 24.04, так как «завести» эту карту можно только на ядрах старше версии 6.13, а значит нужна mainline ветка. Которой нет для 22.04.
По итогу мы запустили карту с ядром версии 6.18.2 (тестировали мы ее под конец прошлого года). И по традиции сделали инструкцию, как грамотно это сделать, и специальный скрипт установки (там же), который можно просто скопировать, вставить от root в командную строку, и он всё сделает за вас. Наша задача стоит запустить ROCm, но заодно мы поставили и протестировали карту в работе с 3D-рендерингом в HIP.
Если у вас (как и у нас) всё пройдет успешно, то команда rocm-smi (ничего не напоминает?) выдаст вам похожие результаты. Первый скрин для EPYC’а (это видно по наличию второй AMD «встройки»), второй для i9. ROCm и там и там был 7.1.1.


Далее пришлось доработать наш ИИ-тест на основе Ollama, чтобы он мог работать и выводить информацию от GPU AMD. Запускаем его с разными моделями (в нашем случае DeepSeek R1 и gpt-oss:20b) и получаем такую картину:
|
GPU |
VRAM |
Model |
Tokens/sec (average) |
max ctx |
Load (sec) average |
Generate (sec) average |
Note |
|---|---|---|---|---|---|---|---|
|
AMD RADEON AI PRO R9700 |
32 GB |
deepseek-r1:14b |
53.52 |
80 000 |
6.74 |
50.50 |
|
|
AMD RADEON AI PRO R9700 |
32 GB |
deepseek-r1:32b |
26.29 |
36 000 |
8.11 |
92.89 |
|
|
AMD RADEON AI PRO R9700 |
32 GB |
gpt-oss:20b |
102.40 |
128 000 |
5.71 |
28.22 |
Mixture of Experts |
|
NVIDIA RTX A5000 (gen3) |
24 GB |
deepseek-r1:14b |
53.15 |
48 000 |
9.15 |
49.11 |
|
|
NVIDIA RTX A5000 (gen3) |
24 GB |
deepseek-r1:32b |
25.77 |
12 000 |
11.49 |
94.10 |
|
|
NVIDIA RTX A5000 (gen3) |
24 GB |
gpt-oss:20b |
119.46 |
128 000 |
6.12 |
22.72 |
Mixture of Experts |
|
NVIDIA GeForce RTX 5090 (gen5) |
32 GB |
deepseek-r1:32b |
65.38 |
32 000 |
3.02 |
39.35 |
|
Из таблицы видно, что карта примерно сравнима по скорости и производительности с NVIDIA RTX A5000 (причем последний еще был и не на быстрой PCI-шине), а мощные решения «зеленых» на чипах Blackwell с таким же объемом видеопамяти (даже потребительские) уделывают карту от красных чуть ли не в три раза.
Полную таблицу сравнения GPU можно найти по этой ссылке.
С другой стороны, поддержка ROCm начинает радовать. Иногда даже больше, чем CUDA, где до сих иногда приходится использовать ночные сборки того же PyTorch и т. п.
А что в других задачах?
По нашей традиции тестирования попробуем рендер графики и видео в ComfyUI. Модель Z-image Turbo, разрешение 1024×1024, промт про бобров:
Photorealistic documentary photo inside a beaver lodge on a quiet lake at night: three beavers acting like IT engineers are assembling a 19-inch server into a small rack. Each beaver wears a bright yellow construction hard hat with a clean, sharp, perfectly readable HOSTKEY logo printed on the front (exact spelling: “HOSTKEY”, all caps), centered, high-contrast, crisp lettering, not distorted. One beaver holds the rack rails, another plugs RJ‑45 patch cables into a network switch, the third checks the front-panel status LEDs. Warm tungsten lamp light, cozy wooden interior, wet realistic fur texture with tiny water droplets, realistic wood grain, subtle steam from damp fur, lake reflections visible through a small window. A neat pile of cable ties, a small screwdriver, and a laptop showing a terminal on a wooden table. Cinematic but realistic lighting, shallow depth of field, 35mm documentary photography, f/2.0, ISO 800, crisp sharp focus on the beavers, helmets, and the server rack, high detail, natural colors, realistic reflections, no cartoon look, no CGI look.


Генерация 6–7 секунд, полное время 14–15 секунд даже при изменении разрешения до HD. Для сравнения, RTX PRO 2000 тратит на это (полное время / только генерация) 26 и 14 секунд соответственно. К сожалению, мы ранее не проводили тесты генерации графики на других наших картах.
Kandinsky 5 Lite, режим «текст в видео» с тем же промтом. Этот режим карту нагружает по полной с потребляемой мощностью от 280 до 300 Ватт.



Итог — 24 минуты. У NVIDIA RTX PRO 2000 тоже 24 минуты. То есть при генерации видео решения от лагеря «красных» проигрывают и существенно. До этого в последних версиях 6-й ветки ROCm уже наблюдалась регрессия производительности на генерации видео до 30%, и, возможно, проблема перешла и в ветку 7-й версии. И в данном случае оптимизация у NVIDIA в разы лучше.
Дополнительно проверим генерацию «картинка в видео».


Те же 24 минуты и также сравнимое время с NVIDIA RTX PRO 2000.
А что там с не ИИ задачами?
Как мы помним, АМД позиционирует RADEON AI PRO R9700 для ИИ-нужд. Да и стек у AMD разделен, поэтому интересно проверить карту в том же 3D-рендеринге в Blender. Для рендеринга AMD использует HIP (Heterogeneous Interface for Portability) — совместимый с CUDA API. HIP обеспечивает базовую работоспособность в Blender, но без конкурентоспособной производительности против OptiX + RTX Core.
Используем для этого тест https://opendata.blender.org/. Его удалось запустить только на LTS версии Blender 4.2.
Итого карта набрала 2957 очков. Если посмотреть на результаты, то мы попадаем в строки чуть лучше RX 6950 XT и сравнимо с NVIDIA RTX A4000. При этом достаточно сильно отстаем от потребительской Radeon RX 7900 XT родом из 2022 года. Но тут стоит отметить, что последняя имеет больше RT ядер (84 против 64) и потоковых процессоров (5 376 против 4 096), шире шину и хоть и создана на предыдущем поколении RDNA3, но лучше оптимизирована для рендеринга 3D-графики.

Подведем итоги
Карта получилась неоднозначная. Если у NVIDIA мы имеем универсальный профессиональный комбайн, четко разделенный по линейке по линейке памяти и мощности ядра в лице RTX PRO 2000/4000/6000 Blackwell (хотя последняя тоже существует в трех ипостасях), то у AMD получилась «ни рыба ни мясо».
С одной стороны, в библиотеках и приложениях для работы с нейросетевыми моделями ситуация достаточно стабильная, и в Ollama, VLMM или при использовании llama.cpp мы получаем сравнимую производительность с «одноклассниками» от NVIDIA (A5000/RTX PRO 4000 Blackwell), но с большим объемом памяти (32 Гб против 24 Гб) и меньшую стоимость. С другой стороны, эта карта проигрывает в генерации видео и рендеринге.
Дополнительные проблемы может создать поддержка в операционных системах, так как нужное ядро (и драйверы) войдут в LTS-версию той же Ubuntu на официальной основе только этой весной с выходом версии 26.04.
Вердикт: если вам нужна профессиональная карта для инференса текстовых моделей или генерации изображений и большим объемом памяти, но вы не готовы переплачивать за средние и старшие модели от NVIDIA, берите RADEON AI PRO R9700. Если же вы собираетесь рендерить видео, 3D-графику или проводить дообучение моделей, тогда вам стоит присмотреться к лагерю «зеленых»
|
Серверы с GPU-картами с почасовой оплатой. Подходят для задач ИИ, рендеринга и высоконагруженных вычислений с оплатой за фактическое использование. |
Автор: akdengi


