Мы уткнулись в потолок. Почему видеокарты перестали быстро расти — и что с этим делать. blackwell.. blackwell. gpu.. blackwell. gpu. h100.. blackwell. gpu. h100. HBM.. blackwell. gpu. h100. HBM. llm.. blackwell. gpu. h100. HBM. llm. nvidia.. blackwell. gpu. h100. HBM. llm. nvidia. архитектура GPU.. blackwell. gpu. h100. HBM. llm. nvidia. архитектура GPU. Видеокарты.. blackwell. gpu. h100. HBM. llm. nvidia. архитектура GPU. Видеокарты. закон мура.. blackwell. gpu. h100. HBM. llm. nvidia. архитектура GPU. Видеокарты. закон мура. Машинное обучение.. blackwell. gpu. h100. HBM. llm. nvidia. архитектура GPU. Видеокарты. закон мура. Машинное обучение. Процессоры.. blackwell. gpu. h100. HBM. llm. nvidia. архитектура GPU. Видеокарты. закон мура. Машинное обучение. Процессоры. чиплеты.

О смерти закона Мура применительно к GPU, стене памяти, которую никто не хочет замечать, и архитектурах, которые пытаются с этим жить.


H100 стоит $30 000 и потребляет 700 Вт. RTX 5090 — $2 000 (де-факто больше) и 575 Вт. Прирост производительности между поколениями сжался с 80% до 15–20%. Это, на самом деле, структурная проблема. Давайте разберёмся, откуда она взялась и куда мы движемся.


Откуда взялась проблема

В 2006 году Дженсен Хуанг пообещал с большой сцены, что NVIDIA будет удваивать производительность GPU каждые два года. Тогда это звучало почти банально — удвоение и так происходило само по себе, потому что транзисторы просто становились меньше, и всё работало лучше.

Ключевой момент: закон Мура никогда не был законом физики. Это было наблюдение Гордона Мура за тем, что экономика позволяла уменьшать транзисторы вдвое примерно каждые 18 месяцев. Когда экономика перестала это позволять — наблюдение умерло.

А прогресс техпроцесса на бумаге всё ещё выглядит внушительно:

  • 7 нм — A100 (2020)

  • 4 нм — H100 (2022)

  • 3 нм — H200 (2024)

На практике H200 быстрее H100 примерно на 40% при практически идентичной архитектуре. Большая часть прироста — это HBM3e с увеличенной пропускной способностью памяти, а не транзисторы.


Три стены, в которые мы врезались одновременно

Стена #1 — Память

Это, пожалуй, самый недооценённый кризис в индустрии.

GPU умеет вычислять несравнимо быстрее, чем получать данные. H100 теоретически выдаёт ~67 TFLOPS для FP32, но пропускная способность памяти — всего 3,35 ТБ/с. Для нагрузок с большими матрицами GPU простаивает до 70% времени, просто ожидая данные.

Возьмём конкретный пример — умножение матриц FP16 на H100:

  • Пиковая производительность: 312 TFLOPS

  • Реальная утилизация при LLM inference: 30–50 TFLOPS

Причина проста: токены генерируются по одному, батчи маленькие, матричные блоки загружены плохо.

Решение существует — High Bandwidth Memory. Но HBM безумно дорог и дефицитен. SK Hynix, Micron и Samsung производят его суммарно на пределе своих возможностей. Поэтому GB200 с HBM3e — это не просто дорогой товар, а дефицитный.

Стена #2 — Тепло и энергия

Транзистор, который стал вдвое меньше, потребляет не вдвое меньше энергии. Реальность жёстче: плотность мощности на кристалле растёт быстрее, чем мы умеем её отводить.

Denard Scaling — принцип, по которому уменьшение транзистора сохраняло плотность мощности постоянной — умер ещё в 2007 году, примерно на отметке 65 нм. Всё, что происходило после — это инженерная заслуга.

H100 SXM5 потребляет 700 Вт. GB200 в конфигурации NVL72 — это серверная стойка с суммарным TDP порядка 120+ кВт. Дата-центры переходят на жидкостное охлаждение потому что воздух больше не справляется.

Стена #3 — Соединения между чипами

Монолитный кристалл упёрся в реальность литографии: большой чип = больше дефектов при производстве = меньше выхода годных = дороже. NVIDIA начала делать чиплеты начиная с Hopper, хотя особо это не афишировала. AMD с MI300X пошла ещё дальше — это уже стопка из трёх GPU-кристаллов и четырёх CPU-кристаллов.

Посмотрим на эволюцию поколений:

Поколение

Чип

Техпроцесс

Что изменилось

Pascal (2016)

GP102, 471 мм²

12 нм

Монолитный дизайн, честное масштабирование

Turing (2018)

TU102, 754 мм²

12 нм

Первые тензорные ядра, прирост уже скромный

Ampere (2020)

GA102, 628 мм²

8 нм Samsung

Скачок на нормы техпроцесса — большой прирост

Hopper (2022)

GH100, 814 мм²

4 нм TSMC

NVLink Switch, Transformer Engine

Blackwell (2024)

GB202

4 нм TSMC

Два кристалла, объединённых NVLink

Монолитный дизайн официально умер.


Что индустрия придумала в ответ

Это параллельно развивающийся зоопарк архитектурных идей, каждая из которых обходит физические ограничения по-своему.

Chiplet / 2.5D packaging. Несколько кристаллов на одном корпусе с быстрым интерконнектом (CoWoS, HBM). AMD MI300X — 153 млрд транзисторов. Экономически выгодно, технически сложно.

In-Memory Computing. Вычисления прямо в ячейках памяти. Убивает проблему bandwidth принципиально. Стартапы вроде Mythic AI делали это на flash-памяти. Пока нишево, но концептуально — радует, что идем в правильном направлении.

Sparse Computation. H100 поддерживает structured sparsity: пропускает нули и тем самым удваивает эффективную производительность. Проблема в том, что модели нужно специально готовить к pruning — само по себе не работает.

Domain-Specific Accelerators. TPU (Google), Trainium (AWS), Gaudi (Intel) отказываются от универсальности в пользу специализации. Для конкретной задачи они выигрывают у GPU по эффективности в разы.


Настоящая революция — это топология

Самое интересное происходит между чипами.

NVLink 5.0 в GB200 обеспечивает 1,8 ТБ/с двунаправленной пропускной способности между GPU — это больше, чем bandwidth памяти внутри GPU трёхлетней давности.

Логика такая: если нельзя сделать один GPU быстрее, нужно сделать так, чтобы сотни GPU вели себя как один. NVL72 — это 72 GPU, которые с точки зрения модели выглядят как один гигантский ускоритель с 13,5 ТБ HBM3e. Модели на 70B параметров помещаются целиком.

Это фундаментальный сдвиг: мы перестаём оптимизировать отдельный чип и начинаем проектировать системы.


Что будет дальше?

Фотолитография дойдёт до 1,6–1,4 нм (TSMC N1.6, A14) к 2027–2028 году. Это не конец масштабирования, но каждый следующий шаг стоит экспоненциально дороже. Завод TSMC для N3 обошёлся в $20 млрд. N2 — ещё дороже.

Реальный прогресс следующих пяти лет будет приходить от трёх направлений.

Архитектурная специализация. GPU общего назначения будет вытесняться смесью специализированных блоков — отдельные engine под attention, под activation, под prefill/decode. Blackwell уже разделяет эти фазы.

Программно-аппаратный co-design. Flash Attention, PagedAttention, Speculative Decoding — это алгоритмы, написанные под конкретное железо. Следующие модели будут проектироваться с учётом hardware constraints с самого начала (а не как сейчас, постфактум).

Новая физика. Оптические интерконнекты уже в продакшене (Ayar Labs, Lightmatter). Нейроморфные чипы (Intel Loihi 2) — нишевый, но реальный класс устройств. Аналоговые in-memory вычисления — горизонт 5–10 лет до production-ready.


Что мы имеем сегодня?

Мы не уткнулись в тупик. Мы уткнулись в конец эпохи, когда железо умнело само по себе — пока инженеры ПО могли ничего особо не делать.

Следующие десять лет потребуют совместной работы на всех уровнях стека: физика материалов → топология чипов → архитектура систем → алгоритмы → обучение моделей. Команды, которые понимают все эти уровни одновременно, выиграют. Остальные будут ждать следующего поколения GPU и удивляться, почему разрыв не сокращается.

Хорошая новость: мы живём в самый интересный момент в истории вычислительной техники за последние 30 лет. Плохая новость: халявы больше нет.

Автор: Claritas

Источник