- BrainTools - https://www.braintools.ru -

Ultra Ethernet: что это за технология и зачем она нужна дата-центрам

Ultra Ethernet: что это за технология и зачем она нужна дата-центрам - 1

Сети в дата-центрах за последние десятилетия заметно эволюционировали: еще сравнительно недавно для большинства задач хватало Gigabit Ethernet, и этого было достаточно для корпоративных сервисов и первых облаков. Ethernet удерживал позиции за счет массовости и огромной экосистемы. Однако с распространением крупных моделей искусственного интеллекта [1] характер нагрузок резко изменился: тысячи ускорителей обмениваются терабайтами данных, коллективные операции требуют строгой синхронизации, а кратковременная перегрузка способна замедлить обучение [2] всего кластера. В таких условиях традиционные сетевые подходы начинают упираться в свои ограничения — отсюда и возникает интерес [3] к решениям вроде Ultra Ethernet.

Инициатива родилась в 2023 году [4] благодаря корпорациям Intel, AMD, Broadcom, Cisco, Microsoft и другим. Они сформировали консорциум UEC. На сегодня в нем уже больше сотни компаний. Идея была в том, чтобы взять проверенный Ethernet и переработать его под нагрузки, которые доминируют сегодня: обучение нейросетей и высокопроизводительные вычисления. В 2025 году представили [5] спецификацию 1.0 с полным описанием стека, включая транспортный протокол, механизмы управления затором и телеметрию. Уже появились первые чипы и сетевые карты с поддержкой: Broadcom показал свой Thor Ultra с 800G портами, AMD выпустила адаптеры Pensando Pollara, Nokia и Arista тестируют свитчи. Первые реальные продукты начали поступать на рынок, но экосистема только формируется. Давайте разберем, что именно изменилось и почему это может стать новым стандартом для больших систем.

Как устроена архитектура Ultra Ethernet

Основа остается прежней — стандартный Ethernet по IEEE 802.3. Кабели, оптика и физический уровень совместимы с тем, что уже используется в большинстве центров обработки данных. Это означает, что Ultra Ethernet не требует полной замены инфраструктуры железа канального уровня. Но для использования новых технологий, прежде всего транспорта UET и продвинутого управления перегрузками, нужны сетевые адаптеры и коммутаторы с соответствующей поддержкой.

Главные изменения происходят не на физическом уровне, а выше — в транспортной части стека. Для таких нагрузок поверх Ethernet вводят новый протокол — Ultra Ethernet Transport (UET), который рассчитан на интенсивный обмен данными между узлами, в том числе с прямым доступом к памяти [6], как в RDMA. Он изначально ориентирован на коллективные операции вроде AllReduce и AllGather, характерные для обучения моделей.

Внутри UET логика разделена [7] на несколько частей: одна отвечает за тип операций и их обработку, другая — за доставку пакетов (с гарантией или без нее), третья — за контроль перегрузок с учетом сигналов от сети. Такой подход позволяет точнее управлять трафиком и лучше адаптироваться к нагрузкам больших кластеров.

Благодаря такому устройству пакеты одного потока могут идти разными маршрутами через всю сеть, причем без жесткого требования сохранять порядок. Это снижает хвостовые задержки. Плюс ко всему встроили расширенную телеметрию In-Network Telemetry (INT), которая в реальном времени собирает данные о состоянии линков, очередей и потоков прямо внутри свитчей. Проблемы замечают заранее — до того, как они превратятся в серьезный сбой.

Базовые API вроде libfabric или MPI остаются совместимыми, так что разработчикам не приходится переписывать приложения целиком. Однако для максимальной отдачи от новых механизмов возможна адаптация стека под специфику UET. В итоге получается подход, который стремится сочетать привычную инфраструктуру с серьезными улучшениями для AI и HPC.

Какие технические нововведения появились

Большинство изменений касается того, как сеть ведет себя при перегрузке. Раньше сигнал о проблеме шел от приемника — через механизмы приостановки передачи или уведомления о заторе. В новой схеме скорость регулирует сам отправитель, ориентируясь на сигналы от коммутаторов и принимающей стороны. Он быстрее сбрасывает темп, если видит перегрузку, поэтому ситуации, когда один узел блокирует другой данными, случаются гораздо реже.

Еще одно важное изменение — согласованное распределение трафика по нескольким маршрутам. Пакеты отправляются не по одному фиксированному пути, а расходятся по сети так, чтобы не возникали перегруженные участки. При этом допускается доставка вне строгого порядка, а приемник корректно собирает поток заново. В результате сеть лучше использует доступные каналы связи, и общая пропускная способность заметно растет, особенно в кластерах с тысячами узлов.

Отдельное внимание [8] уделили защите от ситуации, когда множество нод одновременно отправляют данные одному получателю и перегружают его. Для этого ввели динамическое управление доступной пропускной способностью на стороне приемника, приоритетные очереди и другие механизмы, которые не дают передачи данных остановиться даже при интенсивных коллективных операциях. Появились несколько классов обслуживания для разных типов трафика и более точный контроль на уровне отдельных соединений.

В итоге сеть ведет себя гораздо стабильнее и предсказуемее. Встроенная телеметрия собирает данные о состоянии каналов и очередей прямо во время работы и позволяет быстро определить, где начинается перегрузка. По результатам первых испытаний оборудования в 2025 году механизмы управления трафиком показали себя рабочими: перегрузки происходят реже, а эффективность в задачах обучения моделей заметно выше, особенно там, где идет интенсивный обмен небольшими пакетами данных.

Как это влияет на производительность и надежность кластеров

В больших системах с тысячами GPU даже маленькие улучшения сети оборачиваются ощутимым выигрышем для всего кластера. Ultra Ethernet дает задержки на уровне микросекунд от узла к узлу, причем хвостовые значения стали ниже благодаря описанным выше механизмам. Для коллективных операций вроде AllReduce, где все узлы должны работать в унисон, это особенно важно: в ряде сценариев время синхронизации может сокращаться кратно.

Пропускная способность растет за счет того, что все доступные пути используются эффективно, а порты уже поддерживают 800 Гбит/с и выше с модуляцией PAM-4. Масштабирование приближается к линейному: добавляешь новые машины — и общая полоса увеличивается почти пропорционально, без резких провалов из-за узких мест.

Надежность также повысилась. Если один линк выходит из строя, трафик плавно перетекает на остальные маршруты благодаря координированному spraying, и деградации почти не заметно. Механизмы управления перегрузками не допускают появления горячих точек, которые раньше могли парализовать целый сегмент ткани даже при частичном сбое.

В тестах и независимых обзорах 2025–2026 годов результаты демонстрируют показатели, приближающиеся к топовым конфигурациям InfiniBand по задержкам и пропускной способности в AI-нагрузках. При этом стандарт остается полностью открытым, а оборудование от разных вендоров проще интегрировать. Для многих компаний это становится важным аргументом, особенно когда нужно избежать зависимости от одного поставщика.

Чем отличается от привычных решений

Чтобы было нагляднее, давайте оценим возможности стандартов в виде таблички. Только основное, без погружения в сложные технические детали. 

Характеристика

Ethernet с RoCE

InfiniBand

Ultra Ethernet

Задержка

10–100 мкс, высокая 

1–5 мкс, низкая

Микросекунды, низкая

Управление перегрузкой

PFC/ECN, проблемы с incast

Без потерь, встроенное

На стороне отправителя, координированное

Многоканальная
маршрутизация

Ограниченная (ECMP по потокам)

Полная
(по пакетам)

Полная
(по пакетам с координацией)

Открытость

Открытый, но с доработками для AI

Проприетарный

Полностью открытый

Стоимость

Низкая

Высокая

Средняя, совместимая с существующим

Масштабируемость

До десятков тысяч узлов

До сотен тысяч

Теоретически до миллионов узлов

RoCE на обычном Ethernet работает и сегодня, но требует очень аккуратной настройки, а хвостовые задержки все равно остаются больным местом даже с современными улучшениями. InfiniBand дает отличную скорость и надежность в задачах с плотной связью узлов, однако привязывает к единому вендору и обходится дорого. Ultra Ethernet берет лучшее от обоих вариантов: огромную экосистему от первого, продвинутые механизмы производительности и устойчивости от второго.

Разница в целом видна в подходе. Здесь построили новый стек с нуля под спецификацию UEC 1.0, который изначально рассчитан на нагрузки будущего — от эксафлопсных систем до крупных кластеров GPU.

Что в итоге 

Ultra Ethernet, скорее всего, начнет появляться там, где сеть уже стала узким местом: в крупных облаках, которые строят огромные кластеры под обучение моделей, и в исследовательских центрах, где тысячи ускорителей должны работать как единое целое. Для таких систем важны не только низкие задержки, но и предсказуемое поведение [9] сети при росте нагрузки. В научных вычислениях с кластерами на сотни тысяч узлов ситуация похожая: чем больше масштаб, тем болезненнее любая перегрузка или перекос трафика.

При этом переход не выглядит революцией — физическая основа остается прежней, а новые возможности добавляются по мере обновления оборудования. Пока это ранняя стадия: есть первые внедрения и тесты, но массового распространения еще нет. Насколько широко Ultra Ethernet приживется, станет понятно по тому, готовы ли крупные игроки действительно делать на него ставку в своих инфраструктурах.

Автор: t3chnowolf

Источник [10]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/25676

URLs in this post:

[1] интеллекта: http://www.braintools.ru/article/7605

[2] обучение: http://www.braintools.ru/article/5125

[3] интерес: http://www.braintools.ru/article/4220

[4] родилась в 2023 году: https://ultraethernet.org/ultra-ethernet-consortium-uec-launches-specification-1-0-transforming-ethernet-for-ai-and-hpc-at-scale/

[5] представили: https://www.prnewswire.com/news-releases/ultra-ethernet-consortium-uec-launches-specification-1-0-transforming-ethernet-for-ai-and-hpc-at-scale-302478685.html

[6] памяти: http://www.braintools.ru/article/4140

[7] логика разделена: https://www.tomshardware.com/networking/ultra-ethernet-the-data-center-interconnection-of-tomorrow-detailed

[8] внимание: http://www.braintools.ru/article/7595

[9] поведение: http://www.braintools.ru/article/9372

[10] Источник: https://habr.com/ru/companies/ru_mts/articles/996358/?utm_source=habrahabr&utm_medium=rss&utm_campaign=996358

www.BrainTools.ru

Rambler's Top100