- BrainTools - https://www.braintools.ru -
В 2024 году компания xAI, основанная Илоном Маском, запустила [1] суперкомпьютерный кластер Colossus в Мемфисе. Его построили всего за 122 дня, что не много для такой мощной системы. С тех пор Colossus несколько раз наращивали, и теперь его ждет следующий, еще более масштабный апгрейд. Сегодня поговорим о том, как устроен Colossus, что за технологии в нем используются и какие задачи он должен решать. Поехали!

Компания xAI запустила проект Colossus в 2024 году, создав кластер из 100 000 графических процессоров Nvidia H100 всего за 122 дня. Площадку в Мемфисе, штат Теннесси (США), выбрали из-за готового здания бывшего завода Electrolux площадью 73 000 м², доступной энергосети и развитой логистической инфраструктуры. Дженсен Хуанг, глава Nvidia, отметил [2], что на планирование подобных систем обычно уходит около трех лет, а на запуск — еще год. xAI сократила этот процесс до четырех месяцев благодаря использованию существующего здания и сотрудничеству с Dell Technologies, Supermicro и Nvidia.
Кластер рос поэтапно [3]: в октябре 2024 года к нему добавили 50 000 чипов H200, доведя общее число GPU до 200 000, а к лету 2025-го он вырос до 230 000 — за счет включения еще 30 000 новых GB200. Следующая фаза, названная «Colossus 2», предусматривает увеличение до 550 000 GPU, включая GB200 и планируемые к использованию чипы GB300, которые пока не представлены официально. Эту фазу планируют запустить уже в ближайшие недели — она сделает Colossus первым в мире ИИ-дата-центром с потреблением в один гигаватт, что позволит значительно увеличить вычислительную мощность и ускорить обучение [4] крупных моделей.
Масштабирование потребовало солидных инвестиций: xAI планирует [5] привлечь до 12 миллиардов долларов для закупки чипов и развития дата-центра. Проект стал частью конкуренции в области ИИ с OpenAI, Google и быстрорастущими компаниями, такими как DeepSeek. Логистика включала поставку сотен тысяч GPU и серверных стоек, что требовало координации с вендорами. Для упрощения xAI использовала модульные стойки, позволившие установить 1 500 юнитов за три недели и быстро добавить новые GPU без перестройки кластера.
Что получить достаточный для Colossus xAI объем энергии, компания подключилась [6] к местной электросети и установила 168 Tesla Megapack — массивных аккумуляторных блоков суммарной мощностью около 150 МВт, которые стабилизируют подачу энергии, сглаживают пики и обеспечивают резерв при отключениях или перегрузках.
xAI внедрила систему мониторинга, которая в реальном времени отслеживает состояние всех узлов в кластере — от температуры и энергопотребления до загрузки GPU. Это помогает оперативно выявлять и устранять сбои, а также равномерно распределять нагрузку, чтобы избежать «узких мест» в производительности. В июле 2025 года Илон Маск выложил [8] в соцсети X фотографии серверных стоек Colossus, на которых видны километры кабелей и плотная разводка для подключения ускорителей GB200. Эти кадры быстро разошлись по техносообществу — не только из-за масштаба, но и потому, что они впервые дали возможность заглянуть внутрь одного из самых мощных ИИ-кластеров в мире.
Colossus построен на базе графических процессоров Nvidia H100, H200 и GB200 — именно эти ускорители оптимизированы для задач глубокого обучения, включая работу с крупными языковыми моделями.
Эти чипы поддерживают нейронные сети с миллиардами параметров, обеспечивая высокую производительность для матричных вычислений. Сеть кластера основана [9] на Nvidia Spectrum-X Ethernet с пропускной способностью до 800 Гбит/с, что дает быструю передачу данных между узлами. Каждый сервер оснащен контроллерами на 400 Гбит/с, а суммарная пропускная способность составляет 3,6 Тбит/с на сервер. Nvidia утверждает [9], что система выдает до 95% от максимальной скорости — без потерь и с минимальными задержками.
Охлаждение — жидкостное решение от Supermicro, включая 4U-стойки с прямым охлаждением чипов (Direct-to-Chip, DLC). Такая схема снижает энергопотребление и поддерживает стабильную температуру при высоких нагрузках. Дополнительные вентиляционные системы помогают отводить избыточное тепло — это особенно важно с учетом масштабов Colossus 2, который должен выйти на гигаваттный уровень энергопотребления.
Программное обеспечение включает стек xAI для управления ресурсами, интегрированный с облачными сервисами. Что это дает? Распределение нагрузки между узлами и оптимизацию обучения моделей. Система поддерживает параллельное выполнение задач, ускоряя тренировку ИИ. Инструменты мониторинга и автоматизации обеспечивают стабильность при масштабировании, позволяя кластеру справляться с возрастающими объемами данных.
Colossus создан [10] для ускорения разработки искусственного интеллекта [11], прежде всего для обучения языковой модели Grok. Она позиционируется как LLM для предоставления точных ответов. Илон Маск заявил [12]: «Наша цель — максимально приблизиться к абсолютной правде». Сейчас Grok работает с текстовой информацией, но xAI планирует обучение на мультимодальных данных, включая потенциально научные массивы. Для этого и нужен огромный объем вычислительных ресурсов, предоставляемых Colossus.
Кластер поддерживает проекты других компаний Маска. SpaceX использует его для анализа данных космических миссий, включая моделирование траекторий и обработку телеметрии. Tesla применяет вычисления для систем автономного вождения и робота Optimus, обрабатывая данные с датчиков и камер. Эти задачи требуют алгоритмов компьютерного зрения [13] и глубокого обучения, выполняемых на GPU.
А еще Colossus ориентирован на научные исследования. Суперкомпьютер моделирует физические процессы, такие как взаимодействие молекул или астрофизические явления, и может поддерживать анализ данных для биологии, медицины или климатологии. Это соответствует миссии xAI — ускорить научный [14] прогресс через ИИ.
Цель xAI — увеличить число GPU в Colossus до 1 миллиона в ближайшие годы. По словам [15] Илона Маска, это сделает кластер крупнейшим в мире по вычислительной мощности и укрепит позиции xAI в конкуренции с OpenAI, Google и другими ИИ-компаниями. Партнерство с Nvidia дает доступ к передовым чипам, которые помогут достичь этой цели.
Программное обеспечение Colossus продолжает развиваться: xAI работает над улучшением распределения задач и более тесной интеграцией с Grok, чтобы обрабатывать запросы в реальном времени. Это позволит запускать более сложные модели ИИ и одновременно обслуживать тысячи пользователей. В будущем Colossus может стать основой для глобальных научных проектов, в которых участвуют исследователи со всего мира.
Чтобы это стало возможным, xAI планирует открыть доступ к кластеру через API — так его ресурсы смогут использовать сторонние компании и исследовательские группы. Такой шаг поставит Colossus в один ряд с крупнейшими облачными платформами вроде AWS, Google Cloud и Azure и поможет стартапам запускать свои модели, даже если у них нет собственной инфраструктуры.
Автор: BiktorSergeev
Источник [16]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/18041
URLs in this post:
[1] запустила: https://en.wikipedia.org/wiki/Colossus_(supercomputer)
[2] отметил: https://www.businessinsider.com/jensen-huang-elon-musk-supercomputer-xai-grok-2024-10
[3] поэтапно: https://www.tomshardware.com/tech-industry/artificial-intelligence/elon-musk-says-xai-is-targeting-50-million-h100-equivalent-ai-gpus-in-five-years-230k-gpus-including-30k-gb200s-already-reportedly-operational-for-training-grok
[4] обучение: http://www.braintools.ru/article/5125
[5] планирует: https://www.reuters.com/business/musks-xai-raise-up-12-billion-debt-ai-expansion-wsj-reports-2025-07-22/
[6] подключилась: https://www.datacenterdynamics.com/en/news/xai-deploys-168-tesla-megapacks-to-power-its-colossus-supercomputer-in-memphis/
[7] Источник: https://x.com/elonmusk/status/1947715674429919279/photo/2
[8] выложил: https://x.com/elonmusk/status/1947715674429919279
[9] основана: https://nvidianews.nvidia.com/news/spectrum-x-ethernet-networking-xai-colossus
[10] создан: https://builtin.com/artificial-intelligence/xai-supercomputer-colossus
[11] интеллекта: http://www.braintools.ru/article/7605
[12] заявил: https://techcrunch.com/2025/07/10/grok-4-seems-to-consult-elon-musk-to-answer-controversial-questions/
[13] зрения: http://www.braintools.ru/article/6238
[14] научный: http://www.braintools.ru/article/7634
[15] По словам: https://www.reuters.com/technology/artificial-intelligence/musks-xai-plans-massive-expansion-ai-supercomputer-memphis-2024-12-04/
[16] Источник: https://habr.com/ru/companies/ru_mts/articles/934302/?utm_source=habrahabr&utm_medium=rss&utm_campaign=934302
Нажмите здесь для печати.