- BrainTools - https://www.braintools.ru -

Карты Tenstorrent для DIY-сервера с локальной LLM

Карты Tenstorrent для DIY-сервера с локальной LLM - 1

В апреле 2025 года компания Tenstorrent [1] начала принимать заказы на PCIe-карты Blackhole [2] и Wormhole [3] (на фото). Ускорители TPU на открытой архитектуре RISC-V с 28−32 ГБ видеопамяти предназначены непосредственно для разработчиков, которые желают запускать LLM на домашнем ПК или небольшом DIY-сервере. Это реальная альтернатива в сегменте, где пока доминирует Nvidia.

Во главе Tenstorrent стоит легендарный инженер Джим Келлер [4], ветеран Intel и AMD, создатель микроархитектуры AMD Zen [5] и соавтор x86-64 [6].

Благодаря радикальной открытости своих решений Tenstorrent уже привлекла небольшую армию фанатов среди LLM-энтузиастов.

Появление мощных LLM с открытыми весами типа Llama, Qwen, Mixtral и QwQ стимулировало спрос на производительное оборудование для сборки DIY-серверов. Энтузиасты уделяют приоритетное внимание [7] объёму VRAM и пропускной способности памяти [8]. Это важно для приемлемой скорости инференса (токены в секунду). Типичная конфигурация домашнего сервера включает несколько бэушных GPU от Nvidia, таких как RTX 3090, см. «Быстрый и экономичный инференс в прикладных задачах» [9].

Карты Tenstorrent ориентированы именно на эту высококонкурентную нишу, где главный параметр — соотношение цены и производительности.

Для предварительного заказа доступны карты Blackhole p100a, p150a и p150b [2], а также Wormhole n150d и n300d [3].

Технические характеристики карт Blackhole:

Карты Tenstorrent для DIY-сервера с локальной LLM - 2

Технические характеристики карт Wormhole:

Карты Tenstorrent для DIY-сервера с локальной LLM - 3

Tenstorrent подчёркивает открытый подход с использованием свободного ПО, предлагая кастомный форк популярного сервера инференса vLLM [10], который поддерживает такие модели, как Llama, Qwen, Mistral, Mixtral и Falcon. Документация и руководство по установке — в разделе для разработчиков [11].

Для локального инференса LLM, особенно генерации токенов, решающее значение имеет пропускная способность памяти. Именно она определяет, насколько быстро работает модель. Посмотрим, как выглядят карты Tenstorrent в сравнении предложениями Nvidia, учитывая рекомендованную розничную цену и текущие рыночные цены, источник [12]:

Сравнение Tenstorrent Blackhole и Nvidia RTX

Характеристика

Tenstorrent p100a

Tenstorrent p150a

Nvidia RTX 3090 (б/у)

Nvidia RTX 4090

Nvidia RTX 5090

VRAM

28 ГБ GDDR6

32 ГБ GDDR6

24 ГБ GDDR6X

24 ГБ GDDR6X

32 ГБ GDDR7

Пропускная способность (BW)

448 ГБ/с

512 ГБ/с

936 ГБ/с

1008 ГБ/с

1790 ГБ/с

Питание (TBP)

300 Вт

300 Вт

350 Вт

450 Вт

575 Вт

Цена (текущая)

$999

$1399

$1000

~$3000

~$3300

Цена (MSRP)

$999

$1399

$1499

$1599

$1999

$/ГБ VRAM (текущая)

~$35,68

~$43,72

~$41,67

~$125,00

~$103,13

$/(ГБ/с) BW (текущая)

~$2,23

~$2,73

~$1,07

~$2,98

~$1,84

Интерфейс

PCIe

PCIe

PCIe

PCIe

PCIe

Сравнение Tenstorrent Wormhole и Nvidia RTX

Характеристика

Tenstorrent n150d

Tenstorrent n300d

Nvidia RTX 3090 (б/у)

Nvidia RTX 4090

VRAM

12 ГБ GDDR6

24 ГБ GDDR6

24 ГБ GDDR6X

24 ГБ GDDR6X

Пропускная способность (BW)

288 ГБ/с

576 ГБ/с

936 ГБ/с

1008 ГБ/с

Питание (TBP)

160 Вт

300 Вт

~350 Вт

~450 Вт

Цена (текущая)

$1099

$1449

~$1000

~$3000

Цена (MSRP)

$1099

$1449

$1499

$1599

$/ГБ VRAM (текущая)

~$91,58

~$60,38

~$41,67

~$125,00

$/(ГБ/с) BW (текущая)

~$3,82

~$2,52

~$1,07

~$2,98

Интерфейс

PCIe

PCIe

PCIe

PCIe

Как видим, объём памяти 28−32 ГБ у топовых моделей превышает 24-гигабайтный лимит RTX 3090 и 4090. Это позволяет использовать более крупные модели и более высокую точность без необходимости установки нескольких GPU.

Карта p150a по объёму VRAM (32 ГБ) равняется гораздо более дорогой RTX 5090.

С точки зрения [13] соотношения цена/ГБ, карты Blackhole выглядят привлекательно по сравнению с текущими ценами Nvidia.

Главной проблемой этих карт остаётся дефицит пропускной способности. На обеих картах Blackhole она примерно вдвое ниже, чем у RTX 3090. На Wormhole пропускную способность немного больше, но всё же значительно отстаёт от 3090.

Преимуществом Tenstorrent является более высокая вычислительная способность (в TFLOPS), но она не компенсирует пропускную способность в плане скорости генерации токенов.

Другое уникальное преимущество Tenstorrent — порты QSFP-DD на p150a (800G) и n300d/n150d (200G) для высокоскоростных межсоединений, что позволяет масштабировать несколько карт и обойти стандартные ограничения пропускной способности PCIe в больших кластерах.

Мост Warp 100 ($56 и $84) на два и три слота для соединения карт Wormhole

Мост Warp 100 ($56 и $84) на два и три слота для соединения карт Wormhole
Кабель QSFP-DD 400G за $68

Кабель QSFP-DD 400G за $68

Схема соединения ускорителей:

Карты Tenstorrent для DIY-сервера с локальной LLM - 6

Таким образом, систему можно масштабировать от небольшой рабочей станции с несколькими картами до серверных стоек Galaxy Wormhole Server [14] в сетке 8×32 ускорителей с интерконнектом:

Карты Tenstorrent для DIY-сервера с локальной LLM - 7

У Nvidia есть интерконнект NVLink, но он дорогой или недоступен на потребительских картах. А здесь всё доступно.

Система Tenstorrent Galaxy из 32 чипов Wormhole в mesh-сети

Система Tenstorrent Galaxy из 32 чипов Wormhole в mesh-сети

Теперь Tenstorrent работает над созданием всё более крупных кластеров для обучения [15] моделей. На данный момент построен кластер из шести Backhole Galaxy (192 чипа), в течение следующих шести месяцев появятся более крупные. Конечная цель — система из 16-ти серверов Galaxy, ещё 16 для коммутации и ещё 16 в качестве «оптимизатора».

В такой архитектуре можно в любой момент отключить любой узел — и кластер продолжит работать.

Самая большая версия будет работать на двух миллионах ядер RISC-V, все вместе параллельно под управлением одной программы. «Мы собираемся построить безумно большие компьютеры, — говорит [16] Джим Келлер. — Это действительно весело».

Железо для ИИ. Особый путь

Джим Келлер — легендарный инженер в микроэлектронной промышленности, ветеран Intel и AMD, а также Apple и Tesla. «Что ни сделает Nvidia — мы сделаем наоборот», — говорит он.

Джим Келлер. Фото: Tenstorrent

Джим Келлер. Фото: Tenstorrent

Его миссия — делать железо для ИИ. На двери офиса Келлера в Санта-Кларе висит доска, на которой он написал большими буквами: «Мы победим!», а рядом — список моделей LLM, которые работают на Blackhole [11].

Tenstorrent не только пользуется преимуществами экосистемы Open Source, но и вносит свой вклад: «Мы вкладываемся в компилятор [RISC-V]», — говорит Келлер. — Наши патчи в LLVM повысили производительность компилятора на 10 %. Операционная система, драйверы, наборы инструментов — всё становится лучше. Я доволен, RISC-V отлично проявляет себя, мы приняли правильное решение — и собираемся на этом заработать».

Келлер сказал, что в долгосрочной перспективе RISC-V победит архитектуры набора команд, которые не поддерживают настройку в достаточной степени: «Генерация с помощью ИИ сделает код гораздо более параллельным и изменит архитектуру CPU, — считает он. — Другие архитектуры не позволяют это контролировать, в отличие от RISC-V».

В настоящее время у Tenstorrent есть европейские офисы в Сербии, Германии и Польше, планируется также офис на Кипре, который будет работать с местными университетами, использующими компьютеры Tenstorrent. Испания — ещё одно вероятное место для открытия офиса в будущем, учитывая наличие в стране талантливых специалистов по RISC-V и поддержку со стороны правительства, говорит Келлер.

В Японии Tenstorrent сотрудничает с фабрикой по производству микроэлектроники Rapidus [17]. Уже запущена пилотная линия по производству ASIC по технологическому процессу 2 нм [18].

RISC-V: свободный мир

Свободное ПО изменило мир. Везде, где появляется опенсорс, совершается технологическая революция. Мы это видели на примере целого ряда ключевых технологий: весь интернет работает на открытом ПО [19], отрасль ИИ базируется на открытых фреймворках. Даже популярные проприетарные продукты невозможно представить без открытых технологий, на которых они базируются. Так, создание macOS было бы невозможным без Unix, а Netflix — без FFmpeg [20].

Опенсорс везде, а в мире аппаратного обеспечения есть его аналог — открытая архитектура. Вот как раз RISC-V — это эквивалент Linux в мире ИИ.

Архитектура RISC-V была разработана в 2010 году в Калифорнийском университете Беркли как бесплатный открытый стандарт, альтернативный проприетарным архитектурам, таким как Intel x86 и ARM.

Её открытость предполагает возможность глубокой модификации всеми желающими, что особенно привлекательно для приложений ИИ и серверного железа. В итоге RISC-V получил невероятное распространение: от крупных корпораций как Google, до маленьких стартапов как Tenstorrent — все создают микросхемы TPU на архитектуре RISC-V.

Такие TPU могут составить реальную конкуренцию GPU при сборке серверов для локального хостинга LLM. Как и в других приложениях самохостинга, локальная LLM на своём сервере даёт ряд преимуществ перед облачными серверами. Самое главное — это контроль над данными. Это критическое требование для компаний, которые не могут себе позволить передавать проприетарный код и другие данные в публичный сервис.

Кроме информационной безопасности, самохостинг LLM позволяет сэкономить деньги на платных подписках.

Архитектура RISC-V в перспективе поможет в будущем открыть весь стек ИИ [21]: от аппаратного обеспечения до конечных моделей и приложений. Репозиторий Tenstorrent [22] на Github
содержит подробные сведения об аппаратном обеспечении и программах, которые разрабатывает компания.

Карты Tenstorrent для DIY-сервера с локальной LLM - 10

На диаграмме фиолетовым показан программный стек Tenstorrent, в контексте общего стека ИИ. Здесь TT-LLK [23] — это среда для программирования одиночных TPU (написание ядер), TT-Metalium [24] — низкоуровневая среда выполнения, которая координирует работу чипов, TT-NN — библиотека операций и API, а TT-Forge [25] — новый компилятор MLIR. Всё это лежит в репозитории, открыто для изучения, использования и модификаций.

Будущее локального инференса

Таким образом, не только большие корпорации имеют возможность проектировать и продавать аппаратные AI-ускорители. Это может делать даже небольшой стартап, особенно во главе с талантливым инженером, и придерживаясь открытой архитектуры.

Локальные LLM становятся доступнее. Всё больше компаний инвестируют в генеративные нейросети [26], включая запуск корпоративных вычислительных кластеров и серверов LLM для локального инференса. Более того, подобные решения доступны и для отдельных пользователей, DIY-энтузиастов LLM, а также предпринимателей, которые имеют возможность поднять полноценный бэкенд для AI-приложений. Карта

Выход PCIe-карт Blackhole и Wormhole — долгожданное начало конкуренции на этом рынке. Например, Blackhole p150a стала первой в мире, которая преодолела барьер 24 ГБ VRAM по цене ниже $1500, что является значительным достижением. К сожалению, для типичных рабочих нагрузок LLM желательно ещё увеличить пропускную способность памяти. Но начало положено.

Tenstorrent уже анонсировала [27] модель Blackhole p300 с 64 ГБ VRAM и пропускной способностью 1 ТБ/с (на плате два чипа Blackhole по 512 ГБ/с с быстрым интерконнектом), это уже гораздо более сбалансированный вариант. Дальше — больше:

Карты Tenstorrent для DIY-сервера с локальной LLM - 11

Келлер верит [28], что в следующие 5−10 лет архитектура RISC-V станет повсеместно использоваться в дата-центрах, особенно для научных вычислений и суперкомпьютеров.

© 2025 ООО «МТ ФИНАНС»

Автор: ru_vds

Источник [29]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/16888

URLs in this post:

[1] Tenstorrent: https://tenstorrent.com/

[2] Blackhole: https://tenstorrent.com/hardware/blackhole

[3] Wormhole: https://tenstorrent.com/hardware/wormhole

[4] Джим Келлер: https://en.wikipedia.org/wiki/Jim_Keller_(engineer)

[5] AMD Zen: https://en.wikipedia.org/wiki/Zen_(microarchitecture)

[6] x86-64: https://en.wikipedia.org/wiki/X86-64

[7] внимание: http://www.braintools.ru/article/7595

[8] памяти: http://www.braintools.ru/article/4140

[9] «Быстрый и экономичный инференс в прикладных задачах»: https://www.youtube.com/watch?v=bPl8cu4PEH4

[10] vLLM: https://docs.vllm.ai/

[11] разделе для разработчиков: https://tenstorrent.com/developers

[12] источник: https://www.hardware-corner.net/tenstorrent-card-is-it-better-then-rtx/

[13] зрения: http://www.braintools.ru/article/6238

[14] серверных стоек Galaxy Wormhole Server: https://speakerdeck.com/tenstorrent_japan/sw-gai-yao-shuo-ming?slide=12

[15] обучения: http://www.braintools.ru/article/5125

[16] говорит: https://www.eetimes.com/jim-keller-whatever-nvidia-does-well-do-the-opposite/

[17] Rapidus: https://www.rapidus.inc/en/

[18] пилотная линия по производству ASIC по технологическому процессу 2 нм: https://www.rapidus.inc/en/interview/it0001/

[19] работает на открытом ПО: https://www.fortunebusinessinsights.com/server-operating-system-market-106601

[20] FFmpeg: https://ffmpeg.org/

[21] открыть весь стек ИИ: https://openfuture.tenstorrent.com/

[22] Репозиторий Tenstorrent: https://github.com/tenstorrent

[23] TT-LLK: https://github.com/tenstorrent/tt-llk

[24] TT-Metalium: https://github.com/tenstorrent/tt-metal

[25] TT-Forge: https://github.com/tenstorrent/tt-forge

[26] инвестируют в генеративные нейросети: https://www.vesti.ru/article/4546077

[27] анонсировала: https://speakerdeck.com/tenstorrent_japan/sw-gai-yao-shuo-ming

[28] верит: https://www.eetimes.com/jim-keller-on-ai-risc-v-tenstorrents-move-to-edge-ip/

[29] Источник: https://habr.com/ru/companies/ruvds/articles/923850/?utm_campaign=923850&utm_source=habrahabr&utm_medium=rss

www.BrainTools.ru

Rambler's Top100