железо.

Nvidia представила RTX Spark 0 ARM-чип, который метит туда, где Apple M-серия доминирует

По памяти: RTX Spark поддерживает до 128 ГБ LPDDR5X (минимум 16 ГБ) с пропускной способностью 300 ГБ/с через NVLink C2C. Для локального запуска LLM и диффузионных моделей это принципиально важная цифра - большой объём единой памяти без разделения между CPU и GPU.Полный стек NVIDIA включает поддержку CUDA, TensorRT, NVFP4, DLSS, Ray Tracing, Reflex и G-SYNC. Всё, что нужно разработчику под CUDA, будет работать нативно без каких-либо дополнительных прослоек.

продолжить чтение

Как я собрал LLM-печку на 4 GPU, и на что она способна

продолжить чтение

Google представила Coralboard — одноплатник для разработки Edge AI и встраиваемых приложений на базе нейросетей

Google в партнёрстве с Synaptics представила Coralboard — одноплатник для разработки приложений, которые работают локально на устройствах (Edge AI). Устройство ориентировано на быстрое прототипирование AI-сценариев машинного зрения, обработки звука, мультимодальных интерфейсов и запуска компактных генеративных моделей.

продолжить чтение

CPU не умер, он просто ждал. Китай строит двухэксафлопсный суперкомпьютер без единого GPU — прорыв, необходимость, фейк?

продолжить чтение

Китайцы ответили на H200 — обзор Zhenwu M890 от Alibaba

20 мая на ежегодном Alibaba Cloud Summit T-Head полупроводниковое подразделение Alibaba представила новое поколение GPU — Zhenwu M890. Это ускоритель с 144 ГБ памяти HBM на борту и возможностью интерконнекта между устройствами до 800 ГБ/с. На основе этого устройства также была представлен суперсервер Panjiu AL128 — стойка из 128 ускорителей M890, объединенных собственным коммутатором ICN Switch 1.0.Предложение уже доступно китайским корпоративным клиентам и поддерживает Qwen, DeepSeek и Kimi. Но что там с характеристиками? Разбираемся под катом.Технические характеристики Zhenwu M890

продолжить чтение

LLM-инференс на фотонах? Препарируем передовые технологии, представленные в апреле

Majestic Labs Prometheus, Kingston DC3000ME на 30,72 ТБ, TPU восьмого поколения от Google и не только... Как всегда, вендоры не дремлют и участвует в AI-гонке. И должен признать, иногда это приводит к появлению крайне неординарных решений на рынке.Привет, Хабр! Меня зовут Сергей Ковалёв, я менеджер выделенных серверов в Selectel. В новом дайджесте собрал самые актуальные и передовые новинки в мире железа. Читайте, делитесь своим мнением — в общем, добро пожаловать под кат!Серверные платформыMajestic Labs Prometheus: 128 ТБ в одном сервере

продолжить чтение

NPU в ноутбуках: что меняется для тех, кто закупает корпоративную технику

продолжить чтение

Процессоры становятся дороже: как ИИ влияет на доступность железа

продолжить чтение

Экономика LLM-инференса: почему ваш финдир должен знать разницу между Prefill и Decode

В 2025 году рынок корпоративного ИИ-инференса составил  ~100 миллиардов долларов. Но парадокс в том, что успех автоматизации бизнес-процессов с помощью LLM зависит не только от выбора модели, а от глубокого понимания двух принципиально разных этапов работы нейросети: Prefill и Decode. Игнорирование их различий — самая дорогая ошибка в AI-инфраструктуре, которая может исказить реальную стоимость запроса в 10-50 раз.Два подхода для обработки одного запроса

продолжить чтение

Трансформер на машине 1979 года: как ИИ запустили на 64 КБ памяти

Источник

продолжить чтение