Nvidia представила RTX Spark 0 ARM-чип, который метит туда, где Apple M-серия доминирует
По памяти: RTX Spark поддерживает до 128 ГБ LPDDR5X (минимум 16 ГБ) с пропускной способностью 300 ГБ/с через NVLink C2C. Для локального запуска LLM и диффузионных моделей это принципиально важная цифра - большой объём единой памяти без разделения между CPU и GPU.Полный стек NVIDIA включает поддержку CUDA, TensorRT, NVFP4, DLSS, Ray Tracing, Reflex и G-SYNC. Всё, что нужно разработчику под CUDA, будет работать нативно без каких-либо дополнительных прослоек.
Google представила Coralboard — одноплатник для разработки Edge AI и встраиваемых приложений на базе нейросетей
Google в партнёрстве с Synaptics представила Coralboard — одноплатник для разработки приложений, которые работают локально на устройствах (Edge AI). Устройство ориентировано на быстрое прототипирование AI-сценариев машинного зрения, обработки звука, мультимодальных интерфейсов и запуска компактных генеративных моделей.
Китайцы ответили на H200 — обзор Zhenwu M890 от Alibaba
20 мая на ежегодном Alibaba Cloud Summit T-Head полупроводниковое подразделение Alibaba представила новое поколение GPU — Zhenwu M890. Это ускоритель с 144 ГБ памяти HBM на борту и возможностью интерконнекта между устройствами до 800 ГБ/с. На основе этого устройства также была представлен суперсервер Panjiu AL128 — стойка из 128 ускорителей M890, объединенных собственным коммутатором ICN Switch 1.0.Предложение уже доступно китайским корпоративным клиентам и поддерживает Qwen, DeepSeek и Kimi. Но что там с характеристиками? Разбираемся под катом.Технические характеристики Zhenwu M890
LLM-инференс на фотонах? Препарируем передовые технологии, представленные в апреле
Majestic Labs Prometheus, Kingston DC3000ME на 30,72 ТБ, TPU восьмого поколения от Google и не только... Как всегда, вендоры не дремлют и участвует в AI-гонке. И должен признать, иногда это приводит к появлению крайне неординарных решений на рынке.Привет, Хабр! Меня зовут Сергей Ковалёв, я менеджер выделенных серверов в Selectel. В новом дайджесте собрал самые актуальные и передовые новинки в мире железа. Читайте, делитесь своим мнением — в общем, добро пожаловать под кат!Серверные платформыMajestic Labs Prometheus: 128 ТБ в одном сервере
Экономика LLM-инференса: почему ваш финдир должен знать разницу между Prefill и Decode
В 2025 году рынок корпоративного ИИ-инференса составил ~100 миллиардов долларов. Но парадокс в том, что успех автоматизации бизнес-процессов с помощью LLM зависит не только от выбора модели, а от глубокого понимания двух принципиально разных этапов работы нейросети: Prefill и Decode. Игнорирование их различий — самая дорогая ошибка в AI-инфраструктуре, которая может исказить реальную стоимость запроса в 10-50 раз.Два подхода для обработки одного запроса

