инференс.

Локальный инференс на бюджетных ноутбуках

В середине 2025 года приобрел себе для работы ноутбук Lenovo Thinkbook 14+. После выхода моделей gpt-oss протестировал локальный инференс младшей модели и результаты для меня были весьма удивительными. Затем я провел тесты еще на двух своих ноутбуках, а совсем недавно на работе собрал заинтересованных ребят и появились результаты еще 5 ноутбуков.

продолжить чтение

«Золотая рыбка, хочу LLM без GPU»: как собрать Inference-сервер на CPU

продолжить чтение

Как мы запустили GPU NVIDIA H200 в Selectel, или почему в золотую лихорадку непросто продавать лопаты

продолжить чтение

Что нового в NVIDIA Rubin CPX — платформе для AI, представленной на AI Infra Summit

9 сентября NVIDIA представила новый графический процессор Rubin CPX, разработанный специально для задач искусственного интеллекта с длинным контекстом. Этот монолитный чип оснащен 128 ГБ памяти GDDR7, способен обрабатывать миллионы токенов информации и оптимизирован для фазы предварительной обработки данных в задачах инференса. В деталях рассказываем, какую мощность выдает новинка и для какой работы подходит. На что способен NVIDIA Rubin CPX

продолжить чтение

Архитектура LPU и будущее AI без задержек

Команда AI for Devs подготовила перевод статьи о том, как Groq пытается устранить главное «бутылочное горлышко» современного ИИ — задержку. Их специализированный процессор LPU обещает скорость в реальном времени и открывает путь к новым приложениям: от финансовых систем до Coding AI-ботов. Но за пределами маркетинга остаются вопросы: что с большими контекстами, какова конкуренция с Cerebras и GPU, и выдержит ли бизнес-модель такие вызовы?Погоня за скоростью: почему задержка в ИИ становится новым "бутылочным горлышком"?

продолжить чтение

ПАК-AI 2.0 от К2 НейроТех: прирост производительности на 30%

К2 НейроТех представил на конференции Tech2b Conf новую версию ПАК-AI – решения для быстрого и безопасного развертывания on-premise ИИ-инфраструктуры. Оно сочетает удобство облачной платформы с соответствием требованиям безопасности и импортозависимости. Обновленная аппаратная платформа включает шесть серверов от YADRO, в том числе серверы для глубокого обучения, инференса и работы с большими данными, а также новый GPU-сервер G4208P G3. Доработанная сборка Kubernetes повышает эффективность использования GPU-ресурсов до 30%.  

продолжить чтение

Как приручить LLM: подбор инфраструктуры для инференса. Часть 1

Привет, Хабр! Меня зовут Антон, и сейчас я активно занимаюсь вопросами инфраструктуры для ML и AI

продолжить чтение

LLM-инференс в 20 раз быстрее, чем на GPU! Как подключить агента-кодера с CLINE и Cerebras

Хочешь, чтобы твой AI-ассистент для кодинга работал в 20 раз быстрее, чем на современных GPU? В этой статье покажу, как подключить Cerebras к CLINE — и получить мгновенные ответы от LLM. Почему Cerebras в 20 раз быстрее, чем GPUКомпания Cerebras использует Wafer-Scale Engine 3 (WSE-3) — самый большой и быстрый ИИ-чип в мире. Основные фишки:WSE-3: гигантский кремниевый чип, размером с CD-диск, 4 триллиона транзисторов и 900 000 ядер.44 ГБ встроенной SRAM на самом кристалле → почти нет обмена с внешней памятью.20 Пбайт/с

продолжить чтение

Сравнение двух СнК одного тех. процесса с точки зрения инференса нейронных сетей

продолжить чтение

Исследователи DeepSeek выпустили nano-vLLM — компактный движок для запуска языковых моделей

Команда исследователей DeepSeek выпустила nano-vLLM — легковесный движок для запуска языковых моделей. Проект написан с нуля на Python и занимает около 1200 строк, что меньше существующих решений. Код nano-vLLM опубликован на GitHub.

продолжить чтение

12
Rambler's Top100