Серверная оптимизация.

Центры обработки данных в космосе — это ужасная, кошмарная и совершенно бесполезная идея

Компании, занимающиеся искусственным интеллектом, в спешном порядке объединяются с компаниями, занимающимися космическими запусками и спутниками, чтобы строить центры обработки данных в космосе. Скажу кратко: это не сработает

продолжить чтение

Как мы заставили vLLM «лениться» под нагрузкой и спасли Time-to-First-Token

Введение: Почему обычный Rate Limiting не работает для LLM?Деплой больших языковых моделей (LLM) — это всегда боль, когда дело доходит до пиковых нагрузок. В классических web-сервисах при высоких RPS мы просто включаем балансировщик, а если всё горит — жестко режем запросы HTTP 429 Too Many Requests.Но в мире генеративного AI отбрасывать запросы клиентов очень дорого: пользователь уже подождал, пока загрузится чат, написал длинный промпт, нажал Enter и… получил ошибку. А масштабирование GPU-кластера занимает минуты, которых у нас нет.В этой статье мы покажем, как подход “Динамической лени”

продолжить чтение

Сборка дешевого домашнего вычислительного кластера на двух процессорах и 6 «почти» RTX3080

Я инженер, и у меня есть эдакий фетиш - все, что важно, должно находиться под моим контролем. Локально, в железе, которое можно измерить осциллографом, нагрузить до упора и при необходимости перепаять. Когда ты привык работать со схемами, сигналами и источниками питания, становится странно отдавать вычисления куда-то наружу и надеяться, что там “все нормально работает”.

продолжить чтение

Искусственный интеллект и «стены памяти»: начало Software-Defined Memory?

продолжить чтение

Arm представила свой процессор AGI CPU для дата-центров и расширила партнёрство с Altera

продолжить чтение

Добавили флагманские серверы для AI-тренинга и новые образы в AI-маркетплейс: дайджест февральских новостей Selectel

продолжить чтение

LLM Inside: выжимаем максимум из Decoder Attention на GPU

продолжить чтение

Утечка, которой не было: как Next.js раздувает RAM в Kubernetes

Привет, Хабр! Меня зовут Вадим Королёв. Я руководитель команды разработки в X5 Tech. Очень люблю Next.js и решать проблемы, которые он приносит. С ним всегда происходит что-то интересное. Расскажу о причине утечки памяти в Node.js, которая оказалась глубже, чем можно было подумать.

продолжить чтение

Назад к on-premise. Почему это снова тренд и чем будет полезен Selectel Server

Разбираемся, как контроль над инфраструктурой превращается в бизнес-преимущество в новой экономической и регуляторной реальности, а также делимся, как в этом поможет

продолжить чтение

Как правильно выбрать процессоры под разные облачные сегменты

Облачная инфраструктура должна одинаково эффективно работать с корпоративными ERP-системами, современными контейнеризованными приложениями и базами данных. Выбор процессоров для такой универсальной платформы превращается в комплексную задачу, где необходимо учитывать производительность, экономическую целесообразность, гибкость архитектуры и возможности масштабирования.

продолжить чтение

123