Серверная оптимизация.

Дело о молчаливой JVM: мониторинг Spring Boot с Prometheus и Grafana. Production-нуар

Она умерла в воскресенье вечером, и никто не услышал ни звука. Детективная история о том, как поставить прослушку на собственное приложение: Prometheus, Grafana, Micrometer, алерты, SLO. Все улики в комплекте, демо-проект прилагается. Совпадения с вашим продакшеном не случайны.Пролог. ТелоГород спал. Я - нет.Воскресенье, восемь вечера. Дождь стучал в окно, как healthcheck по мёртвому эндпоинту: методично и без надежды на ответ. На столе остывал ужин. Зазвонил телефон. Лёша, тимлид. Лёша по воскресеньям не звонит. По воскресеньям он отец, муж и человек. Если звонит, значит, человеком сегодня побыть не выйдет ни ему, ни мне.

продолжить чтение

Оставлено в

Dell и Kioxia разработали первый сервер на 9,8 ПБ

Недавно мы рассказывали о новых дисках от Micron на 245TB, где упоминали о более раннем анонсе дисков от Kioxia. С последними была объявлена крутая коллаборация с Dell.В Токио 15 мая 2026 года корпорация Kioxia совместно с Dell объявила о первом сервере высокой плотности с флеш-памятью объемом 9,8 ПБ. Разработка носит название Dell PowerEdge R7725xd и представлена в 2U форм-факторе, что умещает огромный объем дискового пространства с высокой плотностью.Подробнее о сервере

продолжить чтение

Оставлено в

Kioxia и Dell уместили почти 10 ПБ в один 2U-сервер

Kioxia и Dell создали серверную конфигурацию форм-фактора 2U, способную вместить до 9,8 ПБ флеш-памяти. Комплекс включает сервер Dell PowerEdge R7725xd, 40 твердотельных накопителей Kioxia LC9 NVMe ёмкостью 245,76 ТБ и процессоры AMD EPYC.Dell PowerEdge R7725xd

продолжить чтение

Оставлено в

Каталог преднастроенных моделей, VDS и другие обновления: дайджест Selectel за апрель

Этот дайджест получился объемным! В апреле команда Selectel презентовала Foundation Models Catalog, запустила VDS и Enterprise-grade ЦОД. И это лишь малая часть обновлений. Все подробности — ниже.

продолжить чтение

Оставлено в

Центры обработки данных в космосе — это ужасная, кошмарная и совершенно бесполезная идея

Компании, занимающиеся искусственным интеллектом, в спешном порядке объединяются с компаниями, занимающимися космическими запусками и спутниками, чтобы строить центры обработки данных в космосе. Скажу кратко: это не сработает

продолжить чтение

Оставлено в

Как мы заставили vLLM «лениться» под нагрузкой и спасли Time-to-First-Token

Введение: Почему обычный Rate Limiting не работает для LLM?Деплой больших языковых моделей (LLM) — это всегда боль, когда дело доходит до пиковых нагрузок. В классических web-сервисах при высоких RPS мы просто включаем балансировщик, а если всё горит — жестко режем запросы HTTP 429 Too Many Requests.Но в мире генеративного AI отбрасывать запросы клиентов очень дорого: пользователь уже подождал, пока загрузится чат, написал длинный промпт, нажал Enter и… получил ошибку. А масштабирование GPU-кластера занимает минуты, которых у нас нет.В этой статье мы покажем, как подход “Динамической лени”

продолжить чтение

Оставлено в

Сборка дешевого домашнего вычислительного кластера на двух процессорах и 6 «почти» RTX3080

Я инженер, и у меня есть эдакий фетиш - все, что важно, должно находиться под моим контролем. Локально, в железе, которое можно измерить осциллографом, нагрузить до упора и при необходимости перепаять. Когда ты привык работать со схемами, сигналами и источниками питания, становится странно отдавать вычисления куда-то наружу и надеяться, что там “все нормально работает”.

продолжить чтение