Дело о молчаливой JVM: мониторинг Spring Boot с Prometheus и Grafana. Production-нуар
Она умерла в воскресенье вечером, и никто не услышал ни звука. Детективная история о том, как поставить прослушку на собственное приложение: Prometheus, Grafana, Micrometer, алерты, SLO. Все улики в комплекте, демо-проект прилагается. Совпадения с вашим продакшеном не случайны.Пролог. ТелоГород спал. Я - нет.Воскресенье, восемь вечера. Дождь стучал в окно, как healthcheck по мёртвому эндпоинту: методично и без надежды на ответ. На столе остывал ужин. Зазвонил телефон. Лёша, тимлид. Лёша по воскресеньям не звонит. По воскресеньям он отец, муж и человек. Если звонит, значит, человеком сегодня побыть не выйдет ни ему, ни мне.
Dell и Kioxia разработали первый сервер на 9,8 ПБ
Недавно мы рассказывали о новых дисках от Micron на 245TB, где упоминали о более раннем анонсе дисков от Kioxia. С последними была объявлена крутая коллаборация с Dell.В Токио 15 мая 2026 года корпорация Kioxia совместно с Dell объявила о первом сервере высокой плотности с флеш-памятью объемом 9,8 ПБ. Разработка носит название Dell PowerEdge R7725xd и представлена в 2U форм-факторе, что умещает огромный объем дискового пространства с высокой плотностью.Подробнее о сервере
Kioxia и Dell уместили почти 10 ПБ в один 2U-сервер
Kioxia и Dell создали серверную конфигурацию форм-фактора 2U, способную вместить до 9,8 ПБ флеш-памяти. Комплекс включает сервер Dell PowerEdge R7725xd, 40 твердотельных накопителей Kioxia LC9 NVMe ёмкостью 245,76 ТБ и процессоры AMD EPYC.Dell PowerEdge R7725xd
Каталог преднастроенных моделей, VDS и другие обновления: дайджест Selectel за апрель
Этот дайджест получился объемным! В апреле команда Selectel презентовала Foundation Models Catalog, запустила VDS и Enterprise-grade ЦОД. И это лишь малая часть обновлений. Все подробности — ниже.
Центры обработки данных в космосе — это ужасная, кошмарная и совершенно бесполезная идея
Компании, занимающиеся искусственным интеллектом, в спешном порядке объединяются с компаниями, занимающимися космическими запусками и спутниками, чтобы строить центры обработки данных в космосе. Скажу кратко: это не сработает
Как мы заставили vLLM «лениться» под нагрузкой и спасли Time-to-First-Token
Введение: Почему обычный Rate Limiting не работает для LLM?Деплой больших языковых моделей (LLM) — это всегда боль, когда дело доходит до пиковых нагрузок. В классических web-сервисах при высоких RPS мы просто включаем балансировщик, а если всё горит — жестко режем запросы HTTP 429 Too Many Requests.Но в мире генеративного AI отбрасывать запросы клиентов очень дорого: пользователь уже подождал, пока загрузится чат, написал длинный промпт, нажал Enter и… получил ошибку. А масштабирование GPU-кластера занимает минуты, которых у нас нет.В этой статье мы покажем, как подход “Динамической лени”
Сборка дешевого домашнего вычислительного кластера на двух процессорах и 6 «почти» RTX3080
Я инженер, и у меня есть эдакий фетиш - все, что важно, должно находиться под моим контролем. Локально, в железе, которое можно измерить осциллографом, нагрузить до упора и при необходимости перепаять. Когда ты привык работать со схемами, сигналами и источниками питания, становится странно отдавать вычисления куда-то наружу и надеяться, что там “все нормально работает”.

