grafana.

Дело о молчаливой JVM: мониторинг Spring Boot с Prometheus и Grafana. Production-нуар

Она умерла в воскресенье вечером, и никто не услышал ни звука. Детективная история о том, как поставить прослушку на собственное приложение: Prometheus, Grafana, Micrometer, алерты, SLO. Все улики в комплекте, демо-проект прилагается. Совпадения с вашим продакшеном не случайны.Пролог. ТелоГород спал. Я - нет.Воскресенье, восемь вечера. Дождь стучал в окно, как healthcheck по мёртвому эндпоинту: методично и без надежды на ответ. На столе остывал ужин. Зазвонил телефон. Лёша, тимлид. Лёша по воскресеньям не звонит. По воскресеньям он отец, муж и человек. Если звонит, значит, человеком сегодня побыть не выйдет ни ему, ни мне.

продолжить чтение

Оставлено в

От Prometheus к Victoria Metrics: как мы пересобрали мониторинг в Kubernetes

1. ВведениеВсем привет! Меня зовут Яблоков Олег, я — ведущий инженер ИТ-отдела Navio и отвечаю за систему мониторинга основной инфраструктуры компании. Это работа на стыке разработки и эксплуатации (development & operations, DevOps), наблюдаемости (Observability) и обеспечения надёжности сервисов (Site Reliability Engineering, SRE). Моя основная задача не просто собирать метрики, а сделать так, чтобы по ним можно было быстро понять статусы сервисов и не утонуть в шуме оповещений.

продолжить чтение

Оставлено в

Зачем нужны APM-платформы, если есть Prometheus и Grafana

Всем привет! Меня зовут Дмитрий, я архитектор продукта и занимаюсь развитием APM-платформы.

продолжить чтение

Оставлено в

DGX Spark: мониторинг unified memory, когда NVML и dcgm‑exporter молчат

Свежепоставленный мониторинг на DGX Spark. Открываю NVIDIA‑дашборд в Grafana — половина memory‑панелей пустые, прямые линии по нулю. Сначала кажется, что что‑то не настроил. Через полчаса доходит: это не у меня сломалось, это NVML на GB10 так работает.Это та область, где на GB10 половина стандартного observability‑стека просто не работает: NVML отдаёт на memory.used и memory.total, dcgm‑exporter не ставится, nvtop в memory‑колонке показывает пустоту. В Grafana NVIDIA‑дашборды по умолчанию выглядят так, будто GPU вообще нет — и это не очевидно, потому что Grafana при отсутствии данных не кричит, а молча рисует ровную линию по нулю.

продолжить чтение

Оставлено в

ML-пайплайны в Kubernetes: от первой строки кода до автоскейлинга и за его пределами

продолжить чтение

Оставлено в

Мониторинга много, управляемости нет: «зонтик» — не ещё один мониторинг, а слой управления ИТ-ландшафтом

продолжить чтение

Оставлено в

Как мы отслеживаем производительность веб-сервисов, или Дело «Скорости»

Салют, Хабр!Я Паша, вхожу в группу обеспечения производительности интерфейсов. Эту статью мы написали с Сергеем @TrueNort

продолжить чтение

Оставлено в

Утечка, которой не было: как Next.js раздувает RAM в Kubernetes

Привет, Хабр! Меня зовут Вадим Королёв. Я руководитель команды разработки в X5 Tech. Очень люблю Next.js и решать проблемы, которые он приносит. С ним всегда происходит что-то интересное. Расскажу о причине утечки памяти в Node.js, которая оказалась глубже, чем можно было подумать.

продолжить чтение

Оставлено в

Как мы учили ИИ тушить инциденты вместо нас (что из этого вышло)

Привет, меня зовут Артем, я тимлид DevOps в одной аутстафф-компании. Столкнулись с классической ситуацией: десятки микросервисов, Kubernetes, куча observability-стека (Prometheus, Loki, Tempo, Grafana) и... постоянные ночные инциденты. «High CPU», «Pod CrashLoopBackOff», «5xx errors rising». У нас есть runbooks, документация, скрипты для быстрого доступа к логам. Но в 3 ночи, когда срабатывает критический алерт, тратишь время на то, чтобы проснуться, сообразить, куда залогиниться и какую команду выполнить… Мы задались вопросом: а если первым на инцидент будет реагировать не человек, а ИИ-агент?⠀⠀Боль, которую мы хотели решить:1.

продолжить чтение

Оставлено в

От ощущений к цифрам: как мы внедрили метрики перформанса в андроид приложение

Всем привет, меня зовут Тимурandroid разработчик в платформенной команде с опытом около 5 лет, в основном в сфере ритейла и e-com.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

grafana.

Дело о молчаливой JVM: мониторинг Spring Boot с Prometheus и Grafana. Production-нуар

От Prometheus к Victoria Metrics: как мы пересобрали мониторинг в Kubernetes

Зачем нужны APM-платформы, если есть Prometheus и Grafana

DGX Spark: мониторинг unified memory, когда NVML и dcgm‑exporter молчат

ML-пайплайны в Kubernetes: от первой строки кода до автоскейлинга и за его пределами

Мониторинга много, управляемости нет: «зонтик» — не ещё один мониторинг, а слой управления ИТ-ландшафтом

Как мы отслеживаем производительность веб-сервисов, или Дело «Скорости»

Утечка, которой не было: как Next.js раздувает RAM в Kubernetes

Как мы учили ИИ тушить инциденты вместо нас (что из этого вышло)

От ощущений к цифрам: как мы внедрили метрики перформанса в андроид приложение

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

grafana.