Prometheus.

Джефф Безос: ИИ создаст дефицит рабочей силы. Тем временем Amazon сократил 30 тыс сотрудников

продолжить чтение

ИИ-стартап Джеффа Безоса стремится создать «искусственного инженера-универсала»

Основатель Amazon Джефф Безос заявил, что его новый стартап в области ИИ Prometheus будет работать над созданием «искусственного инженера-универсала». Он стремится разработать инженерные инструменты на основе ИИ для помощи в проектировании физических продуктов.

продолжить чтение

Дело о молчаливой JVM: мониторинг Spring Boot с Prometheus и Grafana. Production-нуар

Она умерла в воскресенье вечером, и никто не услышал ни звука. Детективная история о том, как поставить прослушку на собственное приложение: Prometheus, Grafana, Micrometer, алерты, SLO. Все улики в комплекте, демо-проект прилагается. Совпадения с вашим продакшеном не случайны.Пролог. ТелоГород спал. Я - нет.Воскресенье, восемь вечера. Дождь стучал в окно, как healthcheck по мёртвому эндпоинту: методично и без надежды на ответ. На столе остывал ужин. Зазвонил телефон. Лёша, тимлид. Лёша по воскресеньям не звонит. По воскресеньям он отец, муж и человек. Если звонит, значит, человеком сегодня побыть не выйдет ни ему, ни мне.

продолжить чтение

От Prometheus к Victoria Metrics: как мы пересобрали мониторинг в Kubernetes

1.   ВведениеВсем привет! Меня зовут Яблоков Олег, я — ведущий инженер ИТ-отдела Navio и отвечаю за систему мониторинга основной инфраструктуры компании. Это работа на стыке разработки и эксплуатации (development & operations, DevOps), наблюдаемости (Observability) и обеспечения надёжности сервисов (Site Reliability Engineering, SRE). Моя основная задача не просто собирать метрики, а сделать так, чтобы по ним можно было быстро понять статусы сервисов и не утонуть в шуме оповещений.

продолжить чтение

Model Predictive Control для Kubernetes autoscaling: что получилось, где HPA оказался сильнее

Горизонтальное автоскалирование в Kubernetes обычно начинается с HPA. Это понятный и практичный механизм: контроллер смотрит на метрику, например CPU, и меняет число реплик Deployment. Для многих сервисов этого достаточно.Проблема начинается там, где нагрузка меняется быстрее, чем контур успевает на неё отреагировать. Метрика должна быть собрана, решение должно быть принято, новые Pod’ы должны запуститься и пройти readiness. Пока всё это происходит, старые Pod’ы уже могут работать на пределе, а хвостовые задержки p95/p99 — расти.

продолжить чтение

Зачем нужны APM-платформы, если есть Prometheus и Grafana

Всем привет! Меня зовут Дмитрий, я архитектор продукта и занимаюсь развитием APM-платформы.

продолжить чтение

DGX Spark: мониторинг unified memory, когда NVML и dcgm‑exporter молчат

Свежепоставленный мониторинг на DGX Spark. Открываю NVIDIA‑дашборд в Grafana — половина memory‑панелей пустые, прямые линии по нулю. Сначала кажется, что что‑то не настроил. Через полчаса доходит: это не у меня сломалось, это NVML на GB10 так работает.Это та область, где на GB10 половина стандартного observability‑стека просто не работает: NVML отдаёт на memory.used и memory.total, dcgm‑exporter не ставится, nvtop в memory‑колонке показывает пустоту. В Grafana NVIDIA‑дашборды по умолчанию выглядят так, будто GPU вообще нет — и это не очевидно, потому что Grafana при отсутствии данных не кричит, а молча рисует ровную линию по нулю.

продолжить чтение

ML-пайплайны в Kubernetes: от первой строки кода до автоскейлинга и за его пределами

продолжить чтение

Утечка, которой не было: как Next.js раздувает RAM в Kubernetes

Привет, Хабр! Меня зовут Вадим Королёв. Я руководитель команды разработки в X5 Tech. Очень люблю Next.js и решать проблемы, которые он приносит. С ним всегда происходит что-то интересное. Расскажу о причине утечки памяти в Node.js, которая оказалась глубже, чем можно было подумать.

продолжить чтение

10 лучших open source инструментов Observability 2025

В этом году инструменты observability с открытым исходным кодом вышли за рамки простого мониторинга. Теперь они конкурируют, а зачастую и превосходят коммерческие SaaS‑платформы по масштабируемости, гибкости и совместимости. Команды из разных отраслей внедряют стеки решений наблюдения с открытым исходным кодом, чтобы избежать привязки к одному поставщику, обеспечения сквозной прозрачности (логи, метрики, трассировки), экономии на лицензиях и много другого.

продолжить чтение

12