Основатель Amazon Джефф Безос заявил, что его новый стартап в области ИИ Prometheus будет работать над созданием «искусственного инженера-универсала». Он стремится разработать инженерные инструменты на основе ИИ для помощи в проектировании физических продуктов.

Оставлено в

Дело о молчаливой JVM: мониторинг Spring Boot с Prometheus и Grafana. Production-нуар

Она умерла в воскресенье вечером, и никто не услышал ни звука. Детективная история о том, как поставить прослушку на собственное приложение: Prometheus, Grafana, Micrometer, алерты, SLO. Все улики в комплекте, демо-проект прилагается. Совпадения с вашим продакшеном не случайны.Пролог. ТелоГород спал. Я - нет.Воскресенье, восемь вечера. Дождь стучал в окно, как healthcheck по мёртвому эндпоинту: методично и без надежды на ответ. На столе остывал ужин. Зазвонил телефон. Лёша, тимлид. Лёша по воскресеньям не звонит. По воскресеньям он отец, муж и человек. Если звонит, значит, человеком сегодня побыть не выйдет ни ему, ни мне.

продолжить чтение

Оставлено в

От Prometheus к Victoria Metrics: как мы пересобрали мониторинг в Kubernetes

1. ВведениеВсем привет! Меня зовут Яблоков Олег, я — ведущий инженер ИТ-отдела Navio и отвечаю за систему мониторинга основной инфраструктуры компании. Это работа на стыке разработки и эксплуатации (development & operations, DevOps), наблюдаемости (Observability) и обеспечения надёжности сервисов (Site Reliability Engineering, SRE). Моя основная задача не просто собирать метрики, а сделать так, чтобы по ним можно было быстро понять статусы сервисов и не утонуть в шуме оповещений.

продолжить чтение

Оставлено в

Model Predictive Control для Kubernetes autoscaling: что получилось, где HPA оказался сильнее

Горизонтальное автоскалирование в Kubernetes обычно начинается с HPA. Это понятный и практичный механизм: контроллер смотрит на метрику, например CPU, и меняет число реплик Deployment. Для многих сервисов этого достаточно.Проблема начинается там, где нагрузка меняется быстрее, чем контур успевает на неё отреагировать. Метрика должна быть собрана, решение должно быть принято, новые Pod’ы должны запуститься и пройти readiness. Пока всё это происходит, старые Pod’ы уже могут работать на пределе, а хвостовые задержки p95/p99 — расти.

продолжить чтение

Оставлено в

Зачем нужны APM-платформы, если есть Prometheus и Grafana

Всем привет! Меня зовут Дмитрий, я архитектор продукта и занимаюсь развитием APM-платформы.

продолжить чтение

Оставлено в

DGX Spark: мониторинг unified memory, когда NVML и dcgm‑exporter молчат

Свежепоставленный мониторинг на DGX Spark. Открываю NVIDIA‑дашборд в Grafana — половина memory‑панелей пустые, прямые линии по нулю. Сначала кажется, что что‑то не настроил. Через полчаса доходит: это не у меня сломалось, это NVML на GB10 так работает.Это та область, где на GB10 половина стандартного observability‑стека просто не работает: NVML отдаёт на memory.used и memory.total, dcgm‑exporter не ставится, nvtop в memory‑колонке показывает пустоту. В Grafana NVIDIA‑дашборды по умолчанию выглядят так, будто GPU вообще нет — и это не очевидно, потому что Grafana при отсутствии данных не кричит, а молча рисует ровную линию по нулю.

продолжить чтение

Оставлено в

ML-пайплайны в Kubernetes: от первой строки кода до автоскейлинга и за его пределами

продолжить чтение

Оставлено в

Утечка, которой не было: как Next.js раздувает RAM в Kubernetes

Привет, Хабр! Меня зовут Вадим Королёв. Я руководитель команды разработки в X5 Tech. Очень люблю Next.js и решать проблемы, которые он приносит. С ним всегда происходит что-то интересное. Расскажу о причине утечки памяти в Node.js, которая оказалась глубже, чем можно было подумать.

продолжить чтение

Оставлено в

10 лучших open source инструментов Observability 2025

В этом году инструменты observability с открытым исходным кодом вышли за рамки простого мониторинга. Теперь они конкурируют, а зачастую и превосходят коммерческие SaaS‑платформы по масштабируемости, гибкости и совместимости. Команды из разных отраслей внедряют стеки решений наблюдения с открытым исходным кодом, чтобы избежать привязки к одному поставщику, обеспечения сквозной прозрачности (логи, метрики, трассировки), экономии на лицензиях и много другого.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

Prometheus.

Джефф Безос: ИИ создаст дефицит рабочей силы. Тем временем Amazon сократил 30 тыс сотрудников

ИИ-стартап Джеффа Безоса стремится создать «искусственного инженера-универсала»

Дело о молчаливой JVM: мониторинг Spring Boot с Prometheus и Grafana. Production-нуар

От Prometheus к Victoria Metrics: как мы пересобрали мониторинг в Kubernetes

Model Predictive Control для Kubernetes autoscaling: что получилось, где HPA оказался сильнее

Зачем нужны APM-платформы, если есть Prometheus и Grafana

DGX Spark: мониторинг unified memory, когда NVML и dcgm‑exporter молчат

ML-пайплайны в Kubernetes: от первой строки кода до автоскейлинга и за его пределами

Утечка, которой не было: как Next.js раздувает RAM в Kubernetes

10 лучших open source инструментов Observability 2025

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

Prometheus.