observability.

Зачем GenAI-ассистенту platform logic: как управлять источниками, evidence и ответами

GenAI-ассистент может довольно быстро начать отвечать "по теме": находить релевантные фрагменты, собирать уверенный текст и создавать ощущение, что система уже работает.Если подключить LLM к корпоративным документам через RAG, подобрать параметры поиска, немного почистить контекст и добавить хороший prompt, первые результаты часто выглядят обнадеживающе. Пользователи начинают пробовать систему, появляются первые метрики использования, а сама идея быстро кажется готовой к расширению.Но для продуктового контура этого недостаточно.

продолжить чтение

Оставлено в

Как мы построили распределённый мониторинг аптайма

В прошлый раз я писал про рекурсивную задачу мониторинга: кто мониторит монитор? Если Prometheus упал — вы не видите ничего, и самое коварное тут в том, что отвалившийся мониторинг внешне неотличим от идеальной стабильности. Та статья заканчивалась честно и немного грустно: чистого решения нет, есть только слои подстраховки и остаточный риск, с которым приходится жить.

продолжить чтение

Оставлено в

От Prometheus к Victoria Metrics: как мы пересобрали мониторинг в Kubernetes

1. ВведениеВсем привет! Меня зовут Яблоков Олег, я — ведущий инженер ИТ-отдела Navio и отвечаю за систему мониторинга основной инфраструктуры компании. Это работа на стыке разработки и эксплуатации (development & operations, DevOps), наблюдаемости (Observability) и обеспечения надёжности сервисов (Site Reliability Engineering, SRE). Моя основная задача не просто собирать метрики, а сделать так, чтобы по ним можно было быстро понять статусы сервисов и не утонуть в шуме оповещений.

продолжить чтение

Оставлено в

Когда метрики сходят с ума: автоматическая детекция аномалий во временных рядах в Yandex Monium

продолжить чтение

Оставлено в

Зачем нужны APM-платформы, если есть Prometheus и Grafana

Всем привет! Меня зовут Дмитрий, я архитектор продукта и занимаюсь развитием APM-платформы.

продолжить чтение

Оставлено в

DGX Spark: мониторинг unified memory, когда NVML и dcgm‑exporter молчат

Свежепоставленный мониторинг на DGX Spark. Открываю NVIDIA‑дашборд в Grafana — половина memory‑панелей пустые, прямые линии по нулю. Сначала кажется, что что‑то не настроил. Через полчаса доходит: это не у меня сломалось, это NVML на GB10 так работает.Это та область, где на GB10 половина стандартного observability‑стека просто не работает: NVML отдаёт на memory.used и memory.total, dcgm‑exporter не ставится, nvtop в memory‑колонке показывает пустоту. В Grafana NVIDIA‑дашборды по умолчанию выглядят так, будто GPU вообще нет — и это не очевидно, потому что Grafana при отсутствии данных не кричит, а молча рисует ровную линию по нулю.

продолжить чтение

Оставлено в

kubectl describe pod: как читать вывод, в котором Kubernetes уже написал причину

kubectl describe pod часто вспоминают слишком поздно. Уже сходили в логи, пролистали Helm values, спросили в чате «кто деплоил?», на всякий случай дропнули Pod — и только потом внизу describe нашли ту самую строку: образ не скачался, памяти не хватило, Secret не примонтировался или readiness-проба честно возвращала 500. Эта команда не заменяет логи, метрики и трейсинг. Она про другое: показать, что Kubernetes пытался сделать с Pod’ом и на каком шаге всё развалилось. Если читать describe не как длинную простыню полей, а как историю жизни Pod’а, он экономит не минуты, а часы.

продолжить чтение

Оставлено в

От Kubernetes до AI Engineering: 5 главных трендов Технологического радара DevOpsConf 2026

Каждый год индустрия генерирует десятки новых инструментов и практик. Для руководителей команд разработки (Team Leads, CTO) это означает постоянную головную боль при выборе технологического стека. Для практикующих инженеров — необходимость непрерывно обновлять свои навыки, чтобы оставаться востребованными на рынке.На DevOpsConf мы представили свежий техрадар, который позволяет не просто увидеть список популярных утилит, но и разглядеть тектонические сдвиги в индустрии.

продолжить чтение