инциденты.

Хроники Облачного княжества: как я приручал монолит‑дракона: Орден SLO и игла Кощея

Часть 3.Самая опасная магия в IT — это магия целей. Потому что цель легко обещает, а потом требует процентами отчёта.Есть особый вид страха, который появляется у инженера, когда два календаря совпадают.Первый календарь — релизный.Второй — организационный.И когда в один и тот же день на вас назначают «большую миграцию» и «большую презентацию результатов», реальность начинает пахнуть дымом ещё до того, как загорелся прод.Архимаг OKR стоял у проектора и рисовал стрелки.

продолжить чтение

LLM вместо «прочитаем потом»: анализ постмортемов и паттерны инцидентов

Ваши инциденты содержат основу для самых стратегических улучшений инфраструктуры — если вы умеете правильно их «слушать».TL;DR: Мы подключили LLM как ассистента для SRE и прогнали через него тысячи постмортемов, чтобы вытащить из архива повторяемые причины и сценарии отказов. Конвейер автоматически находит паттерны инцидентов — в нашем случае в основном вокруг хранилищ данных: Postgres, AWS DynamoDB, AWS ElastiCache, AWS S3 и Elasticsearch. Это заметно ускоряет разбор, подсвечивает скрытые точки напряжения и помогает формировать список приоритетных инвестиций в надёжность.

продолжить чтение

Утечка, которой не было: как Next.js раздувает RAM в Kubernetes

Привет, Хабр! Меня зовут Вадим Королёв. Я руководитель команды разработки в X5 Tech. Очень люблю Next.js и решать проблемы, которые он приносит. С ним всегда происходит что-то интересное. Расскажу о причине утечки памяти в Node.js, которая оказалась глубже, чем можно было подумать.

продолжить чтение