Хроники Облачного княжества: как я приручал монолит‑дракона: Орден SLO и игла Кощея
Часть 3.Самая опасная магия в IT — это магия целей. Потому что цель легко обещает, а потом требует процентами отчёта.Есть особый вид страха, который появляется у инженера, когда два календаря совпадают.Первый календарь — релизный.Второй — организационный.И когда в один и тот же день на вас назначают «большую миграцию» и «большую презентацию результатов», реальность начинает пахнуть дымом ещё до того, как загорелся прод.Архимаг OKR стоял у проектора и рисовал стрелки.
LLM вместо «прочитаем потом»: анализ постмортемов и паттерны инцидентов
Ваши инциденты содержат основу для самых стратегических улучшений инфраструктуры — если вы умеете правильно их «слушать».TL;DR: Мы подключили LLM как ассистента для SRE и прогнали через него тысячи постмортемов, чтобы вытащить из архива повторяемые причины и сценарии отказов. Конвейер автоматически находит паттерны инцидентов — в нашем случае в основном вокруг хранилищ данных: Postgres, AWS DynamoDB, AWS ElastiCache, AWS S3 и Elasticsearch. Это заметно ускоряет разбор, подсвечивает скрытые точки напряжения и помогает формировать список приоритетных инвестиций в надёжность.

