slo.

slo.

Как я перестал бояться алертов и полюбил дежурства

Привет! Меня зовут Егор, я DevOps/SRE-инженер с небольшим (2+ года) стажем. Ещё пару лет назад мои ночи были полны ужаса: телефон разрывался от PagerDuty, любое уведомление в чате заставляло подскакивать среди ночи, а кофе на 3 часа утра стал обычным делом. В прошлой статье – «Как я перестал тушить пожары и начал говорить с бизнесом на языке SLO» – я рассказывал, как мы внедрили SRE-подход: ввели SLO/SLI, настроили мониторинг по «золотым сигналам» и умные алерты

продолжить чтение

Автоматическая суммаризация 10K встреч в день: от требований к продакшн-решению

Привет, Хабр! Меня зовут Азик, я старший ML-инженер в NLP-лаборатории Центра ИИ Контура. В прошлом году я занимался запуском автоматической суммаризации встреч в Толке – нашем сервисе для видеозвонков.В этой статье расскажу, как мы построили продакшен-систему, которая превращает часы разговоров в сжатую выжимку: какие инженерные решения обеспечивают стабильную работу, как мы выбирали модели, и почему наша архитектура оказалась масштабируемой и переиспользуемой для других задач.А если вам удобнее смотреть, а не читать, то вот ссылка на мой доклад на Saint HighLoad++ 2025.

продолжить чтение

Как не потерять миллионы на SLA: архитектурный подход к управлению ожиданиями

Нарушение SLA — это условность, которую придумали поверх технических проблем. В IT-инфраструктуре любая техническая проблема быстро превращается в убытки, особенно если не умеешь правильно управлять доступностью. В этой статье расскажу, как на практике связаны инциденты и деньги, почему формальное соблюдение SLA — это ещё не успех, и как выстроить процессы так, чтобы бизнес не терял миллионы из-за минут простоя.Под капотом этой статьи — связь техники, архитектуры и менеджмента

продолжить чтение

Rambler's Top100