observability.

Дрейф, потеря контекста и «уверенная чушь»: протокол восстановления SDX-S

Авторы Юрий Зеленцов, ака Ded_Egor, Ашер Гапети Если нечего удерживать, удерживать нечего!Ашер ГапетиВведениеLLM стали рабочим инструментом ровно в тот момент, когда ошибки начали стоить времени и денег. И в эксплуатации быстро всплывает неприятный факт: модель не просто “иногда ошибается”, она периодически деградирует как процесс. Контекст уезжает, правила теряются, инструменты падают, а ответы остаются уверенными и гладкими, как будто всё под контролем.

продолжить чтение

Как и зачем мы разработали систему анализа аномальных логов. Кейс MWS

продолжить чтение

10 лучших open source инструментов Observability 2025

В этом году инструменты observability с открытым исходным кодом вышли за рамки простого мониторинга. Теперь они конкурируют, а зачастую и превосходят коммерческие SaaS‑платформы по масштабируемости, гибкости и совместимости. Команды из разных отраслей внедряют стеки решений наблюдения с открытым исходным кодом, чтобы избежать привязки к одному поставщику, обеспечения сквозной прозрачности (логи, метрики, трассировки), экономии на лицензиях и много другого.

продолжить чтение

LLM Observability & AI Agent Tracing: большой гайд с обзором подходов и open-source решений

В этой статье я структурировал весь опыт и подходы к тому, как мониторить и трейсить LLM и AI-агентов на их основе. Это очень большая и тяжелая статья, но мне хотелось полностью закрыть всю тему за раз и создать крепкий бейзлайн для погружения в тему observability и трейсинга агентов.Поговорим про то, почему все LLM-based решения требуют новых подходов, обсудим ключевые проблемы агентов, посмотрим пару самых популярных решений и обзор всех опенсорсных и зафиналим трендами и направлением, куда все это движется.

продолжить чтение

Почему управление ИТ-инфраструктурой становится только сложнее и что с этим делать?

Проблему усложнения инфраструктуры отмечают все, кто ей занимается в разных ролях, от проектирования архитектуры до имплементации и ежедневной эксплуатации. Инженеры, архитекторы и разработчики признают, что управление инфраструктурой сегодня уже не тривиальная задача. Создавая open-source проект Foliage, мы исходили именно из тезиса о том, что «современная инфра – это сложно». Но обо всём по порядку.

продолжить чтение

Observability vs Monitoring: за что вы платите?

Помню, как на собеседовании в одну крупную компанию мне задали вопрос: "Чем отличается observability от monitoring?" Я уверенно ответил что-то про "три столпа" и "unknown unknowns". Интервьюер кивнул, но потом спросил: "А зачем платить $100k в год за Datadog, если можно поставить бесплатный Prometheus?"

продолжить чтение

AIOps — как воображаемый strartup внедрил ИИ

Предисловие Давайте будем честны, современные подходы к выстраиванию алертинга и реагированию на инциденты в большинстве современных компаний оставляют желать лучшего:Тысячи алертов сыпятся в чаты, которые никто не читает;Постоянно создаются десятки разрозненных дашбордов, половина из которых устарела, а половина задезайнена так, что разобраться способен только их создатель;А если происходит сбой, то для выявления причины зачастую приходится собирать консилиум из DBA, сетивиков и инженеров всех смежных команд.

продолжить чтение

Как я перестал бояться алертов и полюбил дежурства

Привет! Меня зовут Егор, я DevOps/SRE-инженер с небольшим (2+ года) стажем. Ещё пару лет назад мои ночи были полны ужаса: телефон разрывался от PagerDuty, любое уведомление в чате заставляло подскакивать среди ночи, а кофе на 3 часа утра стал обычным делом. В прошлой статье – «Как я перестал тушить пожары и начал говорить с бизнесом на языке SLO» – я рассказывал, как мы внедрили SRE-подход: ввели SLO/SLI, настроили мониторинг по «золотым сигналам» и умные алерты

продолжить чтение

Эффективная стратегия мониторинга: ключевые метрики для успешного наблюдения

Современные решения, построенные на микросервисной архитектуре, напоминают сложный организм: сотни взаимосвязанных компонентов, распределенные базы данных, облачные сервисы. Без продуманного наблюдения даже мелкая ошибка в одном узле может спровоцировать цепную реакцию — например, падение конверсии из-за «зависшего» платежного шлюза или потерю данных из-за перегруженной очереди сообщений.Грамотная стратегия мониторинга решает три ключевые проблемы:Сбои: предсказывает и локализует инциденты до того, как они ударят по бизнесу.

продолжить чтение

Мониторинг высоконагруженных систем: поддержка SLA и масштабируемость

продолжить чтение

Rambler's Top100