LLM Observability & AI Agent Tracing: большой гайд с обзором подходов и open-source решений
В этой статье я структурировал весь опыт и подходы к тому, как мониторить и трейсить LLM и AI-агентов на их основе. Это очень большая и тяжелая статья, но мне хотелось полностью закрыть всю тему за раз и создать крепкий бейзлайн для погружения в тему observability и трейсинга агентов.Поговорим про то, почему все LLM-based решения требуют новых подходов, обсудим ключевые проблемы агентов, посмотрим пару самых популярных решений и обзор всех опенсорсных и зафиналим трендами и направлением, куда все это движется.
Почему управление ИТ-инфраструктурой становится только сложнее и что с этим делать?
Проблему усложнения инфраструктуры отмечают все, кто ей занимается в разных ролях, от проектирования архитектуры до имплементации и ежедневной эксплуатации. Инженеры, архитекторы и разработчики признают, что управление инфраструктурой сегодня уже не тривиальная задача. Создавая open-source проект Foliage, мы исходили именно из тезиса о том, что «современная инфра – это сложно». Но обо всём по порядку.
Observability vs Monitoring: за что вы платите?
Помню, как на собеседовании в одну крупную компанию мне задали вопрос: "Чем отличается observability от monitoring?" Я уверенно ответил что-то про "три столпа" и "unknown unknowns". Интервьюер кивнул, но потом спросил: "А зачем платить $100k в год за Datadog, если можно поставить бесплатный Prometheus?"
Исследование: сигналы Wi-Fi можно использовать для определения частоты сердечных сокращений
Команда Калифорнийского университета в Санта-Крузе разработала подход Pulse-Fi, который позволит использовать сигналы Wi-Fi для мониторинга частоты сердечных сокращений человека.
Собираем систему мониторинга ответов LLM на коленке
Наверняка вы сталкивались с ситуациями, когда модель начинает вести себя в проде не так, как задумывалось: например, ведётся на провокации пользователя или даёт некорректные ответы. Зачастую такие ошибки безобидны, но случаются и не очень приятные ситуации. А если речь идёт о чат-боте, который отвечает на вопросы в юридической или медицинской сфере — практически любая ошибка может быть критичной. Итак, мы плавно подошли к тому, что нужно каким-то образом валидировать ответы LLM. Давайте разберёмся, как это делать.
Системы мониторинга сотрудников (не) работают: научный подход
Многие конторы ставят трекеры, чтобы наблюдать за работой сотрудников – кто-то скриншотит экраны каждые 3 секунды, кто-то следит за простоем курсора мыши. Многие верят, что именно так можно повысить эффективность. Откуда они вообще это взяли? И так ли это? Рассматриваю вопрос мониторинга с точки зрения науки о поведении людей на работе – организационной психологии. Делаю обзор исследований, шучу сомнительные шутки, обсуждаю альтернативы.
Как не потерять миллионы на SLA: архитектурный подход к управлению ожиданиями
Нарушение SLA — это условность, которую придумали поверх технических проблем. В IT-инфраструктуре любая техническая проблема быстро превращается в убытки, особенно если не умеешь правильно управлять доступностью. В этой статье расскажу, как на практике связаны инциденты и деньги, почему формальное соблюдение SLA — это ещё не успех, и как выстроить процессы так, чтобы бизнес не терял миллионы из-за минут простоя.Под капотом этой статьи — связь техники, архитектуры и менеджмента
Слышать биение микросервисов: как bitDive превращает мониторинг в искусство
В потоке цифрового времени микросервисов, где каждый сервис словно отдельная струна в гигантском симфоническом оркестре, возникает потребность не просто слушать, но и слышать, не просто смотреть, но и понимать. Поток данных, непрерывный и бурный, несёт в себе мелодию работы приложений, и лишь тот, кто умеет распознавать её повороты, способен избежать фальшивых нот в работе системы.Пульс современности: от сбора к прозрению

