LLM Observability & AI Agent Tracing: большой гайд с обзором подходов и open-source решений
В этой статье я структурировал весь опыт и подходы к тому, как мониторить и трейсить LLM и AI-агентов на их основе. Это очень большая и тяжелая статья, но мне хотелось полностью закрыть всю тему за раз и создать крепкий бейзлайн для погружения в тему observability и трейсинга агентов.Поговорим про то, почему все LLM-based решения требуют новых подходов, обсудим ключевые проблемы агентов, посмотрим пару самых популярных решений и обзор всех опенсорсных и зафиналим трендами и направлением, куда все это движется.
Инструмент OpenAI получит доступ к фотографиям детей в игре отслеживания Санта-Клауса
В это Рождество OpenAI объединится с Американским командованием воздушно-космической обороны (North American Aerospace Defense Command, NORAD), чтобы предложить детям и их родителям несколько игр для отслеживания Санта-Клаус. Однако в рамках этого проекта компания получит доступ к фотографиям детей.
LatentMAS: Секрет AI-агентов, которые думают без слов, работают точнее и экономят до 80% токенов
Если отбросить маркетинговый флёр вокруг «агентных систем», реальность довольно прозаична: как только вы собираете цепочку из нескольких LLM‑агентов, ваш счёт за токены и latency улетает в стратосферу. Судя по экспериментам в LatentMAS, классический текстовый multi‑agent‑пайплайн для олимпиадных задач уровня AIME‑24/25 легко выжигает десятки тысяч выходных токенов на одну единственную задачу, нередко переваливая за планку в 20к токенов для одного решения. И это не абстрактная проблема академиков: любой, кто пытался склеить ReAct/
Как я внедрил агента в бекенд-прод для решения рутинных задач
TL;DRМы собрали рабочего ИИ-агента-разработчика, который сам анализирует задачи в Jira, уточняет детали, пишет код, запускает сборку, фиксит ошибки, создаёт MR в GitLab и отправляет его человеку на ревью. Он работает параллельно на нескольких задачах, благодаря чему суммарное время выполнения пачки задач падает почти втрое. Команда избавилась от рутины, а скорость разработки выросла без расширения штата.Использовали: Ollama + Qwen3 Coder, PostgreSQL, Docker, GitLab/Jira API, систему строгих JSON-действий.Столкнулись с контекстом, "галлюцинациями", GPU и самовольными правками кода - всё решаемо архитектурой.
Мульти-модельная оркестрация LLM: архитектура маршрутизации, которая снизила затраты в 117 раз
Как мы провели 12,000+ API-вызовов к 11 моделям, открыли правило 60-70, и построили систему маршрутизации с ROI 4,853xКонтекст: кто пишет и о чём эта статьяИгорь Масленников. В IT с 2013 года. Последние два года развиваю AI Dev Team в DNA IT — подразделение, которое работает на мульти-модельной архитектуре. Это техническая статья о том, как мы построили систему оркестрации LLM-моделей для платформы генерации образовательных курсов.Статья для тех, кто:Строит AI-продукты и упирается в стоимость APIДумает о мульти-модельной архитектуре, но не знает, с чего начать

