Почему AI-агент чинит симптом, а не баг: трейсы выполнения и бенчмарки на BugSwarm
Когда AI-агенту дают только stack trace и текст файла с упавшим тестом, он часто чинит симптом, а не причину. Тест зеленеет, баг переезжает в master, через неделю всплывает в другом месте. На простых багах это незаметно, на нетривиальных — становится правилом.В этой статье — что меняется, если вместо stack trace дать агенту сжатый трейс выполнения, собранный на стороне IDE. Три бага из реального кода, эвристики сжатия трейса, склейка многопоточных вызовов по timestamp и цифры на датасете BugSwarm Pro для DeepSeek V3.2 и проприетарных LLM.
Как я пытался сделать нейросеть аналитиком: провалы и уроки
Наверняка многим знакома ситуация: у тебя есть куча данных, отчетов, KPI, а команда тонет в Excel‑таблицах и Jira‑тикетах. И вот тебе кажется, что решение простое: «Давайте посадим нейросеть на аналитику».Я решил попробовать. И вот что из этого вышло.ИдеяВ начале 2025 года я решил протестировать LLM как аналитика. Цель была простой: чтобы нейросеть собирала данные по продукту, формировала отчеты и даже предлагала гипотезы по росту метрик.Мне казалось, что это будет суперэффективно: меньше ручной работы, больше времени на продуктовую стратегию.План экспериментаИсточники данных:

