В Cursor подробно разобрали, как эволюционировал Bugbot — агент для код-ревью pull request’ов, который ищет логические баги, проблемы с производительностью и уязвимости до мержа.
Изначально качество оценивали почти вручную: меняли пайплайны, модели и фильтры, опрашивали инженеров и отсекали конфигурации с высоким числом false positive. Один из первых устойчивых приёмов — несколько параллельных проходов по diff’у с разным порядком строк и majority voting: баг считался «реальным», если его находили независимо несколько запусков.
К моменту релиза схема выглядела так: восемь параллельных прогонов, агрегация похожих находок, голосование, нормализация формулировок, фильтрация категорий, отдельная модель-валидатор и дедупликация с предыдущими запусками. Это уже позволяло конкурировать с существующими инструментами, но не давало ответа, становится ли Bugbot лучше со временем.

Ключевым шагом стало введение метрики resolution rate — доли багов, которые действительно были исправлены автором PR к моменту мержа. Метрика считается LLM’ом постфактум; внутренние проверки с авторами PR показали почти полное совпадение с человеческой оценкой. С этого момента улучшения начали «хилл-клаймить» не по ощущениям, а по сигналу из продакшена и офлайн-бенчмарка BugBench.
За 40 крупных экспериментов resolution rate вырос с 52% до >70%, среднее число найденных багов на PR — с 0.4 до 0.7, а количество реально исправленных — примерно с 0.2 до 0.5. Существенный скачок пришёлся на переход к полностью агентной архитектуре: вместо фиксированного пайплайна агент сам решает, куда углубляться, какие инструменты вызывать и какой контекст подтягивать динамически. Неожиданно основной проблемой стала излишняя осторожность, и промпты пришлось сделать более «агрессивными».

Сегодня Bugbot обрабатывает более 2 млн PR в месяц, включая весь внутренний код Cursor. В планах — Autofix с автоматическим исправлением багов, запуск кода для валидации собственных находок и always-on режим с непрерывным сканированием репозитория.
Русскоязычное сообщество про AI в разработке

Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-ассистентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!
Автор: python_leader


