- BrainTools - https://www.braintools.ru -

Как Bugbot в Cursor удвоил число реально исправленных багов

В Cursor подробно разобрали [1], как эволюционировал Bugbot [2] — агент для код-ревью pull request’ов, который ищет логические баги, проблемы с производительностью и уязвимости до мержа.

Изначально качество оценивали почти вручную: меняли пайплайны, модели и фильтры, опрашивали инженеров и отсекали конфигурации с высоким числом false positive. Один из первых устойчивых приёмов — несколько параллельных проходов по diff’у с разным порядком строк и majority voting: баг считался «реальным», если его находили независимо несколько запусков.

К моменту релиза схема выглядела так: восемь параллельных прогонов, агрегация похожих находок, голосование, нормализация формулировок, фильтрация категорий, отдельная модель-валидатор и дедупликация с предыдущими запусками. Это уже позволяло конкурировать с существующими инструментами, но не давало ответа, становится ли Bugbot лучше со временем.

Как Bugbot в Cursor удвоил число реально исправленных багов - 1

Ключевым шагом стало введение метрики resolution rate — доли багов, которые действительно были исправлены автором PR к моменту мержа. Метрика считается LLM’ом постфактум; внутренние проверки с авторами PR показали почти полное совпадение с человеческой оценкой. С этого момента улучшения начали «хилл-клаймить» не по ощущениям, а по сигналу из продакшена и офлайн-бенчмарка BugBench.

За 40 крупных экспериментов resolution rate вырос с 52% до >70%, среднее число найденных багов на PR — с 0.4 до 0.7, а количество реально исправленных — примерно с 0.2 до 0.5. Существенный скачок пришёлся на переход к полностью агентной архитектуре: вместо фиксированного пайплайна агент сам решает, куда углубляться, какие инструменты вызывать и какой контекст подтягивать динамически. Неожиданно основной проблемой стала излишняя осторожность, и промпты пришлось сделать более «агрессивными».

Как Bugbot в Cursor удвоил число реально исправленных багов - 2

Сегодня Bugbot обрабатывает более 2 млн PR в месяц, включая весь внутренний код Cursor. В планах — Autofix с автоматическим исправлением багов, запуск кода для валидации собственных находок и always-on режим с непрерывным сканированием репозитория.

Русскоязычное сообщество про AI в разработке

Как Bugbot в Cursor удвоил число реально исправленных багов - 3

Друзья! Эту новость подготовила команда ТГК «AI for Devs [3]» — канала, где мы рассказываем про AI-ассистентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь [3], чтобы быть в курсе и ничего не упустить!

Автор: python_leader

Источник [4]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/24352

URLs in this post:

[1] разобрали: https://cursor.com/blog/building-bugbot

[2] Bugbot: https://cursor.com/bugbot

[3] AI for Devs: https://t.me/+DjXyo9WqikFhMjUy

[4] Источник: https://habr.com/ru/news/985670/?utm_source=habrahabr&utm_medium=rss&utm_campaign=985670

www.BrainTools.ru

Rambler's Top100