Как Bugbot в Cursor удвоил число реально исправленных багов. ai.. ai. bugbot.. ai. bugbot. cursor.. ai. bugbot. cursor. агент.. ai. bugbot. cursor. агент. Будущее здесь.. ai. bugbot. cursor. агент. Будущее здесь. искусственный интеллект.. ai. bugbot. cursor. агент. Будущее здесь. искусственный интеллект. Программирование.

В Cursor подробно разобрали, как эволюционировал Bugbot — агент для код-ревью pull request’ов, который ищет логические баги, проблемы с производительностью и уязвимости до мержа.

Изначально качество оценивали почти вручную: меняли пайплайны, модели и фильтры, опрашивали инженеров и отсекали конфигурации с высоким числом false positive. Один из первых устойчивых приёмов — несколько параллельных проходов по diff’у с разным порядком строк и majority voting: баг считался «реальным», если его находили независимо несколько запусков.

К моменту релиза схема выглядела так: восемь параллельных прогонов, агрегация похожих находок, голосование, нормализация формулировок, фильтрация категорий, отдельная модель-валидатор и дедупликация с предыдущими запусками. Это уже позволяло конкурировать с существующими инструментами, но не давало ответа, становится ли Bugbot лучше со временем.

Как Bugbot в Cursor удвоил число реально исправленных багов - 1

Ключевым шагом стало введение метрики resolution rate — доли багов, которые действительно были исправлены автором PR к моменту мержа. Метрика считается LLM’ом постфактум; внутренние проверки с авторами PR показали почти полное совпадение с человеческой оценкой. С этого момента улучшения начали «хилл-клаймить» не по ощущениям, а по сигналу из продакшена и офлайн-бенчмарка BugBench.

За 40 крупных экспериментов resolution rate вырос с 52% до >70%, среднее число найденных багов на PR — с 0.4 до 0.7, а количество реально исправленных — примерно с 0.2 до 0.5. Существенный скачок пришёлся на переход к полностью агентной архитектуре: вместо фиксированного пайплайна агент сам решает, куда углубляться, какие инструменты вызывать и какой контекст подтягивать динамически. Неожиданно основной проблемой стала излишняя осторожность, и промпты пришлось сделать более «агрессивными».

Как Bugbot в Cursor удвоил число реально исправленных багов - 2

Сегодня Bugbot обрабатывает более 2 млн PR в месяц, включая весь внутренний код Cursor. В планах — Autofix с автоматическим исправлением багов, запуск кода для валидации собственных находок и always-on режим с непрерывным сканированием репозитория.

Русскоязычное сообщество про AI в разработке

Как Bugbot в Cursor удвоил число реально исправленных багов - 3

Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-ассистентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!

Автор: python_leader

Источник

Rambler's Top100