- BrainTools - https://www.braintools.ru -
Когда использование инструмента грозит потерей качества.
Мы разобрали восемь крупных исследований на тему использования AI в разработке — и везде разные цифры. Одни показывают ускорение, другие замедление, третьи — проблемы с качеством.
Нюанс в том, что сравнивать нужно не только скорость, но и качество кода, время на дебаггинг и код-ревью. Потому что функция может генерироваться за десять минут, но если ревьювер возвращает ее три раза, а баг всплывает через месяц — где ускорение?
Разбираемся, что на самом деле измеряли в исследованиях Google, MIT и других — и почему контекст решает все.
Когда обсуждают «ускорение разработки с помощью AI», чаще всего имеют в виду time-to-complete — сколько минут заняло написание кода. В реальных командах производительность строится не по принципу «кто быстрее написал фичу», а насколько быстро фича дошла до прода. Без отката и в 3 часа ночи. Это принципиально разные вещи.
Скорость написания — сколько времени от постановки задачи до компиляции кода. Можно нагенерить функцию за 10 минут вместо 30 — AI отлично справляется с шаблонным кодом. Но это только первый этап.
Пропускная способность команды — сколько пулл-реквестов закрывается, какое время от коммита до мерджа, как быстро задачи проходят через пайплайн. Один разработчик завершил задачу на 30% быстрее, но если его пулл-реквест висит в ревью три дня или возвращается на доработку 2-3 раза — общее время до прода только растет.
Delivery performance — как часто деплоим, сколько деплоев ломается, как быстро восстанавливаемся. Здесь начинаются сюрпризы.
Код без контекста не живет. AI не знает вашего легаси, архитектурных ограничений и того, что функция для этого уже есть в соседнем модуле. Модели обучали на открытых данных, поэтому они чаще генерируют «правильный, но чужой» код.
Когнитивная иллюзия. Исследование METR [1]: разработчики предсказывали ускорение с помощью AI на 24%, после эксперимента оценивали +20%. Но реальность показала замедление на 19%. [2]Разрыв восприятия [3] — 39 процентных пунктов.
Проблема качества кода. Код пишется быстро, но качество проседает. Об этом ниже — с цифрами.
Теперь, когда мы договорились о метриках, давайте посмотрим на данные. За последние полтора года вышло несколько крупных исследований с прямо противоположными результатами. Разброс — от +55% до -19%. Кто-то явно ошибается, или мы чего-то не понимаем?
Microsoft/GitHub (2023) [4]: контролируемый эксперимент
Исследование, которое запустило хайп. Разработчикам дали задачу написать HTTP-сервер на JavaScript — с использованием GitHub Copilot выполнили на 55,8% быстрее. [5]Но это была синтетическая задача в лабораторных условиях: чистый лист, стандартный паттерн, без легаси и код-ревью. Идеальный кейс для AI, но насколько переносится на реальный прод?
MIT/Princeton/Penn [6]: большая выборка, реальные компании
Исследователи из MIT, Princeton и Penn провели эксперимент с 4 867 разработчиками в Microsoft, Accenture и еще одной компанией из Fortune 100. Результат: разработчики, использовавшие GitHub Copilot, в среднем завершили на 26% больше задач. [7]Это уже серьезнее — большая выборка, реальные компании, повседневная работа. Плюс интересный паттерн: наибольший выигрыш получили джуниоры и мидлы.
Google (лето 2024) [8]: enterprise-задачи
Google провели исследование с 96 инженерами на сложных enterprise-задачах. Результат: примерно 21% сокращение времени при использовании LLM-моделей.
GitHub × Accenture (2024) [9]: метрики процесса
Исследование с фокусом на командные показатели: +8,7% пулл-реквестов на разработчика, +15% merge rate (залито с первого раза), +84% успешных сборок, высокая субъективная удовлетворенность. Здесь смотрели не только на скорость, но и на индикаторы качества.
GitClear (2024) [10]: скорость есть, а качество?
Пока все спорят, кто быстрее пишет, GitClear проанализировали 211 млн измененных строк кода (2020-2024) из репозиториев Google, Microsoft, Meta и 25 крупнейших open-source проектов — и обнаружили тревожные тренды.
8-кратный рост дублирования кода — блоки из пяти и более повторяющихся строк встречаются в десять раз чаще, чем два года назад. В 2024 году впервые copy/paste превысил moved/refactored код. В здоровых проектах разработчики рефакторят и переиспользуют логику [11]. С AI они чаще копируют готовые куски. [12]
46% изменений — полностью новые строки вместо модификации существующих. [13]AI не знает, что нужная функция уже есть в соседнем модуле, поэтому генерирует дубликат.
Code churn удваивается — процент кода, который выбрасывается менее чем через две недели. [13]
DORA 2024 [14]: расщепление метрик
DORA Report 2024 (39 000+ респондентов) показывает парадокс [15]: рост использования AI коррелирует с +3,4% к качеству кода и +3,1% к скорости ревью, но одновременно с -1,5% к пропускной способности и -7,2% к стабильности поставки при отсутствии дисциплины процессов. [7]
AI помогает на микроуровне (быстрее писать, быстрее ревьюить), но без правильных процессов вредит на макроуровне. Больше кода → больше потенциальных багов → больше нестабильности. Ускорение одной стадии без оптимизации всего потока в перспективе создает проблемы.
Google (внутренние метрики, 2024) [16]: избирательность разработчиков
Google поделились статистикой реального использования: примерно 37% acceptance rate AI-подсказок, до 50% символов кода в IDE идут с AI-автодополнением. Масштаб впечатляет — половина кода пишется с помощью AI. Но acceptance rate 37% показывает, что разработчики избирательны: две трети предложений отклоняются.
METR (июль 2025) [1]: главный сюрприз года
Некоммерческая организация METR провела исследование с 16 опытными open-source разработчиками на 246 реальных задачах в mature проектах (22k+ звезд, 1M+ строк кода). Половина задач — с AI (Cursor Pro + Claude 3.5/3.7), половина — без AI.
Результат шокировал: с AI разработчики работали на 19% медленнее. Почему такая разница?
Perception gap: иллюзия ускорения
Самое интересное — разрыв восприятия. До начала разработчики предсказывали ускорение на 24%. После завершения оценивали +20%. Реальность: замедление на 19%. [1]Разрыв между ощущениями и реальностью — почти 40 процентных пунктов. Это системная проблема восприятия.
Почему замедлились? Время уходило на промптинг AI, ожидание генерации (10-30 секунд), проверку сгенерированного кода, отладку неочевидных багов. Экономия на написании оказалась меньше затрат на взаимодействие с AI и валидацию результата.
Ключевое отличие: кто участвовал
Это были senior-разработчики с 5+ годами опыта [17] в конкретных проектах. Они отлично знали кодовую базу, архитектуру, конвенции. Для них написание кода — не узкое место. Узкое место — понимание контекста задачи, дизайн решения, интеграция с существующим кодом.
AI здесь не помогает. Более того, мешает — предлагает технически правильные решения, которые не вписываются в архитектуру проекта или дублируют существующую функциональность.
Парадокс в том, что эти исследования измеряли разные вещи в разных условиях:
|
Исследование |
Результат |
Участники |
Условия |
Что измеряли |
|
GitHub/Microsoft |
+55.8% |
Разные уровни |
HTTP-сервер (синтетика) |
Скорость написания |
|
MIT/Princeton |
+26% |
4 867 разработчиков разных уровней |
Реальная работа в компаниях |
Кол-во завершенных задач |
|
Google RCT |
+21% |
96 инженеров Google |
Enterprise-задачи |
Скорость написания |
|
METR |
-19% |
16 синьор-разработчиков |
Реальные mature проекты |
Скорость написания |
|
GitClear |
Падение качества |
211 млн строк кода |
Анализ 2020-2024 (Google/MS/Meta) |
Дублирование, code churn, дефекты |
Паттерн очевиден:
Junior/Middle + незнакомые проекты + простые задачи = AI помогает сильно
Senior + знакомые проекты + сложные задачи = AI может замедлить
Чем сложнее кодовая база и опытнее разработчик, тем меньше выигрыш от AI. В какой-то момент кривая переходит в отрицательную зону.
Если хотите сравнить метркии по написанию кода с AI и без AI у себя, смотрите не только на скорость, но и на качество, процесс и опыт разработчика. Только комплексный подход показывает реальную картину. На что можно ориентироваться:
Скорость (индивидуальная): время до первой компиляции, время до готового пулл-реквеста, среднее время фикса бага средней важности, время на поиск информации (как часто смотрите документацию).
Качество (объективное): процент пулл-реквестов, залитых с первого раза без доработок, процент прохождения CI с первой попытки, плотность дефектов (баги на 1000 строк), индекс поддерживаемости (SonarQube умеет считать), переписывание кода через 7-14 дней.
Процесс (командный): время от коммита до прода (DORA метрика), время цикла, частота деплоев, процент сломанных деплоев, среднее время восстановления.
Опыт разработчика (субъективное, но важное): когнитивная нагрузка (самооценка или через носимые устройства типа измерения вариабельности пульса), частота состояния потока, количество переключений контекста, удовлетворенность работой.
Только глядя на все эти метрики вместе, можно понять: ускорили разработку или просто перераспределили проблемы на другие этапы пайплайна.
А вы измеряли реальное влияние AI на вашу продуктивность? Делитесь в комментариях!
Автор: APPKODE
Источник [18]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/22175
URLs in this post:
[1] METR: https://metr.org/blog/2025-07-10-early-2025-ai-experienced-os-dev-study/
[2] : https://arxiv.org/abs/2507.09089
[3] восприятия: http://www.braintools.ru/article/7534
[4] Microsoft/GitHub (2023): https://www.microsoft.com/en-us/research/publication/the-impact-of-ai-on-developer-productivity-evidence-from-github-copilot/?utm_source=chatgpt.com
[5] : https://www.infoworld.com/article/4020931/ai-coding-tools-can-slow-down-seasoned-developers-by-19.html
[6] MIT/Princeton/Penn: https://mitsloan.mit.edu/ideas-made-to-matter/how-generative-ai-affects-highly-skilled-workers
[7] : https://arxiv.org/html/2410.12944v1
[8] Google (лето 2024): https://arxiv.org/html/2410.12944v2
[9] GitHub × Accenture (2024): https://github.blog/news-insights/research/research-quantifying-github-copilots-impact-in-the-enterprise-with-accenture/
[10] GitClear (2024): https://www.gitclear.com/ai_assistant_code_quality_2025_research
[11] логику: http://www.braintools.ru/article/7640
[12] : https://leaddev.com/software-quality/how-ai-generated-code-accelerates-technical-debt
[13] : https://devops.com/ai-in-software-development-productivity-at-the-cost-of-code-quality/
[14] DORA 2024: https://cloud.google.com/blog/products/devops-sre/announcing-the-2024-dora-report
[15] парадокс: http://www.braintools.ru/article/8221
[16] Google (внутренние метрики, 2024): https://research.google/blog/ai-in-software-engineering-at-google-progress-and-the-path-ahead/
[17] опыта: http://www.braintools.ru/article/6952
[18] Источник: https://habr.com/ru/articles/968444/?utm_source=habrahabr&utm_medium=rss&utm_campaign=968444
Нажмите здесь для печати.