- BrainTools - https://www.braintools.ru -
Мы провели рандомизированное контролируемое исследование (RCT), чтобы оценить, как инструменты искусственного интеллекта [1] начала 2025 года влияют на продуктивность опытных open-source разработчиков, работающих в своих собственных репозиториях. Неожиданно оказалось, что при использовании ИИ-инструментов разработчики выполняют задачи на 19% дольше, чем без них — то есть ИИ замедляет их работу.
Мы рассматриваем этот результат как срез текущего уровня возможностей ИИ в одном из прикладных сценариев. Поскольку системы продолжают стремительно развиваться, мы планируем использовать аналогичную методологию в будущем, чтобы отслеживать, насколько ИИ способен ускорять работу в сфере автоматизации R&D[1] [2].
Подробности — в полной версии статьи [3].

Хотя бенчмарки по программированию [4] и агентному взаимодействию [5] доказали свою полезность для оценки возможностей ИИ, они, как правило, жертвуют реализмом ради масштабируемости и эффективности: задачи в них самодостаточны, не требуют предварительного контекста и оцениваются алгоритмически, что не отражает множество важных способностей. Эти особенности могут приводить к завышенной оценке возможностей моделей. С другой стороны, поскольку бенчмарки не предполагают живого взаимодействия с человеком, модели могут не справляться с задачей из-за незначительных узких мест, которые в реальных условиях человек легко бы устранил. Это, наоборот, может преуменьшать их реальные способности. В целом, сопоставить бенчмарк-результаты с практическим эффектом в реальном мире — непросто.
Одна из причин, по которой мы хотим изучать влияние ИИ «в дикой природе», — это стремление лучше понять его влияние на собственные процессы R&D в AI, которое может нести существенные риски. Например, чрезмерно быстрый прогресс в AI может привести к поломке механизмов контроля или обходу систем безопасности. Оценка влияния ИИ на продуктивность разработчиков — это дополняющее бенчмарки свидетельство, дающее понимание того, как ИИ влияет на ускорение R&D в целом.
Чтобы напрямую измерить влияние ИИ-инструментов на разработку программного обеспечения в реальных условиях, мы пригласили 16 опытных разработчиков из крупных open-source репозиториев (в среднем: 22 000+ звёзд, более 1 млн строк кода), в которые они вносят вклад уже несколько лет. Участники предоставили список реальных задач (всего 246) — багфиксы, фичи и рефакторинги, которые они в обычном порядке включили бы в свою текущую работу.
Каждая задача была рандомно распределена на одну из двух групп: с разрешением или запретом использования ИИ. В условиях разрешения разработчики могли использовать любые инструменты по своему выбору (в основном — Cursor Pro с Claude 3.5/3.7 Sonnet, на тот момент — фронтирные модели). В другой группе они работали без генеративной помощи ИИ.
Разработчики выполняли задачи (в среднем по две часа на каждую), записывали экран и самостоятельно фиксировали общее время реализации. За участие в исследовании каждому платили $150 в час.

Когда разработчикам разрешается использовать ИИ-инструменты, они выполняют задачи на 19% дольше — существенное замедление, которое противоречит как ожиданиям самих разработчиков, так и прогнозам экспертов. Этот разрыв между восприятием [6] и реальностью поразителен: разработчики ожидали, что ИИ ускорит их на 24%, а даже после фактического замедления продолжали считать, что ИИ сократил им время на 20%.
Ниже представлены необработанные средние значения: прогнозируемое время выполнения задач по оценке самих разработчиков и фактическое зафиксированное время реализации — разница очевидна: с ИИ разработчики работают заметно дольше.

Учитывая как важность понимания возможностей и рисков ИИ, так и разнообразие взглядов на эти темы, мы считаем необходимым заранее предотвратить возможные недопонимания или чрезмерные обобщения наших результатов. В таблице 2 приведены утверждения, для которых мы не предоставляем доказательств.
|
Мы не утверждаем, что: |
Пояснение |
|
ИИ-системы в настоящее время не ускоряют работу многих или большинства разработчиков программного обеспечения |
Мы не утверждаем, что наши разработчики или репозитории представляют большинство или значительную долю работы в области разработки ПО |
|
ИИ-системы не ускоряют работу отдельных лиц или групп в других областях, кроме разработки ПО |
Мы изучаем только разработку программного обеспечения |
|
В ближайшем будущем ИИ-системы не смогут ускорить работу разработчиков в аналогичных условиях |
Прогнозировать развитие сложно, но за последние пять лет ИИ сделал значительный шаг вперёд[2] [7] |
|
Не существует способов более эффективного использования уже доступных ИИ-систем для ускорения работы в наших условиях |
Cursor использует относительно мало токенов от языковых моделей; могут быть не оптимальные подсказки или структура взаимодействия, а обучение [8], адаптированное под домен/репозиторий, или обучение с малым числом примеров могли бы дать положительный прирост скорости |
Мы исследуем 20 возможных факторов, которые могли бы объяснить замедление, и находим подтверждение тому, что 5 из них, скорее всего, действительно вносят вклад:

Мы исключаем множество возможных экспериментальных артефактов — разработчики использовали передовые модели, следовали назначенному условию (разрешено/запрещено использовать ИИ), не отказывались от задач выборочно (например, не отказывались от сложных задач без ИИ, что могло бы занизить среднюю сложность в этой группе), и отправляли pull-запросы схожего качества как с ИИ, так и без. Замедление сохраняется при различных метриках результата, методах оценки и во множестве других подмножеств/анализов наших данных. Подробности и дополнительный анализ — в полной версии статьи [3].
Как же согласовать наши результаты с впечатляющими результатами ИИ на бенчмарках, сообщениями о его полезности в реальной практике? В совокупности, данные из этих источников дают частично противоречивые ответы о том, насколько ИИ-агенты способны выполнять полезные задачи или ускорять работу человека. В следующей таблице приводятся основные источники свидетельств и краткое резюме состояния наших данных по каждому из них.
Обратите внимание [9]: таблица не претендует на полноту, а лишь схематично указывает на некоторые важные различия.
|
|
Наше РКИ |
Бенчмарки вроде SWE-Bench Verified, RE-Bench |
Практическое применение ИИ |
|
Тип задач |
Pull-запросы в крупных, качественных open-source проектах |
SWE-Bench Verified: PR’ы с тестами от авторов; RE-Bench: задачи ИИ-исследований с алгоритмической оценкой |
Разнообразные сценарии |
|
Определение успешности |
Человек доволен, что код пройдет ревью — включая стиль, тесты, документацию |
Алгоритмическая оценка (например, автотесты) |
Человек считает код полезным (возможно, как прототип или код для разовой задачи) |
|
Тип ИИ |
Чат, режим агента в Cursor, автодополнение |
Обычно полностью автономные агенты, которые могут обрабатывать миллионы токенов, использовать сложные scaffold’ы |
Различные модели и инструменты |
|
Наблюдения |
Модели замедляют людей на реалистичных задачах продолжительностью 20 мин – 4 ч |
Модели часто справляются с задачами на бенчмарках, которые очень сложны для человека |
Многие пользователи отмечают полезность ИИ для сложных задач (>1 часа) в различных областях |
Согласовать эти разные источники данных сложно, но важно — и отчасти это зависит от того, на какой вопрос мы пытаемся ответить. В некотором смысле, разные источники действительно отражают разные аспекты способностей моделей. Например, нас интересуют как возможности моделей при максимальной “эвокации” (например, при генерации миллионов токенов или десятках/сотнях попыток/траекторий на каждую задачу), так и при стандартном или распространенном использовании. Однако некоторые свойства делают результаты нерелевантными для большинства реально важных вопросов об их полезности в реальной жизни — например, самооценки могут быть неточными и чрезмерно оптимистичными.
Ниже приведены несколько обобщенных категорий гипотез, которые, на наш взгляд, наиболее правдоподобно объясняют, как эти наблюдения можно согласовать (это очень упрощённая ментальная модель):

В этих схемах красным отмечены различия между источником данных и «истинным» уровнем способностей модели представляют собой ошибку [10] измерения или предвзятость, из-за которой данные могут вводить в заблуждение, тогда как синие различия (например, в сценарии «Mix») отражают допустимые различия в том, что именно представляют разные источники данных — например, если они просто оценивают разные подмножества всего спектра задач.
Используя эту схему, мы можем рассматривать аргументы за и против различных способов согласования этих источников данных. Например, наши результаты RCT менее актуальны в условиях, где можно запрашивать у моделей сотни или тысячи вариантов/траекторий, чего наши разработчики, как правило, не делают. Также возможно, что у инструментов ИИ вроде Cursor есть выраженные эффекты обучения, проявляющиеся только после нескольких сотен часов использования — тогда как наши разработчики обычно используют Cursor лишь несколько десятков часов до и во время исследования. Наши результаты также указывают, что способности ИИ могут быть сравнительно ниже в условиях с очень высокими стандартами качества или с множеством неявных требований (например, связанных с документацией, покрытием тестами или форматированием), на освоение которых у людей уходит значительное время.
С другой стороны, бенчмарки могут переоценивать способности моделей, так как они измеряют успех только в четко ограниченных задачах с алгоритмической оценкой. И теперь у нас есть убедительные доказательства того, что субъективные оценки ускорения работы (speed-up) часто оказываются неточными.
Ни один метод измерения не является совершенным — задачи, которые люди хотят, чтобы ИИ выполнял, разнообразны, сложны и трудно поддаются строгому анализу. Каждый подход имеет свои компромиссы, и в будущем важно продолжать развивать и использовать разнообразные методологии оценки, чтобы получить более полное представление о текущем состоянии ИИ и о том, куда мы движемся.
Мы с энтузиазмом планируем проводить аналогичные версии этого исследования в будущем, чтобы отслеживать тенденции ускорения (или замедления) от ИИ, особенно потому, что эту методологию оценки, возможно, труднее подделать, чем бенчмарки. Если ИИ-системы действительно смогут существенно ускорять разработчиков в наших условиях, это может свидетельствовать о быстром ускорении прогресса в ИИ-исследованиях в целом, что, в свою очередь, может привести к рискам распространения, сбоям в механизмах контроля и надзора или чрезмерной концентрации власти. Эта методология дополняет данные бенчмарков, фокусируясь на реалистичных сценариях использования, и помогает более полно понять возможности и влияние ИИ, чем при опоре исключительно на бенчмарки и субъективные данные.
После завершения исследования разработчики в среднем оценили, что ИИ ускорил их на 20 %, то есть они ошибались в оценке влияния ИИ на свою продуктивность. Более того, возможно, разработчики используют ИИ-инструменты не только ради чистой продуктивности, например, потому что процесс кажется им более приятным или они воспринимают его как инвестицию в развитие навыков, которые пригодятся при работе с более совершенными системами в будущем.
METR — это некоммерческая организация (финансируемая за счёт пожертвований), заинтересованная в понимании того, насколько близки ИИ-системы к ускорению ИИ-исследований, что может нести значительные дестабилизирующие риски[1] [2].
Это исследование было задумано как способ получить данные в смежной области: опытные open-source разработчики, работающие над проектами, в которых они хорошо ориентируются. Изначально мы в целом ожидали увидеть положительное ускорение — научная добросовестность является для нас основополагающей ценностью, и мы были (и остаемся) готовы делиться результатами вне зависимости от их характера.
Мы рассчитали доверительные интервалы с учётом размера выборки, используя кластеризованные стандартные ошибки (не указано в опубликованной версии статьи, но будет в будущей). Поскольку мы не наблюдаем существенной структуры внутри разработчиков, а каждый из них решал задачи в обеих условиях, 246 выполненных задач дают нам (едва достаточную) статистическую мощность, чтобы отвергнуть нулевую гипотезу об отсутствии ускорения/замедления. См. Приложение D [12] для обсуждения нашей эмпирической стратегии.
При этом остаётся вопрос репрезентативности — то есть вероятных смещений в том, какие разработчики в итоге участвовали в исследовании. Например, возможно, что опытные разработчики с открытым кодом, которые верят в существенное ускорение от ИИ, решили не участвовать, потому что не хотели быть вынуждены не использовать ИИ в 50 % задач. Ни один участник не сообщил о подобной мотивации [13], но мы не можем исключить такую (или любую другую) выборочную предвзятость.
Разработчики, по-видимому, находятся в пределах распределения типичных пользователей Cursor Pro, хотя мы не можем исключить эффект обучения за пределами 50 часов использования. Почти все разработчики имеют значительный опыт [14] (десятки или сотни часов) взаимодействия с LLM. См. Приложение C.2.7 [15] для более подробного обсуждения/анализа уровня навыков работы с ИИ-инструментами.
Нет, вполне возможно или даже вероятно, что ИИ-инструменты полезны в других условиях, отличных от нашего, например, для менее опытных разработчиков или при работе в незнакомом коде. См. Приложение B [16] для перечня возможных неправильных интерпретаций/обобщений, которые мы не поддерживаем на основании наших данных.
Приложение C.3.5 [17] рассматривает альтернативные способы оценки, включая включая наивный ratio-estimator. Все альтернативные методы дают схожие результаты, что говорит о том, что вывод о замедлении устойчив к используемой эмпирической стратегии. Тем не менее, мы активно исследуем дополнительные методы оценки стандартной ошибки в ответ на обратную связь от сообщества (спасибо всем, кто её дал!).
Автор: kucev
Источник [18]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/18711
URLs in this post:
[1] интеллекта: http://www.braintools.ru/article/7605
[2] [1]: https://metr.org/common-elements.pdf#page=18
[3] в полной версии статьи: https://arxiv.org/abs/2507.09089
[4] программированию: https://openai.com/index/introducing-swe-bench-verified/
[5] агентному взаимодействию: https://arxiv.org/abs/2411.15114
[6] восприятием: http://www.braintools.ru/article/7534
[7] [2]: https://arxiv.org/abs/2503.14499
[8] обучение: http://www.braintools.ru/article/5125
[9] внимание: http://www.braintools.ru/article/7595
[10] ошибку: http://www.braintools.ru/article/4192
[11] мотивация: http://www.braintools.ru/article/9537
[12] Приложение D: https://arxiv.org/pdf/2507.09089#page=27
[13] мотивации: http://www.braintools.ru/article/9384
[14] опыт: http://www.braintools.ru/article/6952
[15] Приложение C.2.7: https://arxiv.org/pdf/2507.09089#page=23
[16] Приложение B: https://arxiv.org/pdf/2507.09089#page=17
[17] Приложение C.3.5: https://arxiv.org/pdf/2507.09089#page=26
[18] Источник: https://habr.com/ru/articles/936938/?utm_campaign=936938&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.