Я тут полез в свою историю промптов за март 2025. Знаете, что нашёл? Промпт на 40 строк, в котором я вручную описывал Claude структуру проекта. Какие файлы где лежат, какие зависимости, где конфиг. Потому что он не мог посмотреть сам.
Год назад. Март 2025. Claude Code – бета, версия 0.2.что-то-там. Ни plan mode, ни субагентов, ни CLAUDE.md, ни skills. Контекст – 200 тысяч токенов, и это считалось нормальным. Codex CLI не существовал. Gemini CLI не существовал. Copilot умел автокомплит и чат в сайдбаре.
А потом прошёл год. И я решил собрать все цифры в одном месте. Потому что когда живёшь внутри этого – не замечаешь. А когда выкладываешь рядом «было → стало» – становится не по себе.
Март 2025: автокомплит и ручная сборка контекста
Кто забыл – напоминаю. Кто вытеснил – соболезную.
В марте 2025 главным AI-инструментом для кодинга был GitHub Copilot. Не CLI-агент, не автономная система – автокомплит. Ты пишешь код, он дописывает строчку. Иногда удачно. 1.8 миллиона пользователей. По опросу Stack Overflow (май-июнь 2025), 76% разработчиков «пробовали» AI-ассистент. Пробовали – не «используют каждый день». При этом доверие к точности AI уже тогда падало: с 40% до 29% год к году. Люди пробовали, видели, что оно галлюцинирует – и откладывали.
Claude Code только вышел в бету (февраль 2025). Жил в терминале, мог читать файлы и писать в них. Но – без plan mode, без возможности разбить задачу на шаги, без субагентов. По сути – чат с доступом к ls и cat. Контекст 200K токенов – один средний проект, если впихнуть всё. А если проект большой – ну, вручную описывай, что где лежит.
Cursor существовал, но был другим. Без агентов, без Background Agents. Anysphere – стартап, который ещё даже Series C не поднял.
SWE-bench Verified – основной бенчмарк для кодинг-способностей – показывал 65% для лучших систем. Из 100 реальных баг-фиксов из open-source проектов модель решала 65. Остальные 35 – извини, человек.
А METR в марте 2025 опубликовала ключевое исследование: топовые модели (Claude 3.7 Sonnet) могли автономно работать над задачей ~55 минут. GPT-4, вышедший в марте 2023 – 6 минут. GPT-2 (2019) – 3 секунды. Для понимания масштаба: модели на задачах меньше 4 минут справлялись почти со стопроцентным успехом, а на задачах больше 4 часов – меньше 10%. Потолок автономности – примерно час. Дальше – деградация, галлюцинации, потеря контекста.
Frontier-кодинг стоил $5 за миллион входных токенов, $25 за миллион выходных. Opus-tier. Дорого, медленно, 200K контекст. И это был потолок.
176 апдейтов за год
Вот цифра, которая меня зацепила, когда я ковырялся в чейнджлоге Claude Code.
176 обновлений за 2025 год. Три серии версий: v0.2.x (37 релизов), v1.0.x (82 релиза), v2.0.x (57 релизов). Одно обновление каждые два дня. Включая выходные, Рождество, и, видимо, дни рождения сотрудников Anthropic.
Июнь 2025 – тихо добавили plan mode (v1.0.18). Август – /context для визуализации того, что модель реально видит (v1.0.86). Там же OpenAI предложила AGENTS.md как стандарт. Октябрь – skills (v2.0.22). Ноябрь – Opus 4.5, первая модель серии 4.x с 200K контекстом. Декабрь – skills стали открытым стандартом.
А потом 2026.
Февраль – Opus 4.6. Контекст – миллион токенов. Не 200K. Миллион. В пять раз больше, чем год назад. Agent Teams – запуск нескольких агентов на одном репозитории. Auto-memory – Claude помнит между сессиями. HTTP hooks. Dispatch – задачи из любого места.
Март 2026 – 1M контекст по умолчанию для всех пользователей Opus 4.6. Без доплаты.
И это только Claude Code. Один инструмент из шести.
Кембрийский взрыв CLI-агентов
(я изначально хотел писать только про Claude, но когда начал копать остальных – понял, что параллельная история ещё безумнее)
Codex CLI – его не существовало в марте 2025. У OpenAI не было CLI-инструмента для кодинга. За год они выпустили Codex CLI, потом GPT-5.3-Codex (первая модель под real-time кодинг, 1000+ токенов/сек), microvm-песочницу для fire-and-forget автономной работы, субагенты, десктопное приложение. Чейнджлог – десятки апдейтов только за 2026.
Тут, кстати, интересный нюанс про Codex. Как анализатор кода он реально хорош – может быть, даже лучше Claude в некоторых вещах. Ревью, рефакторинг, объяснение сложных систем – GPT-5.4 тут очень сильный. Но когда дело доходит до написания кода… ну, как бы сказать. В слепых тестах (Blake Crosley, 12 раундов) Claude Code побеждает Codex в 67% случаев именно по качеству генерируемого кода. Codex пишет шире – больше файлов, больше строк – но менее хирургически. Если нужна точечная правка в трёх файлах, Claude сделает ровно это. Codex может переписать пять и сломать шестой. На Reddit один чувак описал это как “Claude – хирург, Codex – терапевт с мачете”.
Зато Codex за $20/мес – практически безлимитный. Дал задачу, ушёл пить кофе, вернулся – PR готов. Claude Code за $20/мес выдохнется после пары сложных промптов – один запрос сжирает 50-70% пятичасового лимита.
Gemini CLI – аналогично. Google выпустил open-source CLI-агент в 2025, в 2026 добавил skills, generalist agent, Gemini 3.1 Pro. SWE-bench – 80.6%. При цене 12 за миллион токенов. Это в 2-12 раз дешевле Claude Opus. Дёшево. Быстро. Для MVP – идеально. Для тонкой хирургии – бывает неряшлив, несколько Reddit-тредов жалуются на неожиданно большой расход токенов и необходимость повторных промптов.
Copilot CLI – превью в сентябре 2025, GA в феврале 2026. От «подсказки в IDE» до автономного агента с plan mode, субагентами, облачными агентами, и выбором моделей от Anthropic, OpenAI и Google. За полгода.
Пять CLI-агентов за год. Все – или появились с нуля, или трансформировались до неузнаваемости. Это не эволюция. Это кембрийский взрыв.
Два миллиарда за 24 месяца
Cursor пробил $2B ARR в феврале 2026.
$500M ARR в июне 2025. Миллиард – в ноябре. Два миллиарда – в феврале 2026. Удвоение за три месяца. Оценка Anysphere – $29.3 миллиарда. Миллион ежедневных пользователей. Больше половины Fortune 500. Четырёхлетний стартап. Самый быстро растущий SaaS в истории, если верить SaaStr.
Рынок AI раздут, оценки нереальные, все это знают. Но $2B – реальная выручка, а не на салфетке. Люди платят $16/мес за инструмент, который полтора года назад был форком VS Code с AI-подсказками.
А ещё Cursor опубликовал кое-что, от чего у меня волосы на руках встали.
Тысяча агентов, один браузер, ноль людей
Self-driving codebases – так Cursor назвал своё исследование. Тысячи AI-агентов. Одновременно. На одной кодовой базе. Работали неделю без человека. Написали функциональный веб-браузер с рендерингом.
Конкретные числа: пик – ~1000 агентов одновременно. ~1000 коммитов в час. 10 миллионов вызовов инструментов за неделю. Один большой Linux VM.
Они итерировали через четыре архитектуры координации. Первая – все агенты равны, общий state-файл – развалилось из-за locking contention. Вторая – жёсткие роли (planner → executor → workers → judge) – слишком ригидно. Третья – один executor управляет всем. Четвёртая – рекурсивные планировщики делегируют субпланировщикам и воркерам. Как работает реальная софтверная команда.
Ключевой инсайт: «Allowing some slack means agents can trust that other issues will get fixed by fellow agents soon.» Вместо требования 100% корректности от каждого коммита – небольшой постоянный error rate, который другие агенты быстро чинили. Узким местом стал не AI, а дисковый I/O при одновременной компиляции сотен агентов.
Тысяча агентов написала браузер за неделю без людей. Я перечитал это три раза. Потом пошёл пить чай.
Хотя… нужна ложка дёгтя. AI-код содержит в 1.7 раза больше багов, чем человеческий, по данным CodeRabbit (470 PR: 320 от AI, 150 от людей). Логических ошибок – в 1.75 раза чаще. Проблем с безопасностью – в 2.74 раза. Тысяча агентов написала браузер – но сколько багов в этом браузере? Сколько уязвимостей? Cursor деликатно не уточняет.
Цифры в одном месте
Ладно, хватит нарративов. Вот сухое сравнение «было → стало».
SWE-bench Verified (реальные баг-фиксы из open-source):
-
Март 2025: ~65% (топ)
-
Март 2026: 80.9% (Claude Opus 4.5 + агентный фреймворк, данные)
-
Рост: +25% за год
Контекстное окно:
-
Март 2025: 200K (Claude), 128K (GPT-4), 1M (Gemini – с оговорками)
-
Март 2026: 1M (Claude Opus 4.6), 1M (GPT-5.4), 1M+ (Gemini 3.1 Pro)
Стоимость frontier-кодинга (за миллион токенов):
-
Март 2025: $5 вход / $25 выход (Opus)
-
Март 2026: $0.30 / $1.20 (MiniMax M2.5, SWE-bench 80.2%)
-
Падение: цена в 16 раз, при росте качества на 23%
Горизонт автономной работы (METR):
-
2019 (GPT-2): 3 секунды
-
2023 (GPT-4): 6 минут
-
2025 (Claude 3.7 Sonnet): 55 минут
-
2025 (Claude Opus 4.5): ~4 часа
-
Удвоение: каждые 7 месяцев (общий тренд за 6 лет), каждые 4 месяца (2024-2025)
Пользователи (Stack Overflow):
-
2024: 76% разработчиков «пробовали»
-
2025: 84% используют или планируют, 51% – ежедневно
-
2026: 20M используют ежедневно, 46% кода – с участием AI
MiniMax M2.5 решает SWE-bench на 80.2% за $0.30 за миллион входных. Год назад лучшая модель решала 65% за $5. Качество +23%, цена −94%.
«90% кода пишет AI» – а что на самом деле
Дарио Амодеи (CEO Anthropic) заявил, что через 3-6 месяцев AI будет писать 90% кода. Инженеры Anthropic «уже не пишут код руками – дают модели написать и редактируют».
Redwood Research разобрались. В среднем по Anthropic AI пишет ~50% строк мёржнутого кода. На отдельных командах – да, 90%. Но это не 10x продуктивность. AI генерирует много дешёвого кода: одноразовые скрипты, бойлерплейт, тесты-заглушки. Процент раздувается, а реальный прирост – 1.5-2x.
Полтора-два икса – огромно. Команда из 5 человек работает как 8-10. Без найма. Но между «работает как 10» и «90% кода от AI» – пропасть в восприятии.
Сэм Альтман обещал, что AI станет «лучшим кодером в мире» к концу 2025. Конец 2025 прошёл. Не стал. Но 80.9% SWE-bench – это крепкий мидл, который работает 24/7 и не просит повышения.
Хотя нет, не мидл. METR в другом своём исследовании показали, что с AI опытные разработчики работали на 19% медленнее – при субъективном ощущении ускорения на 20%. Разрыв между ощущением и реальностью – 39 процентных пунктов. Может, и «90% кода» – тоже ощущение, а не реальность?
Сценарий: март 2027
Год назад, если бы мне сказали «через 12 месяцев контекст будет миллион, SWE-bench 80%, а Cursor будет стоить $29 миллиардов» – я бы рассмеялся. Так что мои прогнозы, скорее всего, тоже окажутся смешными. Но данные есть данные.
Экстраполируем METR: горизонт задач удваивается каждые 4 месяца. Сейчас – ~4 часа. Через 4 месяца – 8 часов. Через 8 – рабочий день. К марту 2027 – 2-3 рабочих дня. AI-агент получает задачу в пятницу – в понедельник PR ждёт ревью.
Self-driving codebases из эксперимента Cursor станут продуктом. Агенты мёржат PR, раскатывают деплой, мониторят прод, откатывают при ошибках. Человек – архитектор и ревьюер, а не автор кода. Gartner прогнозирует: к 2028 году 33% корпоративного софта включает агентный AI (сейчас <1%). Но при этом – 40% агентных проектов закроются к концу 2027. Стоимость, неясная окупаемость, и – мой любимый пункт – «inadequate risk controls».
Цены продолжат падать. MiniMax уже показал 80% за $0.30. Через год frontier-качество будет стоить копейки. Барьер входа в «AI-кодинг» исчезнет – вопрос не «можешь ли ты себе позволить», а «умеешь ли ты управлять агентами».
Но есть проблема, о которой мало говорят. Если AI будет автономно работать днями – кто проверяет результат? Уже сейчас PR review time у команд с высоким AI-adoption вырос на 91%. AI пишет быстрее, но ревью занимает вдвое больше. Если агент работает три дня – ревью будет на неделю?
Сценарий: 2028-2030
AI 2027 – исследование от бывшего сотрудника OpenAI Дэниела Кокотайло и команды из 5 человек с фидбеком от 100+ экспертов. Прогноз: superhuman coder к 2027 – AI-система, которая делает всё, что лучший инженер AGI-компании, но быстрее и дешевле. К 2028 – AI-системы, автоматизирующие AI-исследования. Self-improving loop.
Звучит как фантастика. Но вот уточнение: после проверки на реальных данных 2025-2026 года, прогнозы скорректировали. Прогресс идёт на ~65% от предсказанной скорости. Кокотайло сдвинул свои таймлайны с 2028 на 2029. Так что, может, не 2027, а 2028-2029.
65% от «безумно быстро» – это всё ещё очень быстро.
Представьте 2029 год. Вы – тимлид. У вас «команда» из 20 AI-агентов. Один специализируется на фронте, другой на инфраструктуре, третий на тестах, четвёртый – секурити-ревьюер. Вы пишете спеку на естественном языке, декомпозируете на эпики. Агенты разбирают задачи, пишут код, ревьюят друг друга, гоняют тесты, деплоят в стейджинг. Вы ревьюите итоговые PR и принимаете архитектурные решения.
Cursor уже показал прототип с тысячей агентов. Anthropic делает Agent Teams. OpenAI – Codex App с параллельными агентами. Все идут в одну точку.
Только вот… тут мне вспоминается одна штука, и она меня не отпускает.
Бомба замедленного действия
Три дня назад я писал про кризис джуниоров. Гарвард отследил 62 миллиона работников в 285 000 компаний: при внедрении AI найм джунов падает на 9-10% за полтора года. Stack Overflow: доля джунов в IT-найме сползла с 15% до 7% за три года. Безработица среди выпускников CS – 6.1%, это больше, чем у филологов.
Все эти красивые сценарии с «20 агентов под управлением тимлида» предполагают, что тимлид существует. Что есть сеньоры, которые понимают архитектуру и могут ревьюить AI-код. Но если мы три года не нанимаем джунов – через 5 лет не будет мидлов, через 8 – сеньоров. CNBC назвал это talent doom cycle.
И вот тут два тренда сталкиваются лоб в лоб. С одной стороны – AI, который каждые 4 месяца удваивает свои возможности. С другой – индустрия, которая перестала выращивать людей, способных этим AI управлять.
Anthropic провели исследование и описали эффект «permanent beginners» – AI сглаживает кривую обучения настолько, что разработчик никогда не строит ментальную мышцу для работы со сложностью. Сеньоры держатся – у них мышца уже есть. А новые разработчики – те, кто учится с AI с первого дня – могут навсегда остаться на уровне «умею промптить, не умею дебажить прод в три ночи».
Может, к 2030 это не будет проблемой. Может, AI научится сам себя рефакторить и дебажить. Но я бы не ставил на это свой продакшен.
Гонка без финиша
Я начинал этот ресёрч с мыслью «найду победителя». Кто лучший AI-кодинг-инструмент в 2026?
Не нашёл.
Claude Code – лучший по качеству кода, но душит лимитами. Codex – отличный аналитик и неограниченный раб, но код пишет грубее. Gemini – дешёвый и быстрый, но неряшливый. Copilot – $10/мес, самый дешёвый вход. Cursor – другая парадигма, IDE, а не терминал, $16/мес.
Самые продуктивные разработчики, по данным Reddit, используют 2-3 инструмента. Copilot для автокомплита (+16-20). Codex для автономки и ревью (+$20). Итого $40-60 за весь стек. Год назад это была бы цена одного инструмента, который умел дописывать строчки.
Хотя, может, победитель и не нужен. Может, гонка – это и есть смысл. Пять CLI-агентов конкурируют, цены падают, качество растёт. Все выигрывают. Пока не проиграют.
Чего я боюсь (и чем восхищаюсь)
Не «AI заменит программистов». Это мы слышим три года. Пока что AI создал больше вакансий AI-инженеров, чем убил вакансий классических разработчиков.
Боюсь скорости. И того, что мы не успеваем осмыслить.
Год назад я вручную описывал AI структуру проекта. Сейчас он сам поднимает 9 субагентов, каждый ревьюит свою часть кода. Cursor гоняет тысячу агентов, которые за неделю пишут браузер. Контекст – ×5. Цена – ÷16. SWE-bench – +25%.
METR удваивает горизонт каждые 4 месяца. Cursor удваивает выручку за три. Anthropic, OpenAI и Google гонят не потому, что могут – а потому, что рынок доказал: разработчики платят. Это не исследование – это гонка вооружений с реальными деньгами.
При этом – Stack Overflow показывает: доверие к AI продолжает падать (29%), 52% разработчиков вообще не пользуются агентами. Между «84% пробовали» и «52% не пользуются» – яма. AI-код содержит в 1.7 раза больше багов. Ревью AI-кода занимает вдвое больше. Мы перестали нанимать людей, которые через 5 лет будут единственными, кто сможет разгребать всё это.
Может, через год всё разрешится. Может, AI научится ревьюить сам себя без слепых пятен. Может, self-driving codebases заработают не как эксперимент, а в проде.
А может – рванёт. Кодовые базы, написанные тысячами агентов, начнут гнить. Чинить их будет некому, потому что джунов не наняли, мидлов не вырастили, а сеньоры выгорели. И вся эта красивая инфраструктура из AI-агентов – упрётся в то, что ни один из них не понимает, зачем этот код вообще существует.
Не знаю. Через год проверим.
UPD: перечитал и заметил, что пишу «через год проверим» третий раз за последние три статьи. Видимо, это мой способ справляться – откладывать понимание на потом. Но цифры не ждут. Между тем как я написал про джунов (16 марта) и сегодня – Cursor выкатил cloud agents, OpenAI выпустил GPT-5.4 mini и nano, а Claude Code обновился дважды. Три дня. Два апдейта. Гонка не останавливается, даже когда ты пишешь статью о гонке.
Кстати, Redwood Research предупредили: Anthropic может не признать ошибку в прогнозах про AGI к 2027 вовремя. Так что все мои экстраполяции – тоже могут быть чушью. Единственный честный прогноз: через год мы будем удивлены. Опять.
Автор: diffnotes-tech


