Год назад Claude Code не умел составить план. Сейчас у него миллион токенов и 9 субагентов. ai.. ai. claude code.. ai. claude code. codex.. ai. claude code. codex. copilot.. ai. claude code. codex. copilot. cursor.. ai. claude code. codex. copilot. cursor. gemini.. ai. claude code. codex. copilot. cursor. gemini. llm.. ai. claude code. codex. copilot. cursor. gemini. llm. агенты.. ai. claude code. codex. copilot. cursor. gemini. llm. агенты. будущее.. ai. claude code. codex. copilot. cursor. gemini. llm. агенты. будущее. искусственный интеллект.. ai. claude code. codex. copilot. cursor. gemini. llm. агенты. будущее. искусственный интеллект. Исследования и прогнозы в IT.. ai. claude code. codex. copilot. cursor. gemini. llm. агенты. будущее. искусственный интеллект. Исследования и прогнозы в IT. кодинг.. ai. claude code. codex. copilot. cursor. gemini. llm. агенты. будущее. искусственный интеллект. Исследования и прогнозы в IT. кодинг. Программирование.

Я тут полез в свою историю промптов за март 2025. Знаете, что нашёл? Промпт на 40 строк, в котором я вручную описывал Claude структуру проекта. Какие файлы где лежат, какие зависимости, где конфиг. Потому что он не мог посмотреть сам.

Год назад. Март 2025. Claude Code – бета, версия 0.2.что-то-там. Ни plan mode, ни субагентов, ни CLAUDE.md, ни skills. Контекст – 200 тысяч токенов, и это считалось нормальным. Codex CLI не существовал. Gemini CLI не существовал. Copilot умел автокомплит и чат в сайдбаре.

А потом прошёл год. И я решил собрать все цифры в одном месте. Потому что когда живёшь внутри этого – не замечаешь. А когда выкладываешь рядом «было → стало» – становится не по себе.

Март 2025: автокомплит и ручная сборка контекста

Кто забыл – напоминаю. Кто вытеснил – соболезную.

В марте 2025 главным AI-инструментом для кодинга был GitHub Copilot. Не CLI-агент, не автономная система – автокомплит. Ты пишешь код, он дописывает строчку. Иногда удачно. 1.8 миллиона пользователей. По опросу Stack Overflow (май-июнь 2025), 76% разработчиков «пробовали» AI-ассистент. Пробовали – не «используют каждый день». При этом доверие к точности AI уже тогда падало: с 40% до 29% год к году. Люди пробовали, видели, что оно галлюцинирует – и откладывали.

Claude Code только вышел в бету (февраль 2025). Жил в терминале, мог читать файлы и писать в них. Но – без plan mode, без возможности разбить задачу на шаги, без субагентов. По сути – чат с доступом к ls и cat. Контекст 200K токенов – один средний проект, если впихнуть всё. А если проект большой – ну, вручную описывай, что где лежит.

Cursor существовал, но был другим. Без агентов, без Background Agents. Anysphere – стартап, который ещё даже Series C не поднял.

SWE-bench Verified – основной бенчмарк для кодинг-способностей – показывал 65% для лучших систем. Из 100 реальных баг-фиксов из open-source проектов модель решала 65. Остальные 35 – извини, человек.

А METR в марте 2025 опубликовала ключевое исследование: топовые модели (Claude 3.7 Sonnet) могли автономно работать над задачей ~55 минут. GPT-4, вышедший в марте 2023 – 6 минут. GPT-2 (2019) – 3 секунды. Для понимания масштаба: модели на задачах меньше 4 минут справлялись почти со стопроцентным успехом, а на задачах больше 4 часов – меньше 10%. Потолок автономности – примерно час. Дальше – деградация, галлюцинации, потеря контекста.

Frontier-кодинг стоил $5 за миллион входных токенов, $25 за миллион выходных. Opus-tier. Дорого, медленно, 200K контекст. И это был потолок.

176 апдейтов за год

Вот цифра, которая меня зацепила, когда я ковырялся в чейнджлоге Claude Code.

176 обновлений за 2025 год. Три серии версий: v0.2.x (37 релизов), v1.0.x (82 релиза), v2.0.x (57 релизов). Одно обновление каждые два дня. Включая выходные, Рождество, и, видимо, дни рождения сотрудников Anthropic.

Июнь 2025 – тихо добавили plan mode (v1.0.18). Август – /context для визуализации того, что модель реально видит (v1.0.86). Там же OpenAI предложила AGENTS.md как стандарт. Октябрь – skills (v2.0.22). Ноябрь – Opus 4.5, первая модель серии 4.x с 200K контекстом. Декабрь – skills стали открытым стандартом.

А потом 2026.

Февраль – Opus 4.6. Контекст – миллион токенов. Не 200K. Миллион. В пять раз больше, чем год назад. Agent Teams – запуск нескольких агентов на одном репозитории. Auto-memory – Claude помнит между сессиями. HTTP hooks. Dispatch – задачи из любого места.

Март 2026 – 1M контекст по умолчанию для всех пользователей Opus 4.6. Без доплаты.

И это только Claude Code. Один инструмент из шести.

Кембрийский взрыв CLI-агентов

(я изначально хотел писать только про Claude, но когда начал копать остальных – понял, что параллельная история ещё безумнее)

Codex CLI – его не существовало в марте 2025. У OpenAI не было CLI-инструмента для кодинга. За год они выпустили Codex CLI, потом GPT-5.3-Codex (первая модель под real-time кодинг, 1000+ токенов/сек), microvm-песочницу для fire-and-forget автономной работы, субагенты, десктопное приложение. Чейнджлог – десятки апдейтов только за 2026.

Тут, кстати, интересный нюанс про Codex. Как анализатор кода он реально хорош – может быть, даже лучше Claude в некоторых вещах. Ревью, рефакторинг, объяснение сложных систем – GPT-5.4 тут очень сильный. Но когда дело доходит до написания кода… ну, как бы сказать. В слепых тестах (Blake Crosley, 12 раундов) Claude Code побеждает Codex в 67% случаев именно по качеству генерируемого кода. Codex пишет шире – больше файлов, больше строк – но менее хирургически. Если нужна точечная правка в трёх файлах, Claude сделает ровно это. Codex может переписать пять и сломать шестой. На Reddit один чувак описал это как “Claude – хирург, Codex – терапевт с мачете”.

Зато Codex за $20/мес – практически безлимитный. Дал задачу, ушёл пить кофе, вернулся – PR готов. Claude Code за $20/мес выдохнется после пары сложных промптов – один запрос сжирает 50-70% пятичасового лимита.

Gemini CLI – аналогично. Google выпустил open-source CLI-агент в 2025, в 2026 добавил skills, generalist agent, Gemini 3.1 Pro. SWE-bench – 80.6%. При цене 12 за миллион токенов. Это в 2-12 раз дешевле Claude Opus. Дёшево. Быстро. Для MVP – идеально. Для тонкой хирургии – бывает неряшлив, несколько Reddit-тредов жалуются на неожиданно большой расход токенов и необходимость повторных промптов.

Copilot CLI – превью в сентябре 2025, GA в феврале 2026. От «подсказки в IDE» до автономного агента с plan mode, субагентами, облачными агентами, и выбором моделей от Anthropic, OpenAI и Google. За полгода.

Пять CLI-агентов за год. Все – или появились с нуля, или трансформировались до неузнаваемости. Это не эволюция. Это кембрийский взрыв.

Два миллиарда за 24 месяца

Cursor пробил $2B ARR в феврале 2026.

$500M ARR в июне 2025. Миллиард – в ноябре. Два миллиарда – в феврале 2026. Удвоение за три месяца. Оценка Anysphere – $29.3 миллиарда. Миллион ежедневных пользователей. Больше половины Fortune 500. Четырёхлетний стартап. Самый быстро растущий SaaS в истории, если верить SaaStr.

Рынок AI раздут, оценки нереальные, все это знают. Но $2B – реальная выручка, а не на салфетке. Люди платят $16/мес за инструмент, который полтора года назад был форком VS Code с AI-подсказками.

А ещё Cursor опубликовал кое-что, от чего у меня волосы на руках встали.

Тысяча агентов, один браузер, ноль людей

Self-driving codebases – так Cursor назвал своё исследование. Тысячи AI-агентов. Одновременно. На одной кодовой базе. Работали неделю без человека. Написали функциональный веб-браузер с рендерингом.

Конкретные числа: пик – ~1000 агентов одновременно. ~1000 коммитов в час. 10 миллионов вызовов инструментов за неделю. Один большой Linux VM.

Они итерировали через четыре архитектуры координации. Первая – все агенты равны, общий state-файл – развалилось из-за locking contention. Вторая – жёсткие роли (planner → executor → workers → judge) – слишком ригидно. Третья – один executor управляет всем. Четвёртая – рекурсивные планировщики делегируют субпланировщикам и воркерам. Как работает реальная софтверная команда.

Ключевой инсайт: «Allowing some slack means agents can trust that other issues will get fixed by fellow agents soon.» Вместо требования 100% корректности от каждого коммита – небольшой постоянный error rate, который другие агенты быстро чинили. Узким местом стал не AI, а дисковый I/O при одновременной компиляции сотен агентов.

Тысяча агентов написала браузер за неделю без людей. Я перечитал это три раза. Потом пошёл пить чай.

Хотя… нужна ложка дёгтя. AI-код содержит в 1.7 раза больше багов, чем человеческий, по данным CodeRabbit (470 PR: 320 от AI, 150 от людей). Логических ошибок – в 1.75 раза чаще. Проблем с безопасностью – в 2.74 раза. Тысяча агентов написала браузер – но сколько багов в этом браузере? Сколько уязвимостей? Cursor деликатно не уточняет.

Цифры в одном месте

Ладно, хватит нарративов. Вот сухое сравнение «было → стало».

SWE-bench Verified (реальные баг-фиксы из open-source):

Март 2025: ~65% (топ)
Март 2026: 80.9% (Claude Opus 4.5 + агентный фреймворк, данные)
Рост: +25% за год

Контекстное окно:

Март 2025: 200K (Claude), 128K (GPT-4), 1M (Gemini – с оговорками)
Март 2026: 1M (Claude Opus 4.6), 1M (GPT-5.4), 1M+ (Gemini 3.1 Pro)

Стоимость frontier-кодинга (за миллион токенов):

Март 2025: $5 вход / $25 выход (Opus)
Март 2026: $0.30 / $1.20 (MiniMax M2.5, SWE-bench 80.2%)
Падение: цена в 16 раз, при росте качества на 23%

Горизонт автономной работы (METR):

2019 (GPT-2): 3 секунды
2023 (GPT-4): 6 минут
2025 (Claude 3.7 Sonnet): 55 минут
2025 (Claude Opus 4.5): ~4 часа
Удвоение: каждые 7 месяцев (общий тренд за 6 лет), каждые 4 месяца (2024-2025)

Пользователи (Stack Overflow):

2024: 76% разработчиков «пробовали»
2025: 84% используют или планируют, 51% – ежедневно
2026: 20M используют ежедневно, 46% кода – с участием AI

MiniMax M2.5 решает SWE-bench на 80.2% за $0.30 за миллион входных. Год назад лучшая модель решала 65% за $5. Качество +23%, цена −94%.

«90% кода пишет AI» – а что на самом деле

Дарио Амодеи (CEO Anthropic) заявил, что через 3-6 месяцев AI будет писать 90% кода. Инженеры Anthropic «уже не пишут код руками – дают модели написать и редактируют».

Redwood Research разобрались. В среднем по Anthropic AI пишет ~50% строк мёржнутого кода. На отдельных командах – да, 90%. Но это не 10x продуктивность. AI генерирует много дешёвого кода: одноразовые скрипты, бойлерплейт, тесты-заглушки. Процент раздувается, а реальный прирост – 1.5-2x.

Полтора-два икса – огромно. Команда из 5 человек работает как 8-10. Без найма. Но между «работает как 10» и «90% кода от AI» – пропасть в восприятии.

Сэм Альтман обещал, что AI станет «лучшим кодером в мире» к концу 2025. Конец 2025 прошёл. Не стал. Но 80.9% SWE-bench – это крепкий мидл, который работает 24/7 и не просит повышения.

Хотя нет, не мидл. METR в другом своём исследовании показали, что с AI опытные разработчики работали на 19% медленнее – при субъективном ощущении ускорения на 20%. Разрыв между ощущением и реальностью – 39 процентных пунктов. Может, и «90% кода» – тоже ощущение, а не реальность?

Сценарий: март 2027

Год назад, если бы мне сказали «через 12 месяцев контекст будет миллион, SWE-bench 80%, а Cursor будет стоить $29 миллиардов» – я бы рассмеялся. Так что мои прогнозы, скорее всего, тоже окажутся смешными. Но данные есть данные.

Экстраполируем METR: горизонт задач удваивается каждые 4 месяца. Сейчас – ~4 часа. Через 4 месяца – 8 часов. Через 8 – рабочий день. К марту 2027 – 2-3 рабочих дня. AI-агент получает задачу в пятницу – в понедельник PR ждёт ревью.

Self-driving codebases из эксперимента Cursor станут продуктом. Агенты мёржат PR, раскатывают деплой, мониторят прод, откатывают при ошибках. Человек – архитектор и ревьюер, а не автор кода. Gartner прогнозирует: к 2028 году 33% корпоративного софта включает агентный AI (сейчас <1%). Но при этом – 40% агентных проектов закроются к концу 2027. Стоимость, неясная окупаемость, и – мой любимый пункт – «inadequate risk controls».

Цены продолжат падать. MiniMax уже показал 80% за $0.30. Через год frontier-качество будет стоить копейки. Барьер входа в «AI-кодинг» исчезнет – вопрос не «можешь ли ты себе позволить», а «умеешь ли ты управлять агентами».

Но есть проблема, о которой мало говорят. Если AI будет автономно работать днями – кто проверяет результат? Уже сейчас PR review time у команд с высоким AI-adoption вырос на 91%. AI пишет быстрее, но ревью занимает вдвое больше. Если агент работает три дня – ревью будет на неделю?

Сценарий: 2028-2030

AI 2027 – исследование от бывшего сотрудника OpenAI Дэниела Кокотайло и команды из 5 человек с фидбеком от 100+ экспертов. Прогноз: superhuman coder к 2027 – AI-система, которая делает всё, что лучший инженер AGI-компании, но быстрее и дешевле. К 2028 – AI-системы, автоматизирующие AI-исследования. Self-improving loop.

Звучит как фантастика. Но вот уточнение: после проверки на реальных данных 2025-2026 года, прогнозы скорректировали. Прогресс идёт на ~65% от предсказанной скорости. Кокотайло сдвинул свои таймлайны с 2028 на 2029. Так что, может, не 2027, а 2028-2029.

65% от «безумно быстро» – это всё ещё очень быстро.

Представьте 2029 год. Вы – тимлид. У вас «команда» из 20 AI-агентов. Один специализируется на фронте, другой на инфраструктуре, третий на тестах, четвёртый – секурити-ревьюер. Вы пишете спеку на естественном языке, декомпозируете на эпики. Агенты разбирают задачи, пишут код, ревьюят друг друга, гоняют тесты, деплоят в стейджинг. Вы ревьюите итоговые PR и принимаете архитектурные решения.

Cursor уже показал прототип с тысячей агентов. Anthropic делает Agent Teams. OpenAI – Codex App с параллельными агентами. Все идут в одну точку.

Только вот… тут мне вспоминается одна штука, и она меня не отпускает.

Бомба замедленного действия

Три дня назад я писал про кризис джуниоров. Гарвард отследил 62 миллиона работников в 285 000 компаний: при внедрении AI найм джунов падает на 9-10% за полтора года. Stack Overflow: доля джунов в IT-найме сползла с 15% до 7% за три года. Безработица среди выпускников CS – 6.1%, это больше, чем у филологов.

Все эти красивые сценарии с «20 агентов под управлением тимлида» предполагают, что тимлид существует. Что есть сеньоры, которые понимают архитектуру и могут ревьюить AI-код. Но если мы три года не нанимаем джунов – через 5 лет не будет мидлов, через 8 – сеньоров. CNBC назвал это talent doom cycle.

И вот тут два тренда сталкиваются лоб в лоб. С одной стороны – AI, который каждые 4 месяца удваивает свои возможности. С другой – индустрия, которая перестала выращивать людей, способных этим AI управлять.

Anthropic провели исследование и описали эффект «permanent beginners» – AI сглаживает кривую обучения настолько, что разработчик никогда не строит ментальную мышцу для работы со сложностью. Сеньоры держатся – у них мышца уже есть. А новые разработчики – те, кто учится с AI с первого дня – могут навсегда остаться на уровне «умею промптить, не умею дебажить прод в три ночи».

Может, к 2030 это не будет проблемой. Может, AI научится сам себя рефакторить и дебажить. Но я бы не ставил на это свой продакшен.

Гонка без финиша

Я начинал этот ресёрч с мыслью «найду победителя». Кто лучший AI-кодинг-инструмент в 2026?

Не нашёл.

Claude Code – лучший по качеству кода, но душит лимитами. Codex – отличный аналитик и неограниченный раб, но код пишет грубее. Gemini – дешёвый и быстрый, но неряшливый. Copilot – $10/мес, самый дешёвый вход. Cursor – другая парадигма, IDE, а не терминал, $16/мес.

Самые продуктивные разработчики, по данным Reddit, используют 2-3 инструмента. Copilot для автокомплита (+16-20). Codex для автономки и ревью (+$20). Итого $40-60 за весь стек. Год назад это была бы цена одного инструмента, который умел дописывать строчки.

Хотя, может, победитель и не нужен. Может, гонка – это и есть смысл. Пять CLI-агентов конкурируют, цены падают, качество растёт. Все выигрывают. Пока не проиграют.

Чего я боюсь (и чем восхищаюсь)

Не «AI заменит программистов». Это мы слышим три года. Пока что AI создал больше вакансий AI-инженеров, чем убил вакансий классических разработчиков.

Боюсь скорости. И того, что мы не успеваем осмыслить.

Год назад я вручную описывал AI структуру проекта. Сейчас он сам поднимает 9 субагентов, каждый ревьюит свою часть кода. Cursor гоняет тысячу агентов, которые за неделю пишут браузер. Контекст – ×5. Цена – ÷16. SWE-bench – +25%.

METR удваивает горизонт каждые 4 месяца. Cursor удваивает выручку за три. Anthropic, OpenAI и Google гонят не потому, что могут – а потому, что рынок доказал: разработчики платят. Это не исследование – это гонка вооружений с реальными деньгами.

При этом – Stack Overflow показывает: доверие к AI продолжает падать (29%), 52% разработчиков вообще не пользуются агентами. Между «84% пробовали» и «52% не пользуются» – яма. AI-код содержит в 1.7 раза больше багов. Ревью AI-кода занимает вдвое больше. Мы перестали нанимать людей, которые через 5 лет будут единственными, кто сможет разгребать всё это.

Может, через год всё разрешится. Может, AI научится ревьюить сам себя без слепых пятен. Может, self-driving codebases заработают не как эксперимент, а в проде.

А может – рванёт. Кодовые базы, написанные тысячами агентов, начнут гнить. Чинить их будет некому, потому что джунов не наняли, мидлов не вырастили, а сеньоры выгорели. И вся эта красивая инфраструктура из AI-агентов – упрётся в то, что ни один из них не понимает, зачем этот код вообще существует.

Не знаю. Через год проверим.

UPD: перечитал и заметил, что пишу «через год проверим» третий раз за последние три статьи. Видимо, это мой способ справляться – откладывать понимание на потом. Но цифры не ждут. Между тем как я написал про джунов (16 марта) и сегодня – Cursor выкатил cloud agents, OpenAI выпустил GPT-5.4 mini и nano, а Claude Code обновился дважды. Три дня. Два апдейта. Гонка не останавливается, даже когда ты пишешь статью о гонке.

Кстати, Redwood Research предупредили: Anthropic может не признать ошибку в прогнозах про AGI к 2027 вовремя. Так что все мои экстраполяции – тоже могут быть чушью. Единственный честный прогноз: через год мы будем удивлены. Опять.

Автор: diffnotes-tech

Источник

Запись добавлена: 19.03.2026 в 09:30
Оставлено в

Год назад Claude Code не умел составить план. Сейчас у него миллион токенов и 9 субагентов

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов