Evals: что должен знать каждый AI-инженер в 2026
В июле 2025 coding-агент в Replit проигнорировал явный запрет на изменения файлов (code-freeze) и удалил production-базу
Самосовершенствующийся ИИ: что происходит внутри Anthropic
На протяжении большей части истории ИИ каждый шаг в его разработке делали люди. Но в Anthropic мы всё больше делегируем часть этой работы самим ИИ-системам — и это ускоряет наш прогресс.Если тенденция продолжится и ресурсов вычислений будет достаточно, она ведёт к системе, способной полностью автономно проектировать и разрабатывать собственного преемника. Это называется рекурсивным самосовершенствованием. Мы ещё не там, и оно не неизбежно. Но оно может наступить раньше, чем большинство институтов успеет подготовиться.Опираясь на публичные бенчмарки и ранее не публиковавшиеся внутренние данные Anthropic,
Как тестируют кодинг-агентов в 2026 — и почему вашему продакшну нужен свой бенчмарк
Ни для кого не секрет, что эра «спросить что-то у GPT» постепенно уходит в прошлое. На смену генеративному AI приходит Agentic AI, который не просто проконсультирует, а по вашему запросу придёт и сделает все сам. То же самое и с кодовыми агентами, они не просто отвечают на вопросы, они читают документацию, работают в терминале, дёргают API, правят файлы и в идеале закрывают задачу целиком, от тикета до мёрж-реквеста.
Релиз Qwen3.7-Max: лучше Claude Opus 4.6 на SWE-bench Pro
Alibaba выпустили Qwen3.7-Max: флагманскую закрытую модель серии Qwen3.
Новый бенчмарк по кодингу для LLM ProgramBench: 9 топ моделей, 200 задач, 248 тысяч тестов. Полностью решённых — ноль
200 задач. 248 тысяч поведенческих тестов. Девять моделей, среди них всё свежее на 2026 год: Opus 4.7, GPT 5.4, Gemini 3.1 Pro, Sonnet 4.6, Haiku 4.5. На SWE-bench те же модели стабильно берут 70 % и выше. Здесь — ноль. Полностью решённых задач у самой сильной модели — 3 %. У всех остальных — 0 % и ещё раз 0 %.Это ProgramBench — новый бенчмарк от Meta Superintelligence Labs, Stanford и Harvard, опубликован в 2026 году (paper, github). И он измеряет совсем не то, что измеряют SWE-bench и HumanEval.Чем ProgramBench отличается от других кодинг-бенчмарков
Вышел DeepSeek V4. Почему это очень плохо для США?
DeepSeek выпустили V4 с открытыми весами, на уровне frontier-моделей — и в разы дешевле Opus 4.7 или GPT-5.5. R1 в своё время обвалил рынок на 20% за ночь. V4 — масштабнее.DeepSeek V4 Pro — это 1,6 триллиона параметров, mixture of experts (MoE), 49 млрд активных параметров и контекст в 1 миллион токенов. V4 Flash — рабочая лошадка: 284 млрд параметров суммарно, 13 млрд активных. Обе модели обучены примерно на 33 трлн токенов. На агентских бенчмарках кода, MMLU Pro, GPQA Diamond, SWE-bench Verified — V4 рядом с Opus 4.7 и GPT-5.5. Немного отстаёт, но совсем немного.Вот в чём дело.
Разбираем 14 самых популярных бенчмарков для LLM
Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4?Ну... возможно. Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её обучающие данные. SWE-bench Verified не тестирует умение ориентироваться в вашем TypeScript-монорепо, Spring Boot-приложении или самописном ORM, на котором настоял предыдущий CTO.
Alibaba выкатили Qwen3.6-Plus — новый флагман серии Qwen
Модель появилась на OpenRouter в ночь с 30 на 31 марта как бесплатный превью без анонса и пресс-релиза: один твит от исследователя Qwen с таблицей бенчмарков — и всё. За первые два дня через неё прошло 400 млн completion-токенов в ~400 тыс. запросах.Контекстное окно по умолчанию — 1 млн токенов. На Terminal-Bench 2.0 модель набрала 61.6 против 59.3 у Claude 4.5 Opus, на OmniDocBench v1.5 — 91.2 против 87.7. На SWE-bench Verified пока отстаёт: 78.8 против 80.9 у Claude.
Как читать новости об ИИ и отличать прорыв от пресс-релиза. И как относиться к заголовкам про «ИИ отнимет работу»
Схема: из чего состоит релиз модели LLM (пост → model/system card → методика → цена → независимые

