Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года
Не так давно я уже устраивал битву между GPT-5, Gemini 3 Pro и Claude Opus 4.5. Затем рассмотрел Grok-4.1, после чего возникла идея расширить это сравнение и по итогам составить топ-5 лучших моделей среди указанных конкурентов.Сегодня в соревновании участвуют: GPT-5.2, Claude Opus 4.5, Gemini 3 Pro, DeepSeek v3.2 и Grok-4.1. Делайте ваши предположения - а я начинаю сравнение.
Мы тратим на ИИ в 2,4 раза больше, чем на ядерную программу в разгар Холодной войны. И что мы получили взамен?
Фото: Matt Park, Unsplash
OpenAI выпустили GPT-5.2-Codex
GPT-5.1-Codex-Max в прошлый раз сделал ставку на масштаб: компакция контекста и агентные циклы длиной в сутки. GPT-5.2-Codex развивает ту же идею, но делает её более надёжной и прикладной для реальных продакшн-сценариев.Если 5.1-Codex-Max показывал максимум на SWE-Bench и SWE-Lancer, то 5.2-Codex подтверждает прогресс уже на agent-ориентированных бенчмарках:SWE-Bench Pro: 56.4% (против 55.6% у GPT-5.2)Terminal-Bench 2.0: 64.0%, уверенное лидерство в реальных CLI-задачах

