OpenAI, Anthropic и Google разделили лидерство в Intelligence Index 4.0. ai.. ai. gemini.. ai. gemini. openai.. ai. gemini. openai. Блог компании BotHub.. ai. gemini. openai. Блог компании BotHub. Будущее здесь.. ai. gemini. openai. Блог компании BotHub. Будущее здесь. ИИ.. ai. gemini. openai. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект.. ai. gemini. openai. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение.. ai. gemini. openai. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение.. ai. gemini. openai. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение. научно-популярное.. ai. gemini. openai. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение. научно-популярное. нейросети.

Платформа Artificial Analysis опубликовала четвертую версию Intelligence Index, одного из наиболее строгих рейтингов современных ИИ-моделей. В новой итерации отчет зафиксировал фактическое равенство сил между тремя крупнейшими игроками рынка. Формально первое место заняла GPT-5.2 в конфигурации X-High, однако Claude Opus 4.5 от Anthropic и Gemini 3 Pro от Google отстают на минимальную величину, которая укладывается в статистическую погрешность.

Главное отличие версии 4.0 заключается в методологии. Авторы рейтинга сознательно ужесточили тесты и отказались от привычных бенчмарков, которые за последние годы стали слишком оптимизированы под конкретные модели. В результате абсолютные оценки заметно снизились. Если ранее лидеры набирали более 70 баллов, то теперь потолок оказался около 50. Это не деградация моделей, а попытка вернуть измерениям реальную сложность.

Вместо AIME 2025 и MMLU-Pro были введены новые наборы задач. AA-Omniscience проверяет широту знаний и устойчивость к галлюцинациям. GDPval-AA оценивает практическую полезность ИИ в 44 профессиональных областях, от финансов до медицины. CritPt фокусируется на научном мышлении и умении работать с физическими и инженерными проблемами. Итоговый индекс собирается из четырех направлений: агентные способности, программирование, научное рассуждение и общие задачи.

Отчет также подчеркивает, что различия между топ-моделями все чаще проявляются не в среднем балле, а в профиле сильных и слабых сторон. Одни модели лучше справляются с агентными сценариями и сложными цепочками действий, другие демонстрируют более стабильное научное мышление или меньшую склонность к ошибочным выводам.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Автор: cognitronn

Источник

Rambler's Top100