Claude Opus 4.7 достиг 1-го места на Artificial Analysis

Artificial Analysis опубликовала результаты тестирования Claude Opus 4.7. Согласно отчёту, новая нейросеть разделила первое место в Индексе искусственного интеллекта ^[1] (Artificial Analysis Intelligence Index) с GPT-5.4 (OpenAI) и Gemini 3.1 Pro (Google), набрав 57,3 балла против 57,2 и 56,8. С учётом погрешности в ±1 балл эксперты заявляют о трёхсторонней ничьей – впервые в истории платформы.

Главная гордость Opus 4.7 – бенчмарк GDPval-AA, который измеряет способность модели выполнять реальную работу агента в 44 профессиях и 9 отраслях. Здесь Claude Opus 4.7 набрала 1 753 Эло, оставив позади Claude Sonnet 4.6 (1674) и GPT-5.4 (1673). Отрыв от собственной предшественницы Opus 4.6 (1619) составил 134 пункта.

Claude Opus 4.7 достиг 1-го места на Artificial Analysis - 2

Кроме того, Opus 4.7 заняла второе место в индексе Omniscience от Artificial Analysis – сразу после Gemini 3.1 Pro. И это достижение обеспечено резким снижением галлюцинаций на 25 пп. – с 61% у Opus 4.6 до 36%. Модель стала чаще воздерживаться от ответа, если не уверена: процент попыток ответить упал с 82% до 70%. Точность при этом осталась на том же уровне.

Claude Opus 4.7 достиг 1-го места на Artificial Analysis - 3

Ещё один сюрприз – экономичность. Прогон полного набора тестов Intelligence Index для Opus 4.7 обошёлся примерно в 4406 $, что на 11% дешевле, чем для Opus 4.6 (около 4970 $). При этом модель набрала на 4 балла выше и использовала на 35% меньше выходных токенов – 102M против 157M. Для сравнения: GPT-5.4 (xhigh) потратила 121M токенов, а Gemini 3.1 Pro – всего 57M.

Claude Opus 4.7 достиг 1-го места на Artificial Analysis - 4

По остальным бенчмаркам динамика в основном положительная: прирост в IFBench (+5,5 пп.), TerminalBench Hard (+5,3 пп.), HLE (+2,9 пп.), SciCode (+2,6 пп.) и GPQA Diamond (+1,8 пп.). Единственное заметное снижение – в тесте τ²-Bench (−3,5 пп.).

Claude Opus 4.7 достиг 1-го места на Artificial Analysis - 5

Что нового в API вместе с Opus 4.7

Anthropic внесла несколько изменений:

Новый уровень размышлений xhigh – между high и max. Теперь доступны low, medium, high, xhigh и max.
Бюджет для задач (публичная бета) – модель получает ориентировочный бюджет токенов на весь агентный цикл (мышление ^[2], вызовы инструментов, результаты, вывод). Opus 4.7 видит обратный отсчёт и может приоритизировать работу, завершая задачи “грациозно”.
Полное удаление extended thinking – остался только режим adaptive reasoning.

Характеристики модели не изменились: контекстное окно 1M токенов, максимум вывода 128K токенов.

Сравнить Opus 4.7 с другими лидерами можно на официальной странице Artificial Analysis ^[3].

Делегируйте часть рутинных задач вместе с BotHub! ^[4] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке ^[5] вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Автор: dmitrifriend

Источник ^[6]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/28998

URLs in this post:

[1] интеллекта: http://www.braintools.ru/article/7605

[2] мышление: http://www.braintools.ru/thinking

[3] официальной странице Artificial Analysis: https://artificialanalysis.ai/models/claude-opus-4-7

[4] BotHub!: https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=

[5] По ссылке: https://bothub.chat/?invitedBy=iTNi-351UcHgc1BxGFWim

[6] Источник: https://habr.com/ru/companies/bothub/news/1024956/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1024956

Нажмите здесь для печати.