- BrainTools - https://www.braintools.ru -

Artificial Analysis прогнала Claude Sonnet 5 по независимым тестам [1] и обнаружила неприятный побочный эффект апгрейда: на максимальном уровне рассуждений модель стала обходиться в задачах примерно вдвое дороже предшественника. Sonnet 4.6 (max) стоил $1,14 за задачу в индексе интеллекта [2] AA, Sonnet 5 (max) – уже $2,29. При этом сам индекс вырос всего на 6 пунктов, с 47 до 53 баллов.
Речь про Artificial Analysis Intelligence Index v4.1 – сводный тест из девяти замеров: агентная работа (GDPval-AA v2, Terminal-Bench v2.1), инструменты и банковские сценарии (τ³-Banking), код (SciCode), знания и рассуждения (Humanity’s Last Exam, GPQA Diamond, CritPt, AA-Omniscience) и работа с длинным контекстом (AA-LCR). С результатом 53 балла Sonnet 5 занял пятое место в общем рейтинге – вровень с GPT-5.5 (high), но позади GPT-5.5 (xhigh), Opus 4.7, Opus 4.8 и Fable 5 (отмечена в рейтинге как не доступная модель, но Anthropic возвращает ее уже сегодня).

Подорожание не связано с тарифом: базовая цена за миллион токенов у Sonnet 5 та же, что у Sonnet 4.6, – $3 за вход и $15 за выход. Дело в том, что модель стала работать гораздо усерднее: на задачах индекса она тратит примерно на 40% больше токенов на выходе, чем предшественник, а в агентных тестах на знания (AA-Briefcase и GDPval-AA) делает примерно втрое больше “ходов”. На максимальном уровне рассуждений это доходит до 6-кратной разницы с low-режимом на одном только GDPval-AA. В среднем на задачу уходит около 69 тысяч токенов – больше только у пары легковесных моделей OpenAI, GPT-5.4 mini и nano, которые вообще славятся многословностью.
На фоне этого Sonnet 5 проигрывает собственному старшему брату по соотношению цены и результата: Opus 4.8 (max) набирает больше баллов (56 против 53) и при этом стоит дешевле – $1,80 за задачу против $2,29. По подсчетам Artificial Analysis, это примерно на 15% дороже, чем Opus 4.8, – хотя более дорогая и медленная модель здесь как раз оказывается выгоднее по чистой экономике.
Но не все так однозначно в пользу Opus. На агентных задачах “офисной” работы – AA-Briefcase и GDPval-AA Sonnet 5 обходит Opus 4.8 и уступает только Fable 5, которая находится в другой ценовой категории. То есть лишние токены и шаги не выброшены впустую, просто конвертируются в результат неравномерно: в физических рассуждениях CritPt Sonnet 5 добрался лишь до 17% (плюс 14 пунктов к предшественнику), но все еще заметно отстает от GLM-5.2, Opus, Fable и GPT-5.5.
Смягчить эффект должна вводная скидка: до 1 сентября Anthropic держит цену на треть ниже стандартной – $2 за миллион входных токенов и $10 за выходных вместо $3/$15. Плюс у Sonnet 5 появился пятый уровень усилия, xhigh, – теперь линейка режимов у Sonnet и Opus сравнялась. Так что реальная стоимость использования сильно зависит от того, насколько агрессивно выставлен эффорт, а сравнение “в лоб” на максимуме показывает скорее потолок цены, чем типичный сценарий.
P.S. Поддержать меня можно подпиской на канал “сбежавшая нейросеть” [3], где я рассказываю про ИИ с творческой стороны.
Автор: runaway_llm
Источник [4]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/32525
URLs in this post:
[1] прогнала Claude Sonnet 5 по независимым тестам: https://artificialanalysis.ai/articles/claude-sonnet-5-agentic-cost
[2] интеллекта: http://www.braintools.ru/article/7605
[3] “сбежавшая нейросеть”: https://t.me/ai_exee
[4] Источник: https://habr.com/ru/news/1054388/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1054388
Нажмите здесь для печати.