Anthropic против OpenAI: два разных подхода к «быстрому режиму». anthropic.. anthropic. cerebras.. anthropic. cerebras. Claude Opus 4.6.. anthropic. cerebras. Claude Opus 4.6. openai.. anthropic. cerebras. Claude Opus 4.6. openai. батчинг.. anthropic. cerebras. Claude Opus 4.6. openai. батчинг. быстрый режим LLM.. anthropic. cerebras. Claude Opus 4.6. openai. батчинг. быстрый режим LLM. инференс нейросетей.. anthropic. cerebras. Claude Opus 4.6. openai. батчинг. быстрый режим LLM. инференс нейросетей. производительность LLM.. anthropic. cerebras. Claude Opus 4.6. openai. батчинг. быстрый режим LLM. инференс нейросетей. производительность LLM. ускорение моделей ИИ.

Недавно Anthropic и OpenAI объявили о запуске «быстрого режима» — способа работать с их лучшей моделью для программирования на значительно более высокой скорости.

Эти два варианта устроены совершенно по-разному. У Anthropic скорость достигает 2,5× токенов в секунду (примерно 170 вместо 65 у Opus 4.6). У OpenAI — более 1000 токенов в секунду (вместо 65 у GPT-5.3-Codex, то есть ускорение в 15 раз). Таким образом, быстрый режим OpenAI примерно в шесть раз быстрее, чем у Anthropic[1].

При этом у Anthropic есть важное преимущество: они выдают реальную модель. В их быстром режиме используется настоящий Opus 4.6, тогда как у OpenAI вместо полноценного GPT-5.3-Codex работает GPT-5.3-Codex-Spark. Spark действительно намного быстрее, но заметно уступает по возможностям: для многих задач его хватает, однако он чаще путается и ошибается при вызове инструментов — то, чего обычный GPT-5.3-Codex не делает.

Откуда такие различия? Лаборатории не раскрывают технические детали реализации быстрых режимов, но с большой вероятностью дело обстоит так: у Anthropic ускорение достигается за счёт инференса с низким размером батча, а у OpenAI — за счёт специализированных гигантских чипов Cerebras. Разберёмся подробнее.

Как работает быстрый режим Anthropic

Ключевой компромисс в экономике инференса ИИ — это батчинг, поскольку основное ограничение связано с памятью. GPU очень быстрые, но передача данных на них — нет. Перед началом инференса необходимо скопировать на GPU все токены пользовательского запроса[2]. Если объединять запросы нескольких пользователей в батч, общая пропускная способность растёт, но пользователям приходится ждать, пока батч заполнится.

Это можно сравнить с тем, как устроена пассажироперевозка. Если бы автобусы отправлялись сразу, как только в них заходит один пассажир, поездки были бы быстрее для тех, кому удалось сесть. Но общая пропускная способность резко упала бы, а остальные люди ждали бы на остановке часами.

Быстрый режим Anthropic по сути даёт «проездной», при котором автобус отправляется сразу после посадки. Это стоит в шесть раз дороже, потому что вы фактически оплачиваете места для потенциальных попутчиков, но работает значительно быстрее[3] — ожидания отправления нет.

Правка: один читатель справедливо заметил, что «ожидание автобуса» влияет только на первый токен, поэтому это не отражается на стриминговой задержке (а лишь на задержке одного хода или вызова инструмента). Корректнее считать, что основной эффект размера батча в том, что меньшие батчи требуют меньше вычислений и выполняются быстрее. В терминах аналогии — «лёгкий автобус едет быстрее».

Разумеется, это лишь предположение. Возможно, Anthropic использует новый сверхбыстрый вычислительный ресурс или алгоритмический приём. Однако такой вариант маловероятен: серьёзные аппаратные или алгоритмические изменения обычно требуют модификации модели (как в случае OpenAI), а соотношение «в шесть раз дороже — в 2,5 раза быстрее» соответствует ожидаемому выигрышу при переходе к малым батчам.

Как работает быстрый режим OpenAI

У OpenAI всё устроено иначе. Это видно уже по тому, что для быстрого режима используется отдельная, более слабая модель. Если бы дело было только в размере батча, в этом не было бы необходимости. Более того, в анонсе прямо указано, что быстрый режим основан на сотрудничестве с Cerebras.

Партнёрство с Cerebras было объявлено в январе. Cerebras производит «вычислительные системы с ультранизкой задержкой», что на практике означает гигантские чипы. Чип H100 (почти на переднем крае инференса) занимает чуть больше квадратного дюйма. Чип Cerebras — около 70 квадратных дюймов.

Anthropic против OpenAI: два разных подхода к «быстрому режиму» - 1

На фотографиях видно характерную сетчатую структуру с отверстиями. Кремниевые пластины такого размера обычно разрезают на десятки чипов. Cerebras же формирует один огромный чип на всей поверхности.

Чем больше чип, тем больше встроенной памяти можно разместить. Идея в том, чтобы иметь достаточно SRAM, чтобы целиком разместить модель и выполнять инференс полностью в памяти. Обычно объём SRAM на GPU измеряется[4] десятками мегабайт, поэтому значительная часть времени уходит на подгрузку весов модели из внешней памяти в вычислительные блоки4. Если же всё считывать напрямую из SRAM (которая значительно быстрее), инференс ускоряется — примерно в пятнадцать раз.

Сколько памяти у последнего чипа Cerebras? 44 ГБ. Это ставит OpenAI в непростое положение. 44 ГБ достаточно для небольшой модели (около 20 млрд параметров в fp16 или 40 млрд при int8-квантизации), но явно недостаточно для GPT-5.3-Codex. Поэтому и предлагается новая модель, а у Spark ощущается «запах маленькой модели»: это уменьшенная distil-версия гораздо более крупного GPT-5.3-Codex[5].

Правка: это предположение оказалось неверным — Codex почти наверняка больше и не обязан целиком помещаться в SRAM одного чипа (если бы помещался, скорость была бы выше). Комментаторы на Hacker News указали на это. Тем не менее Spark вполне может целиком находиться в SRAM (распределённо по нескольким чипам Cerebras), что и даёт прирост скорости.

Подход OpenAI технически сложнее

Любопытно, что две ведущие лаборатории выбрали разные пути ускорения инференса. Если допустить конспирологическую версию событий, она могла бы выглядеть так:

  1. OpenAI заключает партнёрство с Cerebras в середине января, чтобы запустить свою модель на их быстрых чипах

  2. Anthropic не имеет аналогичного ресурса, но понимает, что OpenAI в феврале представит очень быстрый инференс, и хочет появиться в новостной повестке

  3. Anthropic быстро реализует доступное им решение — уменьшение размера батча в существующем стеке

  4. Anthropic, вероятно, публикует анонс за несколько дней до готовности сложной интеграции Cerebras у OpenAI, чтобы создать впечатление, что OpenAI их копирует

С технической точки зрения достижение OpenAI сложнее. Запустить модель на чипах Cerebras — нетривиальная задача из-за их специфики. Обучить distil-версию GPT-5.3-Codex на 20–40 млрд параметров так, чтобы она оставалась приемлемой по качеству, тоже непросто. При этом Anthropic нашла способ опередить новость, что для неспециалистов останется незаметным. Это напоминает скрытый запуск Responses API у OpenAI в середине 2025 года, позволивший скрыть reasoning-токены.

Станет ли быстрый инференс следующим крупным направлением?

Когда обе ведущие лаборатории выпускают такую фичу, можно подумать, что ускорение инференса — их новый главный приоритет. Скорее всего, это не так. Если предыдущая гипотеза верна, Anthropic не особенно заинтересована в скорости как таковой — им важно не выглядеть отстающими. OpenAI же исследует возможности партнёрства с Cerebras. Пока неясно, какие модели реально можно эффективно размещать на таких чипах, насколько они будут полезны и оправдается ли экономика.

Лично мне формат «быстро, но слабее» кажется малоценным. Я пробовал его в Codex и остался недоволен. Полезность ИИ-агентов определяется количеством ошибок, а не скоростью. Получить шестикратное ускорение ценой роста числа ошибок на 20% — сомнительный обмен, потому что основное время пользователя уходит на исправление ошибок, а не на ожидание ответа модели[6].

Тем не менее нельзя исключать, что быстрый, менее мощный инференс станет базовым строительным блоком ИИ-систем. Claude Code уже использует Haiku для отдельных операций. Возможно, OpenAI будет применять Spark аналогичным образом.

Правка: в обсуждении на Hacker News появились полезные комментарии. Во-первых, уточнение: Cerebras уже предлагает модель около 355 млрд параметров — GLM-4.7 — со скоростью 1000 токенов в секунду, так что предположение о размещении Spark в SRAM одного чипа неверно. Вероятно, Spark распределяется по нескольким чипам, как и GLM-4.7.

Многие комментаторы спорили о характеристиках батчинга. Одни утверждали, что при непрерывном батчинге никто не «ждёт автобуса», или что объём запросов к моделям Anthropic делает время ожидания несущественным. Другие обсуждали, является ли узким местом межчиповая коммуникация при инференсе и влияет ли объединение чипов на пропускную способность.

Я понимаю непрерывный батчинг лишь на базовом уровне, но даже при нём необходимо дождаться освобождения слота (пусть и не завершения всего предыдущего батча), поэтому компромисс между пропускной способностью и задержкой сохраняется.

Правка: один читатель предложил альтернативное объяснение быстрого режима Anthropic — более агрессивное speculative decoding. Такой подход расходует больше токенов, но может дать ускорение в 2,5 раза при более высокой стоимости (поскольку параллельно выполняются и отбрасываются несколько прогонов большой модели). Я не верю в это полностью: крупные лаборатории, скорее всего, уже применяют speculative decoding, а на длинных последовательностях его надёжность снижается. Однако такой вариант возможен.

Здесь даже не учитывается задержка. Anthropic прямо предупреждает, что время до первого токена может оставаться высоким (или даже увеличиться), тогда как OpenAI считает задержку Spark достаточно низкой, чтобы перейти на постоянное websocket-соединение (то есть 50–200 мс на установление соединения для них уже значимая доля времени до первого токена).

Русскоязычное сообщество про AI в разработке

Anthropic против OpenAI: два разных подхода к «быстрому режиму» - 2

Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-ассистентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!

Автор: python_leader

Источник

Rambler's Top100