
Не так давно, Anthropic представила модель Claude Opus 4.6, в след за которой буквально сразу появился быстрый режим. В версии fast модель генерирует около 100 токенов в секунду – в 2,5 раза быстрее предыдущей версии. Однако за скорость приходится платить. Стоимость использования выросла в 6 раз.
Пользователи Claude Code могут активировать новую модель командой /fast. При этом квота будет расходоваться быстрее, включая недельные и 5-часовые лимиты. В сообществе идет обсуждение возможных причин ускорения: от использования новых аппаратных решений, до снижения размера батча для ускорения генерации на пользователя.
В самой подписке Claude Code модель не добавили, нужно платить самому за API. Однако модель достаточно быстро появилась во многих агрегаторах нейросетей. Для примера, BotHub, где уже можно протестировать модель бесплатно, воспользовавшись специальной ссылкой, которая даст 300 000 капсов (внутренней валюты).
Некоторые люди почти уверены, что с точки зрения железа ничего не менялось. Можно уменьшить размер батча (количество одновременно обрабатываемых сессий), что приведет к быстрой генерации для каждого отдельного пользователя. Вместе с таким увеличением производительности, выручка с единицы GPU падает, и нужно повысить цену для компенсации.
Semianalysis с осени поддерживают InferenceMAX, в котором запускают разные модели на разных видеокартах. И, например, DeepSeek R1 при генерации 100 токенов в секунду на сессию выдает в среднем 6000 токенов в секунду на GPU, а при разгоне в 2.5 раза до 250 т/с – падает до 1000 токенов в секунду на GPU.

Таким образом количество токенов падает в 6 раз, цена растет, выручка и маржинальность не меняются.
Почему важен быстрый режим Claude Opus?
Во многих реальных условиях полезность ИИ ограничивается не его качеством, а скоростью отклика. Задержка всего в одну секунду может быть неприемлемой в финансовых, операционных и связанных с безопасностью рабочих процессах.
Модификация Claude Opus Fast Mod решает эту проблему, предоставляя возможность:
-
Более быстрые циклы принятия решений человеком и ИИ.
-
Сокращение времени ожидания в инструментах разработчика.
-
Более отзывчивые системы на основе искусственного интеллекта.
Для компаний, которые уже используют логические рассуждения уровня Opus, быстрый режим может устранить узкие места, связанные с задержкой.
Быстрый режим Claude Opus против стандартного режима
|
Особенность |
Стандартный режим |
Быстрый режим |
|---|---|---|
|
Модель |
Opus 4.6 |
Opus 4.6 |
|
Задержка ответа |
Оптимизировано для баланса |
Оптимизировано для скорости |
|
Экономическая эффективность |
Выше |
Ниже |
|
Лучше всего подходит для |
Общая рабочая нагрузка |
Срочные задачи |
|
Доступность |
Общий |
Ранний эксперимент |
Таблица демонстрирует, что быстрый режим – это не замена, а особая альтернатива.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту.
Автор: MrRjxrby


