Google добавила в Gemini API режимы Flex и Priority для управления ценой и надёжностью

Google представила два новых режима работы в Gemini API — Flex и Priority. Они позволяют разработчикам выбирать, что важнее для конкретного запроса: минимальная стоимость или максимальная надёжность. Главное изменение в том, что теперь и фоновые, и критичные пользовательские задачи можно обслуживать через один и тот же синхронный интерфейс, без отдельной асинхронной логики через Batch API.

Flex Inference — это новый экономичный режим для задач, где не нужна мгновенная реакция ^[1]. Google заявляет, что он даёт до 50% экономии по сравнению со Standard API, но за счёт этого запросы получают меньший приоритет, могут выполняться медленнее и обслуживаться менее стабильно. Такой режим предлагают использовать для фоновых процессов: суммаризации больших объёмов текста, CRM-обновлений, исследовательских прогонов и агентных сценариев, где модель «думает» в фоне.

Priority Inference, наоборот, рассчитан на критичные сценарии — например, пользовательские чатботы, модерацию в реальном времени и другие latency-sensitive задачи. В этом режиме запросы получают более высокий приоритет. Если нагрузка превышает лимиты Priority, запросы не падают с ошибкой ^[2], а автоматически уходят в Standard tier. Google подаёт это как механизм для сохранения работоспособности приложения даже в пиковые моменты.

Другие новости и материалы по AI — в Telegram-канале NH | Новости технологий, AI и будущее. ^[3]

Технически всё выглядит довольно просто: разработчику достаточно указать параметр service_tier в запросе. При этом в ответе API можно увидеть, какой именно tier реально обслужил вызов, что полезно и для мониторинга, и для контроля биллинга.

На практике это выглядит как шаг в сторону более зрелой эксплуатации Gemini API. Пока LLM-сценарии были в основном про чат и генерацию, стандартного режима хватало. Но по мере роста агентных систем появляется заметно больше разнотипной нагрузки: где-то важна цена, где-то — отказоустойчивость, а где-то — предсказуемое поведение ^[4] без отдельного оркестратора асинхронных задач. Новые режимы Google как раз пытаются закрыть этот разрыв.

Вывод: здесь интереснее всего не сам факт появления ещё двух “тарифов”, а то, что Google фактически добавляет в Gemini API более явную модель управления production-нагрузкой: дешёвый режим для фона и приоритетный режим для критичных путей. Для разработчиков, которые строят агентов, copilots или внутренние корпоративные сценарии, это уже вполне прикладной апдейт, а не просто маркетинговое обновление.

Источник ^[5]

В канале NH | Новости технологий, AI и будущее ^[3] публикуем новости AI, полезные сервисы, автоматизацию и материалы о практическом применении нейросетей. Если нужна зарубежная карта ^[6]для оплаты сервисов, отдельный разбор можно почитать здесь ^[6].

Автор: NeuralDigest

Источник ^[7]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/28222

URLs in this post:

[1] реакция: http://www.braintools.ru/article/1549

[2] ошибкой: http://www.braintools.ru/article/4192

[3] NH | Новости технологий, AI и будущее.: https://t.me/neiro_office

[4] поведение: http://www.braintools.ru/article/9372

[5] Источник: https://blog.google/innovation-and-ai/technology/developers-tools/introducing-flex-and-priority-inference/

[6] карта : https://habr.com/ru/companies/tehrevizor/articles/1002466/

[7] Источник: https://habr.com/ru/companies/tehrevizor/news/1018924/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1018924

Нажмите здесь для печати.