Google добавила в Gemini API режимы Flex и Priority для управления ценой и надёжностью. Ai agents.. Ai agents. API.. Ai agents. API. cost optimization.. Ai agents. API. cost optimization. Data Engineering.. Ai agents. API. cost optimization. Data Engineering. Flex Inference.. Ai agents. API. cost optimization. Data Engineering. Flex Inference. Gemini API.. Ai agents. API. cost optimization. Data Engineering. Flex Inference. Gemini API. google.. Ai agents. API. cost optimization. Data Engineering. Flex Inference. Gemini API. google. Google App Engine.. Ai agents. API. cost optimization. Data Engineering. Flex Inference. Gemini API. google. Google App Engine. latency.. Ai agents. API. cost optimization. Data Engineering. Flex Inference. Gemini API. google. Google App Engine. latency. llm.. Ai agents. API. cost optimization. Data Engineering. Flex Inference. Gemini API. google. Google App Engine. latency. llm. Open source.. Ai agents. API. cost optimization. Data Engineering. Flex Inference. Gemini API. google. Google App Engine. latency. llm. Open source. Priority Inference.. Ai agents. API. cost optimization. Data Engineering. Flex Inference. Gemini API. google. Google App Engine. latency. llm. Open source. Priority Inference. Production.. Ai agents. API. cost optimization. Data Engineering. Flex Inference. Gemini API. google. Google App Engine. latency. llm. Open source. Priority Inference. Production. Блог компании NeyroHub.. Ai agents. API. cost optimization. Data Engineering. Flex Inference. Gemini API. google. Google App Engine. latency. llm. Open source. Priority Inference. Production. Блог компании NeyroHub. искусственный интеллект.
Google добавила в Gemini API режимы Flex и Priority для управления ценой и надёжностью - 1

Google представила два новых режима работы в Gemini API — Flex и Priority. Они позволяют разработчикам выбирать, что важнее для конкретного запроса: минимальная стоимость или максимальная надёжность. Главное изменение в том, что теперь и фоновые, и критичные пользовательские задачи можно обслуживать через один и тот же синхронный интерфейс, без отдельной асинхронной логики через Batch API.

Flex Inference — это новый экономичный режим для задач, где не нужна мгновенная реакция. Google заявляет, что он даёт до 50% экономии по сравнению со Standard API, но за счёт этого запросы получают меньший приоритет, могут выполняться медленнее и обслуживаться менее стабильно. Такой режим предлагают использовать для фоновых процессов: суммаризации больших объёмов текста, CRM-обновлений, исследовательских прогонов и агентных сценариев, где модель «думает» в фоне.

Priority Inference, наоборот, рассчитан на критичные сценарии — например, пользовательские чатботы, модерацию в реальном времени и другие latency-sensitive задачи. В этом режиме запросы получают более высокий приоритет. Если нагрузка превышает лимиты Priority, запросы не падают с ошибкой, а автоматически уходят в Standard tier. Google подаёт это как механизм для сохранения работоспособности приложения даже в пиковые моменты.

Другие новости и материалы по AI — в Telegram-канале NH | Новости технологий, AI и будущее.

Технически всё выглядит довольно просто: разработчику достаточно указать параметр service_tier в запросе. При этом в ответе API можно увидеть, какой именно tier реально обслужил вызов, что полезно и для мониторинга, и для контроля биллинга.

На практике это выглядит как шаг в сторону более зрелой эксплуатации Gemini API. Пока LLM-сценарии были в основном про чат и генерацию, стандартного режима хватало. Но по мере роста агентных систем появляется заметно больше разнотипной нагрузки: где-то важна цена, где-то — отказоустойчивость, а где-то — предсказуемое поведение без отдельного оркестратора асинхронных задач. Новые режимы Google как раз пытаются закрыть этот разрыв.

Вывод: здесь интереснее всего не сам факт появления ещё двух “тарифов”, а то, что Google фактически добавляет в Gemini API более явную модель управления production-нагрузкой: дешёвый режим для фона и приоритетный режим для критичных путей. Для разработчиков, которые строят агентов, copilots или внутренние корпоративные сценарии, это уже вполне прикладной апдейт, а не просто маркетинговое обновление.


Источник

В канале NH | Новости технологий, AI и будущее публикуем новости AI, полезные сервисы, автоматизацию и материалы о практическом применении нейросетей. Если нужна зарубежная карта для оплаты сервисов, отдельный разбор можно почитать здесь.

Автор: NeuralDigest

Источник