- BrainTools - https://www.braintools.ru -

Google представила два новых режима работы в Gemini API — Flex и Priority. Они позволяют разработчикам выбирать, что важнее для конкретного запроса: минимальная стоимость или максимальная надёжность. Главное изменение в том, что теперь и фоновые, и критичные пользовательские задачи можно обслуживать через один и тот же синхронный интерфейс, без отдельной асинхронной логики через Batch API.
Flex Inference — это новый экономичный режим для задач, где не нужна мгновенная реакция [1]. Google заявляет, что он даёт до 50% экономии по сравнению со Standard API, но за счёт этого запросы получают меньший приоритет, могут выполняться медленнее и обслуживаться менее стабильно. Такой режим предлагают использовать для фоновых процессов: суммаризации больших объёмов текста, CRM-обновлений, исследовательских прогонов и агентных сценариев, где модель «думает» в фоне.
Priority Inference, наоборот, рассчитан на критичные сценарии — например, пользовательские чатботы, модерацию в реальном времени и другие latency-sensitive задачи. В этом режиме запросы получают более высокий приоритет. Если нагрузка превышает лимиты Priority, запросы не падают с ошибкой [2], а автоматически уходят в Standard tier. Google подаёт это как механизм для сохранения работоспособности приложения даже в пиковые моменты.
Другие новости и материалы по AI — в Telegram-канале NH | Новости технологий, AI и будущее. [3]
Технически всё выглядит довольно просто: разработчику достаточно указать параметр service_tier в запросе. При этом в ответе API можно увидеть, какой именно tier реально обслужил вызов, что полезно и для мониторинга, и для контроля биллинга.
На практике это выглядит как шаг в сторону более зрелой эксплуатации Gemini API. Пока LLM-сценарии были в основном про чат и генерацию, стандартного режима хватало. Но по мере роста агентных систем появляется заметно больше разнотипной нагрузки: где-то важна цена, где-то — отказоустойчивость, а где-то — предсказуемое поведение [4] без отдельного оркестратора асинхронных задач. Новые режимы Google как раз пытаются закрыть этот разрыв.
Вывод: здесь интереснее всего не сам факт появления ещё двух “тарифов”, а то, что Google фактически добавляет в Gemini API более явную модель управления production-нагрузкой: дешёвый режим для фона и приоритетный режим для критичных путей. Для разработчиков, которые строят агентов, copilots или внутренние корпоративные сценарии, это уже вполне прикладной апдейт, а не просто маркетинговое обновление.
Источник [5]
В канале NH | Новости технологий, AI и будущее [3] публикуем новости AI, полезные сервисы, автоматизацию и материалы о практическом применении нейросетей. Если нужна зарубежная карта [6]для оплаты сервисов, отдельный разбор можно почитать здесь [6].
Автор: NeuralDigest
Источник [7]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/28222
URLs in this post:
[1] реакция: http://www.braintools.ru/article/1549
[2] ошибкой: http://www.braintools.ru/article/4192
[3] NH | Новости технологий, AI и будущее.: https://t.me/neiro_office
[4] поведение: http://www.braintools.ru/article/9372
[5] Источник: https://blog.google/innovation-and-ai/technology/developers-tools/introducing-flex-and-priority-inference/
[6] карта : https://habr.com/ru/companies/tehrevizor/articles/1002466/
[7] Источник: https://habr.com/ru/companies/tehrevizor/news/1018924/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1018924
Нажмите здесь для печати.