- BrainTools - https://www.braintools.ru -

Сколько стоит интеллект? Как оптимизировать бюджет AI-проекта в 2025

Контекст 

AI может помочь снизить затраты, ускорить процессы или увеличить выручку. Однако, чтобы экономика проекта сходилась, нужно не только уметь качественно оценивать потенциальный эффект, но и уметь контролировать затраты.

Цель статьи — показать, как минимизировать расходы на AI-проект.

Дисклеймер: Рынок GenAI очень динамичен, и цены могут быстро меняться. Цены актуальны на момент написания (середина 2025 года) и могут измениться. Для простоты ограничимся только ценами на LLM.

Подходы к развертыванию AI продукта 

Существует два основных способа:

  • Собственное решение — используете open-source модели и запускаете их на собственной или арендованной инфраструктуре.

  • Модель как сервис (Model-as-Service) — когда вы подключаетесь к готовой модели через API и платите за объем использования.

Вариант 1: Собственное решение

Стоимость, в основном, складывается из стоимости инфраструктуры и ФОТ.

Собственная инфраструктура:

  • GPU-сервер для инференса моделей средних размеров: ~1-1.2 млн руб.

  • Высокие начальные затраты, но с учетом амортизации, если взять срок службы в 5 лет, то стоимость сервера — 16 667 – 20 000 руб./мес.

Альтернатива — облако:

  • Yandex Cloud [1]: ~ 430 тыс. руб./мес. 

  • Google Cloud [2] (g2-standard-24): ~ 131 тыс.  руб./мес. при курсе 90 руб. за доллар.  

  • Sber Cloud [3]: ~345 тыс. руб./мес. 

Цены без учета трафика, который тоже тарифицируется, так что это минимальная стоимость облачной инфраструктуры.

Команда:

  • AI Engineer (Senior): 520 000 руб

  • 0.5 Admin (Senior): 208 000 руб.

Выше учтены: зарплата (данные Sense group [4]), налоги и взносы за сотрудника компанией. 

Общая стоимость = ФОТ + инфраструктура:

  • Собственная инфра: ~ 744 тыс. руб./мес.

  • Google: ~ 859 тыс. руб./мес.

  • Yandex: ~ 1.13 млн руб./мес.

  • Sber: ~ 1.07 млн руб./мес.

Способы оптимизации стоимости:

  • Уменьшение моделей, а следовательно, и требований к инфраструктуре. Это делается либо через подбор более легкой модели, либо уменьшения выбранной (квантизация, обрезка модели) 

  • Для облака – FinOps оптимизации, долгосрочные контракты и скидки от провайдера

Когда подходит своя инфраструктура

  • Уже есть своя IT-команда и инфраструктура

  • Важно хранить данные внутри контура, есть персональные или чувствительные данные 

  • Планируется долгосрочная эксплуатация 

  • Подходит на объеме, одного сервера мало для обеспечения стабильности и отказоусточивости

Когда подходит облако 

  • Нет собственной большой IT-команды или нет ресурсов обеспечить высокие SLA

  • Нужно гибко и быстро масштабировать сервис в зависимости от нагрузки

  • Защиту данных тоже можно обеспечить

Вариант 2: Модель как сервис (API)

Цена зависит от количества запросов, выбранной модели, количества токенов (слов, частей слов) в запросе и ответе.

Ниже для каждого провайдера приведены диапазоны цен актуальных моделей от дешевой к дорогой. Для западных моделей цены переведены по курсу 90 руб. Для простоты сравнения все цены приведены к единым размерам – 1000 входящих + 1000 исходящих токенов.   

Модель

Компания

Вход 1000 токенов, руб

Выход 1000 токенов, руб

Запрос 1000+1000, руб

GPT-4.1 nano

OpenAI [5]

0,009

0,036

0,045

o3

OpenAI [5]

0,18

0,72

0,90

Haiku 3.5

Anthropic [6]

0,072

0,36

0,432

Opus 4

Anthropic [6]

1,35

6,75

8,10

Gemini 2.5 Flash

Google [7]

0,027

0,225

0,252

Gemini 2.5 Pro

Google [7]

0,225

1,35

1,575

GigaChat Lite

Sber [8]

0,2

0,2

0,4

GigaChat Max

Sber [8]

1,95

1,95

3,9

YandexGPT Lite

Yandex [9]

0,2

0,2

0,4

YandexGPT Pro

Yandex [9]

1,2

1,2

2,4

Давайте зафиксируем количество токенов на запрос и посчитаем сколько будет стоить API в месяц в зависимости от количества запросов в день. Сравним полученный результат со стоимостью собственного сервера.

Для дешевых моделей Yandex и Sber пробивают порог стоимости собственного сервера только при более 100 тыс. запросов в день

Для дешевых моделей Yandex и Sber пробивают порог стоимости собственного сервера только при более 100 тыс. запросов в день
Большинство флагманских моделей становятся дороже собственного сервера уже при  10 - 50 тыс. запросов в день, Claude уже при 5000.

Большинство флагманских моделей становятся дороже собственного сервера уже при 10 – 50 тыс. запросов в день, Claude уже при 5000.

Таким образом, цена на API сильно варьируется:

  • При увеличении количества запросов цена растет линейно

  • При увеличении количества входных токенов, скажем в 10 раз, цена вырастет в 2.5-3 раза на запрос.

  • Если увеличить выход, также в 10 раз, цена вырастет в примерно 8.2 раза на запрос.

  • Цена моделей также может отличаться в 6 – 20 раз в рамках одной компании, а также сильно варьироваться между провайдерами моделей. 

Команда:

Так как модель уже сделана, нужно просто интегрировать API и написать промпт, то можно существенно сэкономить на команде. 

  • Backend разработчик (0.2 ставки): 93 600 руб./мес. 

Выше учтены: зарплата (данные Sense group [4]), налоги и взносы за сотрудника компанией.  

Общая стоимость = ФОТ +  API:

При объемах в 2000 токенов на запрос и 5000 запросов в день – использование модели по API дешевле собственного сервера, даже при использовании топовых моделей.

  • Gemini 2.5 Pro: 236 250 руб./мес + 93 600 = 329 850 руб./мес.

  • YandexGPT Pro: 360 000 + 93 600 = 453 600 руб./мес.

  • GigaChat Max:  585 000  + 93 600 = 678 600 руб./мес

Однако при росте входного контекста, запросов или выхода моделей – цена быстро переходит порог. 

Способы оптимизации стоимости

  • Подбор более дешевых моделей

  • Инженерия промптов — писать коротко 

  • Кэширование контекста и идентичных запросов

  • Асинхронная/пакетная обработка — дешевле

  • Ограничение выходной части, где это возможно, генерация выходной последовательности – сильно дороже.

  • Также при наличии в команде AI/ML инженера можно дообучить модель под задачу — снижает количество токенов на входе, а также использовать алгоритмы сжатия промптов. 

Когда подходит

  • Дешевле при маленьких объемах – количество запросов и токенов

  • Нужно быстро протестировать гипотезу (MVP)

  • У компании нет своей AI-команды

  • Важна скорость вывода на рынок

Фреймворк управления затратами  

Подобьем резюме, как принимать решение и управлять костами:

  1. Нужна быстрая проверка гипотез? -> берём API и оцениваем ценность идеи 

  2. С самого начала следите за метриками: токены, запросы, рубли.

  3. Оптимизируйте API: батчевая обработка, замена моделей, кэш, сокращение токенов и т.д.

  4. Отслеживайте границу масштаба: OPEX API приближается к стоимости кластера? — пора считать варианты on-prem или облако.

  5. Переход к собственному решению: помните, что затраты не исчезают, а перераспределяются: вы больше не платите за модели и токены, но нужно больше вложений в людей и инфраструктуру. Переход требует дополнительных инвестиций, изменения процессов и новых компетенций. Однако при длительной эксплуатации и крупном объёме окупится.

Автор: pvp007

Источник [10]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/16921

URLs in this post:

[1] Yandex Cloud: https://yandex.cloud/ru/prices

[2] Google Cloud: https://cloud.google.com/compute/all-pricing?hl=ru

[3] Sber Cloud: https://cloud.ru/documents/tariffs/index.html#id1

[4] данные Sense group: https://sense-group.ru/analytics/tpost/ih49h0x7c1-zarplati-it-spetsialistov-v-rf-osnovnie#:~:text=%D0%A0%D0%BE%D1%81%D1%81%D0%B8%D1%8F%2520%D0%B8%D0%B4%D0%B5%D1%82%2520%D0%B2%2520%D0%BD%D0%BE%D0%B3%D1%83%2520%D1%81,%D0%BE%D1%80%D0%B8%D0%B5%D0%BD%D1%82%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D1%85%2520%D0%BD%D0%B0%D0%BF%D1%80%D0%B0%D0%B2%D0%BB%D0%B5%D0%BD%D0%B8%D1%8F%D1%85

[5] OpenAI: https://openai.com/api/pricing/

[6] Anthropic: https://www.anthropic.com/pricing#api

[7] Google: https://ai.google.dev/gemini-api/docs/pricing?hl=ru

[8] Sber: https://developers.sber.ru/docs/ru/gigachat/tariffs/legal-tariffs

[9] Yandex: https://yandex.cloud/ru/docs/foundation-models/pricing?utm_referrer=about%3Ablank

[10] Источник: https://habr.com/ru/articles/924486/?utm_source=habrahabr&utm_medium=rss&utm_campaign=924486

www.BrainTools.ru

Rambler's Top100