- BrainTools - https://www.braintools.ru -
Контекст
AI может помочь снизить затраты, ускорить процессы или увеличить выручку. Однако, чтобы экономика проекта сходилась, нужно не только уметь качественно оценивать потенциальный эффект, но и уметь контролировать затраты.
Цель статьи — показать, как минимизировать расходы на AI-проект.
Дисклеймер: Рынок GenAI очень динамичен, и цены могут быстро меняться. Цены актуальны на момент написания (середина 2025 года) и могут измениться. Для простоты ограничимся только ценами на LLM.
Существует два основных способа:
Собственное решение — используете open-source модели и запускаете их на собственной или арендованной инфраструктуре.
Модель как сервис (Model-as-Service) — когда вы подключаетесь к готовой модели через API и платите за объем использования.
Собственная инфраструктура:
GPU-сервер для инференса моделей средних размеров: ~1-1.2 млн руб.
Высокие начальные затраты, но с учетом амортизации, если взять срок службы в 5 лет, то стоимость сервера — 16 667 – 20 000 руб./мес.
Альтернатива — облако:
Yandex Cloud [1]: ~ 430 тыс. руб./мес.
Google Cloud [2] (g2-standard-24): ~ 131 тыс. руб./мес. при курсе 90 руб. за доллар.
Sber Cloud [3]: ~345 тыс. руб./мес.
Цены без учета трафика, который тоже тарифицируется, так что это минимальная стоимость облачной инфраструктуры.
Команда:
AI Engineer (Senior): 520 000 руб
0.5 Admin (Senior): 208 000 руб.
Выше учтены: зарплата (данные Sense group [4]), налоги и взносы за сотрудника компанией.
Собственная инфра: ~ 744 тыс. руб./мес.
Google: ~ 859 тыс. руб./мес.
Yandex: ~ 1.13 млн руб./мес.
Sber: ~ 1.07 млн руб./мес.
Уменьшение моделей, а следовательно, и требований к инфраструктуре. Это делается либо через подбор более легкой модели, либо уменьшения выбранной (квантизация, обрезка модели)
Для облака – FinOps оптимизации, долгосрочные контракты и скидки от провайдера
Уже есть своя IT-команда и инфраструктура
Важно хранить данные внутри контура, есть персональные или чувствительные данные
Планируется долгосрочная эксплуатация
Подходит на объеме, одного сервера мало для обеспечения стабильности и отказоусточивости
Нет собственной большой IT-команды или нет ресурсов обеспечить высокие SLA
Нужно гибко и быстро масштабировать сервис в зависимости от нагрузки
Защиту данных тоже можно обеспечить
Цена зависит от количества запросов, выбранной модели, количества токенов (слов, частей слов) в запросе и ответе.
Ниже для каждого провайдера приведены диапазоны цен актуальных моделей от дешевой к дорогой. Для западных моделей цены переведены по курсу 90 руб. Для простоты сравнения все цены приведены к единым размерам – 1000 входящих + 1000 исходящих токенов.
|
Модель |
Компания |
Вход 1000 токенов, руб |
Выход 1000 токенов, руб |
Запрос 1000+1000, руб |
|
GPT-4.1 nano |
OpenAI [5] |
0,009 |
0,036 |
0,045 |
|
o3 |
OpenAI [5] |
0,18 |
0,72 |
0,90 |
|
Haiku 3.5 |
Anthropic [6] |
0,072 |
0,36 |
0,432 |
|
Opus 4 |
Anthropic [6] |
1,35 |
6,75 |
8,10 |
|
Gemini 2.5 Flash |
Google [7] |
0,027 |
0,225 |
0,252 |
|
Gemini 2.5 Pro |
Google [7] |
0,225 |
1,35 |
1,575 |
|
GigaChat Lite |
Sber [8] |
0,2 |
0,2 |
0,4 |
|
GigaChat Max |
Sber [8] |
1,95 |
1,95 |
3,9 |
|
YandexGPT Lite |
Yandex [9] |
0,2 |
0,2 |
0,4 |
|
YandexGPT Pro |
Yandex [9] |
1,2 |
1,2 |
2,4 |
Давайте зафиксируем количество токенов на запрос и посчитаем сколько будет стоить API в месяц в зависимости от количества запросов в день. Сравним полученный результат со стоимостью собственного сервера.
Таким образом, цена на API сильно варьируется:
При увеличении количества запросов цена растет линейно
При увеличении количества входных токенов, скажем в 10 раз, цена вырастет в 2.5-3 раза на запрос.
Если увеличить выход, также в 10 раз, цена вырастет в примерно 8.2 раза на запрос.
Цена моделей также может отличаться в 6 – 20 раз в рамках одной компании, а также сильно варьироваться между провайдерами моделей.
Команда:
Так как модель уже сделана, нужно просто интегрировать API и написать промпт, то можно существенно сэкономить на команде.
Backend разработчик (0.2 ставки): 93 600 руб./мес.
Выше учтены: зарплата (данные Sense group [4]), налоги и взносы за сотрудника компанией.
При объемах в 2000 токенов на запрос и 5000 запросов в день – использование модели по API дешевле собственного сервера, даже при использовании топовых моделей.
Gemini 2.5 Pro: 236 250 руб./мес + 93 600 = 329 850 руб./мес.
YandexGPT Pro: 360 000 + 93 600 = 453 600 руб./мес.
GigaChat Max: 585 000 + 93 600 = 678 600 руб./мес
Однако при росте входного контекста, запросов или выхода моделей – цена быстро переходит порог.
Подбор более дешевых моделей
Инженерия промптов — писать коротко
Кэширование контекста и идентичных запросов
Асинхронная/пакетная обработка — дешевле
Ограничение выходной части, где это возможно, генерация выходной последовательности – сильно дороже.
Также при наличии в команде AI/ML инженера можно дообучить модель под задачу — снижает количество токенов на входе, а также использовать алгоритмы сжатия промптов.
Дешевле при маленьких объемах – количество запросов и токенов
Нужно быстро протестировать гипотезу (MVP)
У компании нет своей AI-команды
Важна скорость вывода на рынок
Подобьем резюме, как принимать решение и управлять костами:
Нужна быстрая проверка гипотез? -> берём API и оцениваем ценность идеи
С самого начала следите за метриками: токены, запросы, рубли.
Оптимизируйте API: батчевая обработка, замена моделей, кэш, сокращение токенов и т.д.
Отслеживайте границу масштаба: OPEX API приближается к стоимости кластера? — пора считать варианты on-prem или облако.
Переход к собственному решению: помните, что затраты не исчезают, а перераспределяются: вы больше не платите за модели и токены, но нужно больше вложений в людей и инфраструктуру. Переход требует дополнительных инвестиций, изменения процессов и новых компетенций. Однако при длительной эксплуатации и крупном объёме окупится.
Автор: pvp007
Источник [10]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/16921
URLs in this post:
[1] Yandex Cloud: https://yandex.cloud/ru/prices
[2] Google Cloud: https://cloud.google.com/compute/all-pricing?hl=ru
[3] Sber Cloud: https://cloud.ru/documents/tariffs/index.html#id1
[4] данные Sense group: https://sense-group.ru/analytics/tpost/ih49h0x7c1-zarplati-it-spetsialistov-v-rf-osnovnie#:~:text=%D0%A0%D0%BE%D1%81%D1%81%D0%B8%D1%8F%2520%D0%B8%D0%B4%D0%B5%D1%82%2520%D0%B2%2520%D0%BD%D0%BE%D0%B3%D1%83%2520%D1%81,%D0%BE%D1%80%D0%B8%D0%B5%D0%BD%D1%82%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D1%85%2520%D0%BD%D0%B0%D0%BF%D1%80%D0%B0%D0%B2%D0%BB%D0%B5%D0%BD%D0%B8%D1%8F%D1%85
[5] OpenAI: https://openai.com/api/pricing/
[6] Anthropic: https://www.anthropic.com/pricing#api
[7] Google: https://ai.google.dev/gemini-api/docs/pricing?hl=ru
[8] Sber: https://developers.sber.ru/docs/ru/gigachat/tariffs/legal-tariffs
[9] Yandex: https://yandex.cloud/ru/docs/foundation-models/pricing?utm_referrer=about%3Ablank
[10] Источник: https://habr.com/ru/articles/924486/?utm_source=habrahabr&utm_medium=rss&utm_campaign=924486
Нажмите здесь для печати.