Знаете, что общего между щенком лабрадора и корпоративным AI-проектом? Оба сначала кажутся милыми и недорогими, а через полгода жрут столько, что хочется плакать. Только щенок хотя бы ласкается, а нейронка просто молча выставляет счет за GPU. В этой статье мы вместе с Александром Меркушевым (AI-консультант, архитектор облачных и AI решений, руководитель экспертной группы по внедрению ИИ в Яндексе) разбираемся, как AI меняет структуру инфраструктурных затрат, что с этим делать уже сейчас и, главное, поможет ли тут FinOps.
Присоединяйтесь к нашему сообществу «Практики FinOps» в Telegram.
Почему AI снова заставляет считать стоимость железа
Последние лет пять казалось, что инфраструктура — это уже давно не проблема: саасы, паасы, бессерверные функции. Просто платишь по счетчику и в ус не дуешь. Даже думать особо не надо. Ну, если мы говорим про серверные стойки и мегаватты.
А потом пришел AI и сказал: мне нужны видеокарты. Много видеокарт. И памяти побольше. И электричества. И охлаждения. И желательно вчера.
Так мы откатились обратно. И вот уже опять пошли разговоры про физическое железо, закупки оборудования, стойки и мегаватты. Если раньше все крутилось вокруг того, какой тариф у провайдера выбрать, то теперь в центре внимания — GPU, видеопамять, пропускная способность, энергопотребление и даже регион размещения дата-центра. Просто потому что все это стоит денег.
А цифры говорят сами за себя. В России, по данным аналитиков «Турбо Облака», к концу 2025 года средняя стоимость аренды GPU у крупнейших облачных провайдеров превысила 130 тысяч рублей в месяц, увеличившись почти на треть всего за год.
Больше всего сейчас просят за топовые NVIDIA H200 на 141 ГБ. Их аренда в публичке может достигать полумиллиона рублей в месяц. А вот какая-нибудь NVIDIA A2 для задач вроде видеоаналитики будет стоить в районе 12 тысяч рублей. Ну, то есть разброс понятен.
Почему так происходит, в общем, понятно: дефицит памяти и полупроводников, переориентация Samsung и SK Hynix на высокомаржинальные чипы для AI, ну и рубль, который мотыляет то туда, то сюда (но чаще все-таки туда). Плюс – сама NVIDIA сегодня занимает 94% мирового рынка дискретных видеокарт в 2025 году. В общем, монополия, как она есть. А где монополия — там и цены, которые диктует один игрок.
Да, все это про публичку. Но тем, кто работает в онпреме, тоже не позавидуешь: стоимость одинакового по характеристикам оборудования может скакать даже в пределах нескольких дней — в зависимости от партии, логистики и, чего уж там, настроения поставщика. Поэтому компаниям, которые много работают с собственной инфраструктурой, приходится считать стоимость железа не разово при закупке, а на конкретный временной интервал. Это уже отдельная задача, и не самая простая. И это, заметьте, только начало.
Почему FinOps пока не справляется с AI
Казалось бы, FinOps как раз для этого и существует, чтобы считать, контролировать и оптимизировать. Хоть в публичке, хоть в ЦОДах, хоть в SaaS. Везде есть свои метрики, инструменты, модели бюджетирования. Все отработано.
А AI? AI пока как дальний родственник на юбилее — все с ним вроде бы знакомы, но никто не знает, с кем его лучше посадить. Есть даже мнение, что AI на текущий момент – это больше хайп, чем прикладная история, если смотреть именно с точки зрения FinOps. Сказывается новизна направления как такового. Поэтому пока не очень понятно, как оно будет встраиваться в бизнес-процессы и финмодели.
Цифры, впрочем, говорят сами за себя. По данным FinOps Foundation (отчет State of FinOps 2026), 98% респондентов уже управляют расходами на AI, хотя еще каких-то пару лет назад таких было 31%. Рост, мягко говоря, космический. Правда, не все до сих пор могут ответить на простой вопрос, приносит ли AI вообще хоть какую-то пользу. Но, как говорится, чем бы дитя ни тешилось.
У IDC данные еще интереснее: к 2027 году крупнейшие компании столкнутся с недооценкой затрат на AI-инфраструктуру аж на 30%. Не потому что много тратят, а потому что банально не умеют прогнозировать. А все потому, что модели расходов, которые работали для обычных облачных сервисов, к AI не очень-то применимы. Слишком много переменных: токены, инференс, обучение, дообучение, и все это с непредсказуемым потреблением ресурсов.
Так что AI в FinOps — это пока и близко не стандарт, а скорее набор практик, которые формируются прямо сейчас, на наших глазах. Кто разберется раньше — получит преимущество. А остальные будут разбираться потом, когда счет уже придет. И чтобы понять, почему так, достаточно посмотреть, как обычно устроены AI-проекты изнутри.
Откуда берутся неконтролируемые расходы на AI
AI-проекты почти всегда начинаются как серия экспериментов. Команда берет модель, запускает ее на кластере и смотрит, что из этого получается. Потом пробует другую. Потом третью. Параллельно разворачивает инфраструктуру для инференса, подключает новые данные, экспериментирует с конфигурациями. Короче, ничего особенного.
Вот только каждый такой эксперимент жрет GPU-часы, которые, между прочим, стоят реальных денег. И таких экспериментов одновременно может быть десять. А может и двадцать и даже тридцать. И никто заранее обычно не считает, сколько это счастье будет стоить, потому что “ну надо же попробовать”.
Поэтому не надо удивляться, что из-за такой вот безалаберности расходы начинают расти, расти и расти. Пока кто-нибудь наконец не предложит не жечь деньги компании, а взять и установить какие-то пределы: хоть в бюджетировании, хоть в резервировании, хоть в результативности.
Ведь в противном случае деньги будут уходить, а понятного результата можно так никогда и не получить. Как сказал один мой знакомый финдир: «Я не против AI. Я против AI, за который мы платим, но не понимаем зачем». Справедливо, чего уж.
Бюджет на AI-эксперименты: сколько выделить и как не потерять
Оптимизация – это, конечно, хорошо. Но главное на этом этапе не наделать ошибок. Потому что многие сразу начинают строить сложную схему, в которой потом сами же и вязнут. Не надо. Серьезно. Если компания только начинает пробовать AI и еще не понимает, даст ли это рабочий эффект, логичнее сделать проще. Определите сумму, которую готовы потратить без последствий, зафиксируйте ее и не мешайте с регулярными расходами на инфраструктуру.
Что это даст:
-
Во-первых, экспериментальные затраты не засоряют общую картину расходов;
-
Во-вторых, можно трезво оценить эффект — дает AI что-то полезное или просто красиво выглядит на презентации;
-
В-третьих, не нужно тратить дополнительные ресурсы на избыточную оптимизацию того, что, может быть, вообще не пойдет в прод.
Если кейс не подтвердился — закрываем и идем дальше без драмы. Ну, а если все-таки подтвердился, готовьтесь к самому интересному. Потому что расходы на AI — это не просто цена GPU в публичке. Многие думают, мол, выбрал провайдера подешевле — и всего делов.
Но на практике стоимость определяется не столько тарифом, сколько тем, как спроектирована сама система. Тут важно все: и размер модели, и требования к GPU, и частота инференса, и объем токенов. Ведь даже хороший промпт экономит деньги, тогда плохой — тупо сжигает их, и получается, что иногда достаточно просто пересмотреть архитектуру запросов, чтобы расходы упали в несколько раз.
Если все это не учитывать на этапе проектирования, потом оптимизировать будет сильно сложнее. Можно, конечно, и потом. Но лучше сразу.
Публичка, онпрем или гибрид: что выгоднее для AI
Естественно, мы хотим сделать как лучше. Поэтому тут встает вопрос, а где вообще запускать все это добро: в публичке или у себя? Как ни странно, ни там, и ни там. Потому что на практике AI лучше всего чувствует себя на гибридной инфраструктуре.
Логика тут простая: мы ведь не хотим сразу влететь на деньги? Не хотим. Значит, идем за проверкой кейсов в публичку, чтобы можно было не вкладываться в железо. Она вообще очень хороша для пилотов, проверки гипотез, коротких тестов и т.д. Да, в пересчете на GPU-час она дороже. Но это все равно дешевле, чем сразу вложить десятки миллионов в железо под кейс, который может и не взлететь.
Но, допустим, кейс взлетел, и что тогда? А вот тогда уже можно думать про онпрем: собирать под это дело отдельный кластер, считать TCO, выстраивать нормальную модель эксплуатации. На длинной дистанции свое железо при стабильной нагрузке действительно будет дешевле — это мы уже не раз разбирали. Но ключевое слово здесь – не “нагрузке”, а “стабильной”. Ведь на стадии экспериментов стабильности нет по определению. Поэтому и торопиться с покупкой железа не стоит.
Только, умоляю, не обманывайте сами себя: потому что неважно, где именно крутится нагрузка — в публичке или на своем железе. Без нормального контроля деньги утекут в любом случае. Хоть там, хоть там. Вопрос лишь в том, как быстро это произойдет.
Квоты, лимиты, отложенный инференс: что реально снижает расходы на AI
Но тратить деньги попусту – это же не про нас, верно? Значит, нужен контроль. И не когда-нибудь потом, а сейчас. Сразу. Потому что без него расходы будут расти и расти, а вы будете узнавать об этом постфактум, когда уже ничего исправить нельзя.
Значит действуем на опережение. Что нужно сделать:
-
Квоты и лимиты на токены. Первое и самое очевидное — ограничить потребление. Хоть на уровне пользователя, хоть на уровне команды. Вот пример из жизни: у сотрудника квота — 10 000 токенов в день. Выжигает ли он их? Да, конечно же, нет. Но потенциально может. А может и не он один. А теперь представьте, что таких сотрудников сотня. А может и двести. И каждый «потенциально может». Вот поэтому квоты — это не бюрократия, а банальная гигиена. Как мытье рук для бюджета.
-
Разделение GPU по задачам. Не надо гонять тесты на самых дорогих карточках. Ну, потому что зачем? Для песочницы вполне можно взять что-то попроще и разницы вообще не ощутить. H100 пусть работают на проде, а эксперименты – на A100 или L40S. Разница в цене — в разы, а для простых задач результат сопоставимый. Тут, к слову, есть хорошая практика: при закупке включать в заказ не только топовые карточки актуального поколения, но и карточки чуть постарше. Получить за них скидку (а скидки дают, это точно) и организовать на них недорогую песочницу для всяких экспериментов. Причём A100 — это не только про песочницу. Для инференса большинства моделей до 70B параметров их вполне хватает и на проде. Если задача не требует обучения с нуля и не упирается в скорость генерации на уровне единиц миллисекунд, A100 закрывает потребности с запасом. А стоит при этом ощутимо дешевле: аренда A100 в российских облаках начинается примерно от 90 тысяч рублей в месяц против 130+ за H100. На кластере из восьми карточек разница набегает в несколько сотен тысяч ежемесячно. Просто за счёт того, что не стали гнаться за самым свежим поколением.
-
Отложенный инференс. А вот это штука, про которую почему-то мало кто думает в принципе. Хотя далеко не все AI-задачи нужно выполнять прямо сейчас, в ту же секунду. Часть запросов вполне можно отложить на ночь — когда и электричество дешевле, и нагрузка на кластер меньше. Что это дает? Снижается пиковое потребление, не надо покупать кучу карточек под дневной пик, нагрузка размазывается по суткам более равномерно. В результате неудобств никаких, а экономия набегает приличная. Насколько приличная — проще показать на конкретных цифрах. У Yandex Cloud, к примеру, YandexGPT Pro в синхронном режиме стоит 1 200 рублей за миллион токенов. В асинхронном — 600 рублей. Та же самая модель, тот же самый результат, только ответ приходит не мгновенно, а в течение нескольких минут. Двукратная разница, и ради неё не нужно менять ни архитектуру, ни код, ни подход. Просто переключить режим. Для задач вроде пакетной обработки документов, генерации отчётов или ночного прогона аналитики — это, по сути, бесплатные деньги.
-
Оптимизация промптов. Звучит банально, но это работает. Меньше токенов тратишь на запрос — меньше платишь в деньгах. Тут можно зайти с двух сторон: либо пересмотреть архитектуру запросов и перестать гонять лишние токены, либо взять модель поменьше, если задача позволяет. Иногда этого хватает, чтобы срезать расходы в пару раз и притом без потери качества.
-
Цепочки маленьких моделей вместо одной большой. Это, пожалуй, самый неочевидный способ снизить расходы, но и самый мощный. Обычно бывает как: компания берёт самую большую модель, какую может себе позволить, и гоняет через неё всё подряд. Классификацию, поиск по базе, матчинг, генерацию ответа. Каждый запрос — несколько обращений к тяжёлой LLM, каждое обращение стоит денег. А ведь половина этих задач вообще не требует генеративного AI.
Впрочем, есть еще одна статья расходов, про которую почему-то на старте мало кто думает. А зря, потому что деньги там тоже крутятся немаленькие. Речь, конечно, об электроэнергии.
Одна карточка H100 потребляет порядка 700 ватт сама по себе. То есть на кластер из восьми штук уйдет уже 5,6 кВт. А ведь железу требуется охлаждение, которое летом жрет вдвое больше и, хуже того, в российских реалиях еще и дорожает на 20-30% в год.
Так что если уж копаться в оптимизации до конца, а в случае с AI копаться приходится, то смотреть важно не только на комплектующие, но и на такие, на первый взгляд, мелочи, как источник электричества. Откуда оно вообще берется? Из общей сети? От своей генерации? Свое ли охлаждение или арендованное? В каком регионе стоит дата-центр?
Потому что если задержка не критична (а для ряда AI-задач она действительно не критична — не все же нужно считать за миллисекунды), то можно расположить вычисления там, где электричество дешевле. Например, в России тарифы в разных регионах могут отличаться очень и очень прилично. Не в разы, конечно, но на больших объемах даже проценты дадут ощутимую разницу.
Как увидеть, куда утекают деньги на AI: дашборды и аллокация
Контроль контролем, а что насчет видимости? А с ней у большинства тех, кто пытается оптимизировать расходы на ИИ, прямо скажем, не очень. Потому что просто видеть общий счет за AI — это как знать, что за месяц ты потратил сто тысяч рублей, но не понимать, на что именно. Толку от такого знания – ноль. Значит, нужна структура.
Как это выглядит на практике? Да очень просто. Берем инфраструктуру и раскладываем на объекты, у каждого из которых есть ресурсы с понятной стоимостью:
-
CPU и память
-
Диски и хранилища
-
GPU
-
Трафик
-
Токены
-
Электричество
Эти объекты собираются в проекты, в каждом из которых тоже свой набор составляющих:
-
Вычисления
-
Софт
-
Хранение
-
Энергия
И один и тот же ресурс в разных проектах может стоить по-разному — это нормально. Ну, просто потому что контекст использования будет разным. Затем все это дело выводим в дашборды, раскидываем по центрам затрат — и вот уже видно, кто сколько потребляет, кто за что платит и где, собственно, утекает.
А дальше начинается самое интересное — для каждого типа ресурса нужно определить, что считается нормой, а что нет:
-
Если карточка загружена на 15% — зачем она вообще стоит?
-
Нагрузка на диск низкая — зачем SSD, может, обычного HDD хватит?
-
Токенов на одного пользователя уходит в десять раз больше, чем у остальных — тоже вопросики.
-
Потребление энергии на стойку аномально высокое — ну, в общем, вы поняли.
И работать тут можно не только с деньгами, но и с физическими метриками: фактическое потребление против выделенного, перцентили, медианы, максимумы. Знай только задавай правила, а система будет сама фиксировать отклонения. Примерно как в мониторинге, только не про аптайм, а про деньги.
Со временем это все станет частью стандартных процессов. Но пока мы в самом начале.
FinOps для AI: что можно делать уже сейчас
Несмотря на весь скептицизм, который присутствует в отрасли, AI уже создал новую категорию расходов. Да, устоявшихся стандартов управления ими пока нет. Но сами расходы-то от этого, правда, никуда не деваются, верно?
При этом почти никто толком не понимает, как их оптимизировать и вообще стоит ли то, что получается, тех денег, которые в это вкладываются. Тот же Gartner по итогам 2025 года определил генеративный AI в «яму разочарования» на кривой хайпа. Ну, это когда все уже наигрались, а толку пока немного. А все потому, что на одном хайпе далеко не уедешь. Тут понимание нужно.
Нужен тот, кто понимает и публичку, и онпрем, и оптимизацию токенов, и выбор карточек, и экономику электричества. Такая компетенция только формируется, на стыке инфраструктуры, финансов и AI. Поэтому доклады на эту тему собирают аншлаги, а материалы с жадностью вычитывают от корки до корки. Да, набор практик, которые помогают не утонуть и не дать расходам расползтись, есть. Но до устоявшейся методологии еще далеко.
Что можно делать уже сейчас? На самом деле кое-что можно:
-
Выделять AI в отдельную статью бюджета и не мешать с обычной инфрой.
-
Ограничивать эксперименты фиксированной суммой и не оптимизировать то, что еще не подтвердило ценность.
-
Не гонять тесты на дорогих карточках, если для песочницы есть варианты попроще.
-
Считать cost per token, потому что это, по сути, новая юнит-метрика. Ставить квоты.
-
Откладывать инференс на ночь, где можно.
-
Считать электричество.
-
Строить дашборды.
Но главное – не пытайтесь внедрить все сразу. Начните с малого. С понимания, куда именно уходят деньги. Потому что так это и работает: один проект, один аудит, первые результаты. А усложнить себе жизнь всегда успеете.
Автор: vazhendima


