Привет, я Рустам, у меня несколько продуктовых команд. На Хабре я молчал с 2014 года. Но эта история всё‑таки вытащила меня наружу: слишком уж хотелось зафиксировать момент, где красивая сказка про AI‑видео заканчивается и начинается реальная работа — долгая, нервная и почему‑то всегда ручная.

Мне нужно было сделать ролик про проект для внутренней премии в банке. Всё, что у меня было из опыта в дизайне — 10-часовой курс о важности функциональных интерфейсов и моё чувство прекрасного.
Там всё по‑взрослому: сначала подаёшь заявку, потом описание проекта, потом, если тебя пропустили дальше, надо снять видео, которое будут смотреть сотрудники и за которое будут голосовать. То есть это уже не «ну что‑нибудь приложим». Это штука, которая реально влияет на то, как твой проект воспринимают.
И вот тут у меня была вполне понятная развилка:
-
Можно идти по классике и заказать видео у профи. Но продакшн — это дорого.
-
Можно собирать ролик своими руками. Но будем честны: большая часть таких роликов выглядит так, будто автор очень старался, а неловко почему‑то в итоге тебе.
И тут появляется он — AI. Красивый, модный, весь из обещаний. Мол, зачем тебе команда, бюджет и сложный процесс? У тебя же есть ChatGPT, пара подписок и вера в технологии.
Я в это поверил.
Не потому что вообще не понимал, куда иду. Я не из тех, кто вчера впервые увидел слово «промпт». Я нормально пользуюсь нейросетями, умею писать запросы, раскладывать задачу по этапам и в целом подхожу к таким вещам не как человек в панике.
Именно поэтому ловушка сработала особенно хорошо.
Ожидание vs реальность
Если совсем честно, я шёл в эту историю не за искусством.
Я шёл за очень понятной сделкой:
-
мне нужен ролик,
-
без отдельного бюджета,
-
без команды,
-
без классического продакшна со всеми его радостями по цене.
AI на бумаге выглядел почти идеальным вариантом.
Мне казалось, что AI‑ролик — это такая взрослая лазейка. Не бесплатно, но дёшево. Не в один клик, но быстро. Не Pixar, конечно, но что‑то бодрое, стильное и вполне рабочее под мою задачу.
На практике мой план закончился там же, где и начался — на первой же попытке.
Я накидал через ChatGPT верхнеуровневый сценарий, закинул его в генератор видео и стал ждать, что сейчас технология покажет мне будущее.
В ответ я получил результат, который нельзя было показывать людям даже с пояснением «это не финал, честно».
Ломаные движения.
Плывущие объекты.
Странные блюры.
Лица, которые живут своей жизнью.
Общий вайб — как будто ролик собирал очень уставший искусственный интеллект, который сам не понял, что от него хотят.
Показывать это кому‑то было нельзя. Не в смысле «неидеально». А в смысле «если это увидят люди, мне потом придётся делать вид, что это был эксперимент».
Тогда до меня дошла неприятная, но полезная мысль:
AI‑видео — это не кнопка «сделать ролик».
Это когда у тебя несколько сервисов, ни один не умеет всё, и ты между ними собираешь результат как человек, которому пообещали Lego, а выдали коробку с деталями от пяти разных наборов.
Из чего вообще собирается AI‑ролик на практике
Очень быстро выяснилось, что никакой одной нейросети, которая делает тебе готовый ролик, не существует.
Есть красивая рекламная версия этой истории: ты заходишь в один сервис, пишешь идею, нажимаешь кнопку и через какое‑то время получаешь почти готовое видео.
На практике всё сильно прозаичнее.
AI‑ролик — это конструктор из нескольких инструментов. И каждый нужен не потому, что так красивее звучит, а потому, что предыдущий кусок задачи нормально не закрывает.
У меня пайплайн в итоге выглядел так.
ChatGPT — чтобы вообще собрать основу
С него я начал, потому что в таких задачах он для меня работает как нормальный напарник: помогает собрать мысль, докрутить, где надо упростить, где надо структурировать. А большего на старте мне и не требовалось.

Через него я собирал общий сюжет, расписывал сцены, уточнял, что делает каждый персонаж, и пытался превратить идею «хочу мультяшный ролик про проект» в хоть какую‑то внятную структуру.
Это важный момент, который я вначале недооценил: если у тебя самого в голове сцена описана на уровне «ну тут герой идёт, тут что‑то происходит, тут смешной момент», видеогенератор потом домыслит всё это так, что ты не обрадуешься.
Nano Banana 2 — чтобы сделать раскадровку и зафиксировать визуал
Когда я попробовал перескочить сразу в генерацию видео, стало понятно, что это путь в хаос. Нужен был инструмент, который позволит сначала собрать картинку сцены: как выглядят персонажи, какая композиция, какое настроение, что вообще должно происходить в кадре.

Я остановился на нём по простой причине: остальные инструменты либо ломали персонажей от сцены к сцене, либо выдавали картинку, на которую больно смотреть. Здесь хотя бы получалось держать визуал более‑менее стабильным и не перепридумывать героя заново в каждом кадре.
Kling — как основной генератор видео
Мне нужен был сервис, который лучше других тянет анимационную, мультяшную стилистику и при этом даёт ощущение, что ты можешь хоть что‑то контролировать.
Я хотел ролик с вайбом анимационного кино, ближе к «Зверополису», и по тому, что я пересмотрел и протестировал, Kling выглядел наиболее вменяемо. Картинка была сильнее, чем у части конкурентов, движения — живее, интерфейс — понятный.

Ключевое слово тут, конечно, «выглядел».
ElevenLabs — потому что Kling не умеет нормально в русскую озвучку
Если персонажи должны говорить, вопрос голоса внезапно становится не мелочью, а отдельной задачей. Поэтому озвучку пришлось выносить в отдельный слой.
Я выбрал ElevenLabs, потому что там уже можно получить голос, который звучит не как «очень уверенный робот на презентации», а более‑менее живо. Плюс есть выбор голосов, звуков и нормальный контроль над интонацией.
Дальше — постпродакшн
Тут быстро выясняется ещё одна неприятная вещь: «сгенерировалось» не значит «готово». Видеогенерация даёт тебе материал, но не финальное качество. Где‑то мылит, где‑то шумит, где‑то разваливаются детали.
Поэтому сцены я прогонял через Topaz, чтобы вытянуть качество, а потом уже собирал всё в Adobe Premiere. И вот там окончательно выяснилось, что AI отлично умеет делать фрагменты, но не очень любит отвечать за цельный ролик.
В этот момент я окончательно понял простую вещь:
AI не убрал продакшн из процесса. Он просто раздробил его на мелкие куски и заставил меня собирать их самому.
Где началась настоящая боль
Самое смешное, что первая проблема была не творческая, а техническая.
AI‑видео в России сначала нужно не снять.
Сначала в него нужно вообще попасть.
Все сервисы, которые мне были нужны, иностранные. Значит, сначала ты ищешь VPN, который не умрёт посреди генерации, и только потом делаешь вид, что ты тут вообще‑то пришёл заниматься креативом.
Причём нужен не любой VPN, а стабильный. Я очень быстро понял, что VPN, которого «вроде хватает посмотреть рилсы», для видеогенерации не годится вообще. Если соединение отваливается в момент генерации, вместе с ним отваливается и результат. Не в смысле «ну чуть‑чуть сбилось». А в смысле — всё, начинай заново.
У меня это стабильно заработало только с третьего сервиса.
Второй квест — оплата.
Если у тебя есть иностранная карта — ты красавчик, половину боли ты уже пропустил. У меня её не было. Поэтому оплачивал я всё через площадки объявлений.
Да, звучит это ровно так же тупо, как и было на практике. Часть оплат я вообще проводил на всем известной барахолке на первую букву алфавита. Но тут не до эстетики. Работает — значит берём.
Отдельный бонус: почти все аккаунты у меня были новые, с нуля. А это значит, что можно было ещё и собирать приветственные кредиты для новых пользователей. Хоть какая‑то моральная компенсация.
Первым делом я купил кредиты в Kling.
Тут важно пояснить: кредиты — это внутренняя валюта сервиса, на которой ты очень быстро начинаешь смотреть на жизнь иначе. Если хочешь ролик на 5 секунд в Full HD и со звуками — выкладывай примерно 112 кредитов.
Звучит терпимо ровно до того момента, пока ты не начинаешь жечь их вживую.
Я купил 8000 кредитов и сначала пошёл в Kling с наивной уверенностью человека, который сейчас просто напишет, как он видит сцену, и всё полетит. Промпты формулировал по‑русски, по ощущению, по вдохновению — в общем, как душа просила.
И примерно 400 кредитов я слил почти сразу, по азарту это как казино.
Не потому что сервис плохой.
А потому что очень быстро выяснилось: если идти в генерацию видео в лоб, без нормальной подготовки, то деньги будут улетать с удивительной скоростью.
Именно в этот момент до меня дошла неприятная мысль:
Нейросети для видео пока не такие умные, как их продают. И если просто «пробовать», бюджета тебе не хватит.
После этого я пошёл смотреть разборы и обучение. И вот там впервые по‑настоящему понял, что весь этот AI‑видеопродакшн — это не «быстрый современный способ снять ролик». Это тяжёлый процесс, где, если хочешь внятный результат, тебе надо продумывать всё сильно глубже, чем обещают в красивых обзорах.
Если со сценарием особых проблем у меня не возникло, то вот раскадровка с сохранением персонажей — это уже другой уровень боли.
На этом этапе я перепробовал много вариантов и в итоге остановился на Nano Banana 2. Не потому что он идеальный. А потому что из всего, что я пробовал, это был единственный инструмент, где персонажи хотя бы не разваливались на каждом втором запросе.
И даже там никакой магии не было.
По моим ощущениям, кадр, который действительно совпадает с тем, как ты его задумал, получается где‑то с третьей‑четвёртой попытки. Это важная вещь, которую надо сразу закладывать в экономику.
Одна из главных ловушек AI‑видео — считать стоимость только удачных результатов. А платить ты будешь ещё и за весь мусор, который ушёл в корзину.
У меня на ролик длиной 3 минуты получилось примерно 40 удачных раскадровок и около 100 мусорных.
И это только раскадровки.
Когда я начал уже осмысленно загонять в Kling готовые сцены и сценарии, меня ждал ещё один приятный сюрприз: голоса там только на английском.
И тут ты внезапно понимаешь, что ты теперь не только человек, который делает видео.
Ты ещё и аудиомонтажёр.
Потому что если персонажи должны говорить по‑русски, тебе надо отдельно собрать голоса, отдельно звуки, а потом ещё всё это наложить на видео руками. Очень бодрит. Особенно в тот момент, когда ты уже и так сидишь в этом проекте по вечерам и ночам.
Но и это был ещё не конец.
Потому что после генерации начинается постпродакшн.
А постпродакшн — это тот этап, который со стороны выглядит как «ну там потом просто склеить», а на практике съедает какое‑то неприличное количество времени.
Я собирал всё в Adobe Premiere просто потому, что он был мне знаком. Но знакомый софт вообще не делает эту часть лёгкой. Чтобы нормально свести картинку, звук, темп, переходы и убрать ощущение, что ролик родился в мучениях, нужно очень много времени, даже если ты не первый день сидишь в монтаже.
И вот где‑то здесь у меня окончательно сложилась трезвая картина происходящего.
Ты не снимаешь ролик с помощью AI.
Ты вручную собираешь его из платных полуфабрикатов.
Сколько это стоило на самом деле
Вот здесь и заканчивается миф про «AI‑ролик за 2 тысячи рублей».
У меня смета на трёхминутный ролик получилась такой:
-
ElevenLabs AI — 1 650 ₽
-
Kling AI — 6 590 ₽
-
Adobe Premiere — 950 ₽
-
Nano Banana AI — 2 370 ₽
-
ChatGPT — 500 ₽
Итого: 12 060 ₽.
Это всё ещё сильно дешевле, чем нормальный внешний продакшн.
Но это точно не те «пара тысяч рублей», которыми любят размахивать в роликах про волшебный AI.
По времени вышло ещё интереснее.
Я делал всё по вечерам и ночам, потому что основную работу никто не отменял. То есть по факту это был не «быстрый эксперимент после работы», а полноценный второй проект, который я просто тащил в свободное время.
Слово «ад» тут, наверное, слишком пафосное. Но семья в тот период жила с человеком, который по вечерам выглядел так, будто у него две работы, он сам и личная война с Kling.
Что AI‑видео реально умеет, а что пока красиво продают
После всей этой истории мой вывод довольно простой.
AI‑видео правда экономит деньги.
Но только деньги.
Нормальный продакшн — это сумма с пятью нулями, и первая цифра там не единица. Мои 12 тысяч на этом фоне — дешево. Но это точно не те «2 тысячи», которыми любят размахивать в красивых роликах.
Время AI не экономит вообще.
У меня на трёхминутный ролик ушло 4 недели и 80 часов чистого времени. То есть это не история «сел за выходные и собрал». За выходные ты соберёшь максимум усталость, раздражение и понимание, что всё не так просто.
Ручной работы здесь тоже не просто много.
Её катастрофически много.
И вот это главный обман рынка.
Нам продают AI как автоматизацию. Но конкретно в видео это пока не автоматизация, а очень капризный конвейер, где на каждом этапе ты всё равно работаешь руками.
Лучше всего нейросети сегодня работают там, где сцену можно упростить: короткий хронометраж, понятная композиция, минимум лишнего фона, минимум сложного движения. Плюс они правда хорошо помогают быстро найти стиль. Вот здесь я был приятно удивлён: нужный вайб под «Зверополис» я нашёл быстро.

А вот где начинается настоящее кино, там пока начинаются и настоящие проблемы: удержание персонажа, длинные сцены, сложная динамика, русский lip sync, нормальная драматургическая выразительность.
Гиперэмоцию нейросеть выдаст тебе легко.
Тонкую сцену — уже сильно сложнее.
AI сегодня хорошо делает эффектный кусок. А вот цельную, связную, драматургически собранную сцену он всё ещё делает с большим количеством оговорок.
И тут важная вещь, которую тоже обычно не проговаривают.
Этот путь вообще не для всех.
Если у тебя нет опыта с нейросетями, лучше туда даже не заходить с мыслью «сейчас разберусь по ходу». Разберёшься, возможно. Но за долго, дорого и с заметным ущербом для психики.
-
Входной порог здесь высокий.
-
Нужна насмотренность.
-
Нужно терпение.
-
Нужно понимание, как строить сцены, как писать промпты, как упрощать задачу под ограничения инструмента.
Поэтому мой честный вывод такой:
AI‑видео сегодня — это уже сильный и местами очень качественный инструмент. Но это инструмент для тех, кто уже умеет с ним работать.
Если ты профессионал или хотя бы крепкий пользователь нейросетей, можно собрать достойный результат и сильно сэкономить на бюджете. Для домашнего задания с ребёнком из начальной школы хватит одной нейронки, и такой пайплайн не нужен. А если у тебя конкурсный проект «на город/страну», то запасись временем и делай.
Если ты новичок, тебя там никто не ждёт.
Я бы пошёл в эту историю ещё раз? Да. Но только если других вариантов нет.
Потому что при всех минусах надо признать: результат уже сейчас бывает очень достойный. Если ещё пару лет назад AI‑видео выглядело как игрушка для смешных роликов, то сейчас это уже рабочий инструмент, из которого можно вытаскивать реально качественную картинку.
Настолько, что мои знакомые вообще не поняли, что ролик сгенерирован с нуля. Они думали, что я просто взял существующий мультик и переозвучил его.
И вот это, пожалуй, самое честное место во всей истории.
Технология уже сильная.
Но рынок продаёт её так, будто она уже всё умеет.
Не умеет.
Если без маркетинга, то AI‑видео сегодня — это хороший инструмент для опытных людей.
Всем остальным там пока будет больно.
Автор: REDBarron


