- BrainTools - https://www.braintools.ru -

Кейс: НейроДудь

Осенью я давал интервью для документального фильма Высшей школы экономики “После промпта [1]“. В сам фильм попал небольшой фрагмент, и я долго думал что делать с остальным материалом. Так появился НейроДудь.

ВК версия [2]

Если не считать монтажа самого интервью, работа над роликом заняла около трёх дней. Расскажу о ключевых этапах.

Визуал

Вначале нужно было сделать самого Дудя. Я сразу отказался от реалистичного варианта. Во-первых, это перебор, во-вторых, эффект зловещей долины был бы гораздо сильнее.

И это оказалось сложнее, чем я планировал. Потому что надо было решать сразу три задачи:

  • Дизайн локации должен хорошо монтироваться с основной сценой

  • Нужно было придумать дизайн самого робота

  • Робот должен быть похож на Дудя

Первые варианты выглядели как-то так:

Т-1000 был бы доволен

Т-1000 был бы доволен

Для генерации я использовал Nano Banana Pro. Попробовал разные нейросетки, но остановился на ней, так как детали нужно было дорабатывать итерациями. На работу с деталями способен и ChatGPT, но результат получался хуже.

Однако, я использовал ChatGPT, чтобы дорабатывать промт для Nano Banana. Без этого у меня получался то лысый краш-тестер:

Кейс: НейроДудь

То наш с Дудём внебрачный сын с голым животом и коленками:

Кейс: НейроДудь

Который в какой-то момент решил ещё и раздеться:

Чем-то неуловимо похож на лысого из Бразерс

Чем-то неуловимо похож на лысого из Бразерс

Спустя сутки мучений появился вариант, который меня более-менее устроил:

Кейс: НейроДудь

Осталось доработать окружение, цветокоррекцию и добавить привычную одежду:

Кейс: НейроДудь - 6

Ещё я пытался сделать ему фирменные скрещенные ноги, но после нескольких часов попыток, решил, что лучшее – враг хорошего, и такой Дудь нам не нужен:

Нейросеть решила, что для этой позы нужно поменять и стул

Нейросеть решила, что для этой позы нужно поменять и стул

Следующим бастином было лицо. Мне не нравился текущий дизайн и я пустился в эксперименты:

Весь спектр эмоций Дудя

Весь спектр эмоций [3] Дудя

Вот этот вариант мне нравился фирменной ухмылкой:

Кейс: НейроДудь

Кейс: НейроДудь

Но почему я от него отказался вы поймёте, когда дойдём до анимации. В конечном итоге, в финальный ролик попала доработанная версия одного из первых вариантов:

Кейс: НейроДудь

Кейс: НейроДудь

Достаточно похож, достаточно отличается, выглядит как следователь на допросе. В общем, то что нужно, чтобы пугать детей.

Синтез голоса

Этот этап был одновременно сложным и простым.

Простым, потому что Elevenlabs [4] позволяет быстро и достаточно точно синтезировать голос. Но чтобы получился хороший результат, нужно собрать хороший референс – исходник реальной речи говорящего, и вот в этом была сложность.

Мне пришлось отсмотреть 4-часовое интервью Дудя и вырезать все моменты, где говорит он. Причём нужны были моменты, где он что-то спрашивает, у него тогда появляются характерные интонации.

И боже, как я устал. Классно его слушать фоном, когда чем-то занимаешься, но когда ты вынужден прям смотреть и искать моменты именно с Юрой, и смотреть прям на Юру – это отдельный вид пытки.

*звуки страданий

*звуки страданий

Вам наверняка интересно, сколько минут говорит сам Дудь в своих интервью. И вот вам бессмысленный факт, о котором никто не просил. Юра говорит примерно 40 минут в интервью, которое длится 4 часа. Не благодарите.

Анимация

И вот мы подошли к самому интересному. Чтобы сделать анимацию с липсинком, есть два подхода: простой и сложный.

Сложный выглядит так: вы берёте Runway [5] и выбираете там режим “Act-Two”. Дальше нужно снять себя на камеру в нужном ракурсе, сделать вид, что вы Юра Дудь, который задаёт вопросы. Дальше в Premiere подставить вместо своего голоса, голос Дудя, так чтобы он совпадал с губами. И скормить это видео Runway вместе с референсной картинкой, которую мы подготовили на предыдущем шаге.

Тогда генерация была бы классной, НейроДудь активно бы двигался, а его губы хорошо попадали в текст. Но я понял, что так заморачиваться не готов. Сразу было понятно, что этот ролик на грани корректности.

Сомнительная история, с точки зрения [6] авторских прав, да и сам Ютуб легко бы мог его снести по просьбе Юры. (Юра, пожалуйста не кидай страйк). Прикольный эксперимент, но на постоянной основе точно так делать не стоит.

Поэтому я решил пойти по простому пути. Для этого есть сервис HeyGen [7]. Он позволяет загрузить картинку и речь, чтобы получить видео, где нейросеть очень старается сделать липсинк. И даже пробует немного шевелить персонажа. В большинстве говорящих ИИ-картинках вы видите результат работы именно этого сервиса.

Но с ним тоже пришлось помучаться. Помните улыбающегося Дудя? Вот причина, по которой я отказался от этого дизайна:

Кейс: НейроДудь - 12

В процессе анимации это стал кто угодно, но только не Дудь. Нейросеть воспринимает улыбку, как базовые черты лица и из-за этого анимация становится странной. К тому же по голосу слышно, что человек не улыбается.

Но и с более строгим дизайном пришлось намучаться. Чаще всего проблема была в том, что нейросеть слишком сильно растягивала рот на акцентных моментах. Да и липсинк пока далёк от идеала.

Кейс: НейроДудь - 13

Один раз НейроДудь даже впал в экзистенциальный кризис:

Кейс: НейроДудь - 14

Чуть проще было генерить вставки с реакциями Дудя. Делал я их с помощью нейросетей “Kling O1” и “Seedance 1.5” на платформе Кrea [8]. Например тут пытался воссоздать фирменный возмущённый взгляд в камеру:

Кейс: НейроДудь - 15

В конечном итоге, НейроДудь получился хоть и криповым, но всё равно достаточно залипательным.

Кроме Дудя я сделал круглого робота, который влетает в кадр со мной. Он нужен, чтобы чуть удержать внимание [9] зрителя вначале ролика, пока они привыкают к говорящему.

Кейс: НейроДудь - 16

Визуал робота генерировал в Reve [10] – это мой основной инструмент для создания отдельных объектов. Анимацию делал с помощью “Seedance 1.5” на платформе Кrea [8]. В сцену добавил с помощью After Effects.

Оформление

Интервью Дудя сложно представить, без его фирменной отбивки. Только нужно было поменять музыку, чтобы ютуб автоматически не жаловался на авторские права.

Кейс: НейроДудь - 17

Новый логотип сгенерировал с помощью той же Nano Banana, а ремикс на джингл в Stable Audio [11] – это такая Suno [12] курильщика. Пробовал вначале Suno, но сходу не получилось, а Stable сделал с первой попытки то, что нужно. Но за чем-то сложнее туда ходить точно не надо.

Итог

1. Это было весело.
2. Вся работа заняла примерно 3 дня
3. Если прикинуть общую подписку на сервисы и покупку токенов, то получится в районе $150

После интервью для Вышки я сел писать большую серию статей [13], где детальнее рассказал свой взгляд на будущее, а этот ролик стал классным дополнением.

Судя по коментам на ютубе, людям тоже зашло.

ВК версия [2]

Спасибо, что прочитали, накидайте вопросов в комментариях

Автор: Kesha_S

Источник [14]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/24463

URLs in this post:

[1] После промпта: https://www.youtube.com/watch?v=t1CUp8NiGmg

[2] ВК версия: https://vk.com/video-235432536_456239017

[3] эмоций: http://www.braintools.ru/article/9540

[4] Elevenlabs: https://elevenlabs.io/

[5] Runway: https://runwayml.com/

[6] зрения: http://www.braintools.ru/article/6238

[7] HeyGen: https://app.heygen.com/

[8] Кrea: https://www.krea.ai/app

[9] внимание: http://www.braintools.ru/article/7595

[10] Reve: https://app.reve.com/home

[11] Stable Audio: https://stability.ai/stable-audio

[12] Suno: https://suno.com/

[13] серию статей: https://t.me/skirnevsky/630

[14] Источник: https://habr.com/ru/articles/986626/?utm_campaign=986626&utm_source=habrahabr&utm_medium=rss

www.BrainTools.ru

Rambler's Top100