Кейс: НейроДудь. chatgpt.. chatgpt. elevenlabs.. chatgpt. elevenlabs. krea ai.. chatgpt. elevenlabs. krea ai. nano banana.. chatgpt. elevenlabs. krea ai. nano banana. Runway.. chatgpt. elevenlabs. krea ai. nano banana. Runway. suno.. chatgpt. elevenlabs. krea ai. nano banana. Runway. suno. генеративное искусство.. chatgpt. elevenlabs. krea ai. nano banana. Runway. suno. генеративное искусство. генерация изображений.. chatgpt. elevenlabs. krea ai. nano banana. Runway. suno. генеративное искусство. генерация изображений. Дудь.. chatgpt. elevenlabs. krea ai. nano banana. Runway. suno. генеративное искусство. генерация изображений. Дудь. исскуственный интеллект.

Осенью я давал интервью для документального фильма Высшей школы экономики “После промпта“. В сам фильм попал небольшой фрагмент, и я долго думал что делать с остальным материалом. Так появился НейроДудь.

ВК версия

Если не считать монтажа самого интервью, работа над роликом заняла около трёх дней. Расскажу о ключевых этапах.

Визуал

Вначале нужно было сделать самого Дудя. Я сразу отказался от реалистичного варианта. Во-первых, это перебор, во-вторых, эффект зловещей долины был бы гораздо сильнее.

И это оказалось сложнее, чем я планировал. Потому что надо было решать сразу три задачи:

  • Дизайн локации должен хорошо монтироваться с основной сценой

  • Нужно было придумать дизайн самого робота

  • Робот должен быть похож на Дудя

Первые варианты выглядели как-то так:

Т-1000 был бы доволен

Т-1000 был бы доволен

Для генерации я использовал Nano Banana Pro. Попробовал разные нейросетки, но остановился на ней, так как детали нужно было дорабатывать итерациями. На работу с деталями способен и ChatGPT, но результат получался хуже.

Однако, я использовал ChatGPT, чтобы дорабатывать промт для Nano Banana. Без этого у меня получался то лысый краш-тестер:

Кейс: НейроДудь

То наш с Дудём внебрачный сын с голым животом и коленками:

Кейс: НейроДудь

Который в какой-то момент решил ещё и раздеться:

Чем-то неуловимо похож на лысого из Бразерс
Чем-то неуловимо похож на лысого из Бразерс

Спустя сутки мучений появился вариант, который меня более-менее устроил:

Кейс: НейроДудь

Осталось доработать окружение, цветокоррекцию и добавить привычную одежду:

Кейс: НейроДудь - 6

Ещё я пытался сделать ему фирменные скрещенные ноги, но после нескольких часов попыток, решил, что лучшее – враг хорошего, и такой Дудь нам не нужен:

Нейросеть решила, что для этой позы нужно поменять и стул

Нейросеть решила, что для этой позы нужно поменять и стул

Следующим бастином было лицо. Мне не нравился текущий дизайн и я пустился в эксперименты:

Весь спектр эмоций Дудя

Весь спектр эмоций Дудя

Вот этот вариант мне нравился фирменной ухмылкой:

Кейс: НейроДудь

Кейс: НейроДудь

Но почему я от него отказался вы поймёте, когда дойдём до анимации. В конечном итоге, в финальный ролик попала доработанная версия одного из первых вариантов:

Кейс: НейроДудь

Кейс: НейроДудь

Достаточно похож, достаточно отличается, выглядит как следователь на допросе. В общем, то что нужно, чтобы пугать детей.

Синтез голоса

Этот этап был одновременно сложным и простым.

Простым, потому что Elevenlabs позволяет быстро и достаточно точно синтезировать голос. Но чтобы получился хороший результат, нужно собрать хороший референс – исходник реальной речи говорящего, и вот в этом была сложность.

Мне пришлось отсмотреть 4-часовое интервью Дудя и вырезать все моменты, где говорит он. Причём нужны были моменты, где он что-то спрашивает, у него тогда появляются характерные интонации.

И боже, как я устал. Классно его слушать фоном, когда чем-то занимаешься, но когда ты вынужден прям смотреть и искать моменты именно с Юрой, и смотреть прям на Юру – это отдельный вид пытки.

*звуки страданий

*звуки страданий

Вам наверняка интересно, сколько минут говорит сам Дудь в своих интервью. И вот вам бессмысленный факт, о котором никто не просил. Юра говорит примерно 40 минут в интервью, которое длится 4 часа. Не благодарите.

Анимация

И вот мы подошли к самому интересному. Чтобы сделать анимацию с липсинком, есть два подхода: простой и сложный.

Сложный выглядит так: вы берёте Runway и выбираете там режим “Act-Two”. Дальше нужно снять себя на камеру в нужном ракурсе, сделать вид, что вы Юра Дудь, который задаёт вопросы. Дальше в Premiere подставить вместо своего голоса, голос Дудя, так чтобы он совпадал с губами. И скормить это видео Runway вместе с референсной картинкой, которую мы подготовили на предыдущем шаге.

Тогда генерация была бы классной, НейроДудь активно бы двигался, а его губы хорошо попадали в текст. Но я понял, что так заморачиваться не готов. Сразу было понятно, что этот ролик на грани корректности.

Сомнительная история, с точки зрения авторских прав, да и сам Ютуб легко бы мог его снести по просьбе Юры. (Юра, пожалуйста не кидай страйк). Прикольный эксперимент, но на постоянной основе точно так делать не стоит.

Поэтому я решил пойти по простому пути. Для этого есть сервис HeyGen. Он позволяет загрузить картинку и речь, чтобы получить видео, где нейросеть очень старается сделать липсинк. И даже пробует немного шевелить персонажа. В большинстве говорящих ИИ-картинках вы видите результат работы именно этого сервиса.

Но с ним тоже пришлось помучаться. Помните улыбающегося Дудя? Вот причина, по которой я отказался от этого дизайна:

Кейс: НейроДудь - 12

В процессе анимации это стал кто угодно, но только не Дудь. Нейросеть воспринимает улыбку, как базовые черты лица и из-за этого анимация становится странной. К тому же по голосу слышно, что человек не улыбается.

Но и с более строгим дизайном пришлось намучаться. Чаще всего проблема была в том, что нейросеть слишком сильно растягивала рот на акцентных моментах. Да и липсинк пока далёк от идеала.

Кейс: НейроДудь - 13

Один раз НейроДудь даже впал в экзистенциальный кризис:

Кейс: НейроДудь - 14

Чуть проще было генерить вставки с реакциями Дудя. Делал я их с помощью нейросетей “Kling O1” и “Seedance 1.5” на платформе Кrea. Например тут пытался воссоздать фирменный возмущённый взгляд в камеру:

Кейс: НейроДудь - 15

В конечном итоге, НейроДудь получился хоть и криповым, но всё равно достаточно залипательным.

Кроме Дудя я сделал круглого робота, который влетает в кадр со мной. Он нужен, чтобы чуть удержать внимание зрителя вначале ролика, пока они привыкают к говорящему.

Кейс: НейроДудь - 16

Визуал робота генерировал в Reve – это мой основной инструмент для создания отдельных объектов. Анимацию делал с помощью “Seedance 1.5” на платформе Кrea. В сцену добавил с помощью After Effects.

Оформление

Интервью Дудя сложно представить, без его фирменной отбивки. Только нужно было поменять музыку, чтобы ютуб автоматически не жаловался на авторские права.

Кейс: НейроДудь - 17

Новый логотип сгенерировал с помощью той же Nano Banana, а ремикс на джингл в Stable Audio – это такая Suno курильщика. Пробовал вначале Suno, но сходу не получилось, а Stable сделал с первой попытки то, что нужно. Но за чем-то сложнее туда ходить точно не надо.

Итог

1. Это было весело.
2. Вся работа заняла примерно 3 дня
3. Если прикинуть общую подписку на сервисы и покупку токенов, то получится в районе $150

После интервью для Вышки я сел писать большую серию статей, где детальнее рассказал свой взгляд на будущее, а этот ролик стал классным дополнением.

Судя по коментам на ютубе, людям тоже зашло.

ВК версия

Спасибо, что прочитали, накидайте вопросов в комментариях

Автор: Kesha_S

Источник

Rambler's Top100