Как я пытался создать шедевр в Qwen, Luma и Pika, и что из этого вышло. llm.. llm. Luma.. llm. Luma. Open source.. llm. Luma. Open source. pika.. llm. Luma. Open source. pika. qwen.. llm. Luma. Open source. pika. qwen. selectel.. llm. Luma. Open source. pika. qwen. selectel. Блог компании Selectel.. llm. Luma. Open source. pika. qwen. selectel. Блог компании Selectel. ИИ.. llm. Luma. Open source. pika. qwen. selectel. Блог компании Selectel. ИИ. ии и машинное обучение.. llm. Luma. Open source. pika. qwen. selectel. Блог компании Selectel. ИИ. ии и машинное обучение. искусственный интеллект.. llm. Luma. Open source. pika. qwen. selectel. Блог компании Selectel. ИИ. ии и машинное обучение. искусственный интеллект. Машинное обучение.. llm. Luma. Open source. pika. qwen. selectel. Блог компании Selectel. ИИ. ии и машинное обучение. искусственный интеллект. Машинное обучение. Работа с видео.
Как я пытался создать шедевр в Qwen, Luma и Pika, и что из этого вышло - 1

Помните, как полтора-два года назад в коротких видео стали появляться видео сомнительного качества, которые можно с легкостью пометить как сгенерированные? С тех пор их количество заметно упало. 

Мы решили провести эксперимент и выяснить, действительно ли некачественные видео, созданные нейросетями, исчезли, или люди научились делать настолько хорошие ролики, что мы уже перестали определять, кто есть кто. В этой статье попробуем сгенерировать такие видео (или еще качественнее).

Кого и зачем мы тестируем

Чтобы эксперимент получился объективным, для сравнения был собран контрастный стек нейросетей. В этот раз мы обойдемся без приевшихся флагманов — вместо этого столкнем инструменты, которые в наших прошлых материалах еще детально не проверялись, и сравним открытый open-weights подход с закрытыми облачными платформами.

Роль базового ориентира досталась Qwen — этой модели хотелось устроить проверку в сложной для нее категории — видеогенерации. В качестве соперников к ней идут две относительно новых модели с совершенно разным позиционированием и технологическим пайплайном.

Первая — Luma (в основе которой лежит архитектура Diffusion Transformer или DiT), которую в сообществе регулярно хвалят за кинематографичный визуал, сложную логику кадров и отличную связность соседних сцен. 

Вторая — Pika (работающая на базе оптимизированных латентных диффузионных моделей), заработавшая репутацию за счет высокой скорости инференса и качественной, отзывчивой анимации микро-движений.

Идея простая: взять популярные утверждения об этих нейросетях в качестве рабочих гипотез, прогнать их через одинаковые жесткие сценарии и наглядно проверить по ключевым для инженеров метрикам — точности следования промту и консистентности кадров. 

Как я пытался создать шедевр в Qwen, Luma и Pika, и что из этого вышло - 2

Облачная инфраструктура для ваших проектов

Виртуальные машины в Москве, Санкт-Петербурге и Новосибирске с оплатой по потреблению.

Подробнее →

Проверка на создание природы

В первом испытании мы решили нагрузить нейросети сложной темпоральной задачей — сгенерировать природный ландшафт в динамике. Мы заставим ИИ-модели генерировать русскую березку, которая будет расти из маленького саженца в большое дерево. 

Поскольку лимиты большинства современных нейросетей ограничены короткими роликами до десяти секунд, весь процесс будет в режиме ускоренной съемки — таймлапс.

Qwen

Универсальный промт, который будет использоваться:

«Создай кинематографичное видео с ускоренной съемкой, на котором видно, как одна русская белая береза вырастает из крошечного деревца в зрелое высокое дерево посреди обширного солнечного луга. Время движется вперед: годы пролетают за секунды. Подчеркни времена года: зимой — отсутствие листьев, осенью сделай их красными и оранжевыми, летом и весной — зеленые. Создай на фоне холмики и кочки, а также сделай вид смены дня и ночи».

Впервые просмотрев видео, я не заметил аномалий, но после, пересматривая и вглядываясь в детали, я выявил много изъянов. 

Первое — проблемы с геометрией фона. На первых кадрах на заднем плане были видны ели, покрытые снегом. Но через время они куда-то испарились. 

Второе, также связанное с фоном — холмики — они тоже куда-то исчезли. Потом я удивился еще сильнее, ведь холмы переместились в другие места. Интересные смещения тектонических плит, однако. 

Еще довольно странный момент: солнце ведет себя неестественно и двигается по странной и непонятной траектории. Эта ситуация показывает, что нейросеть имеет проблемы с фоном. Также хотелось  бы упомянуть очень резкую смену листьев дерева. 

По результатам генерации можно сделать вывод — модель имеет проблемы с удержанием фона и сохранением долгосрочного контекста. Но стоит помнить, что Qwen — все же языковая модель, а не специализированный генератор видео. Для создания реалистичной природы не рекомендую ее использовать.

Lumа 

Известная нейросеть с упором на кинематографичность и визуал.

Нейросеть сделала то, что я хотел бы увидеть. Все требования по генерации соблюдены, все что я упоминал в промпте, она смогла сгенерировать. Смена времен года происходит логично и мягко, облака плывут по небу без рывков. Фон получался проработанным, на горизонте заметно много деревьев. Зимой на холмах и в поле лежит снег.

Все требования соблюдены на отлично. Модель подтвердила слухи по части понимания контекста, кинематографичности и логичной физике объектов и пространства.

Pika

Это одна из популярных нейросетей для генерации изображений и видео. 

Модель оправдала ожидания, но тут, как говорится, есть нюансы.

Зависший туман. Сгенерированный туман показался слишком не проработанным — он статичный и долго висит на одном месте.

Динамика развития картины слабовата. Хоть дерево и растет в размерах вполне реалистично, но листья почти не меняют цвет из-за смены времен года. На видео можно заметить, как они багровеют во время рассвета, но это солнечный цвет, а не воздействие осени.

Из плюсов можно выделить геометрию ландшафта — к ней вопросов нет. Бугорки и кочки созданы качественно и выглядят естественно. Порадовало и движение травы от ветра и ход облаков по небу — анимация плавная и приятная.

Мы получили рабочий результат, особенно в плане анимации микродвижений (трава, облака), но с динамикой развития событий и изменений объектов у модели пока есть сложности.

Проверка на создание человека

Посмотрим, как нейросети умеют создавать видео с человеком. Все мы помним, насколько криповыми были первые генерации, в которых Уилл Смит ел спагетти. Нейросети с того времени сильно улучшились, но справятся ли они с генерацией человека, делающего сальто? Это довольно сложный запрос, так как нужно учесть много факторов при генерации.

Промпт второй проверки:

«Создай видео, где человек выполняет идеальное сальто назад в просторной, полностью белой комнате в стиле минимализма. Кинематографичное мягкое освещение, высокий контраст между человеком и ярко-белыми стенами. Человек одет в темную спортивную одежду, чтобы выделяться. Замедленная съемка фиксирует пик прыжка, разрешение 4К, высокодетализированные текстуры, плавное перемещение камеры».

Qwen

Полностью посмотрев видео в первый раз, я удивился, насколько оно странное. Но между тем успел подметить пару моментов. Во-первых, комната вообще не похожа на комнату — она больше смахивает на лабиринт или что-то подобное. Во-вторых, человек в середине и конце сальто странно двигается. Галлюцинации, в принципе, свойственны некоторым нейросетям при генерации сложных запросов, но не настолько же. В общем, получилось больше забавно и крипово, чем качественно.

Luma

Получилось уже получше, чем у Qwen, но опять же с некоторыми изъянами. Например, человек делает сразу два сальто, хотя в промпте я просил сделать только одно, идеальное. Но лучше два, чем одно, верно? 

А если без шуток, то нейросеть очевидно ошиблась в обработке запроса, и это уже минус. Меня также смутил материал пола и стен в комнате, он почему-то очень похож на песок. 

(Из трех видео, полученных разными нейросетями была выбрана самая лучшая генерация, остальные можно глянуть вот тут (видео-1, видео-2)

Pika

Пика сделала что-то странное: человек на видео сразу находится в воздухе. Да и его движения схожи с генерацией от Qwen — те же непонятные действия во время сальто, но уже не такие хаотичные и странные. Нейросеть сгенерировала ролик не столько качественно, сколько просто абсурдно забавно.

Заключительная проверка: воссоздание движения котика

Теперь посмотрим, как нейросети справятся с генерацией серого котика, который должен игриво двигаться и прыгать в белой комнате.

Промт последней проверки: 

«Создай видео, где игривая серая полосатая кошка, прыгающая на месте на белом фоне и энергично виляющая хвостом, снята высокоскоростной камерой, разрешение 4K Ultra HD, кинематографическое освещение, замедленная съемка, динамичный ракурс сбоку, демонстрирующий грациозные движения кошачьего тела и хвоста, мягкие тени, фотореалистичность, текстура меха с высокой детализацией, естественное освещение в помещении».

Qwen

Видео получилось лучшим из всех генераций Qwen в этом сравнении. Правда, требование по замедленной съемке модель не учла. Кошка получилась хорошо, шерсть выглядит как шерсть, но вот глаза показались мне слишком «кислотными». 

При этом движения кошки выглядят реалистично и игриво — как раз то, что нам и нужно было. Qwen выдал неплохой результат, но с небольшими недостатками.

Luma

В этот раз Luma сделала не очень качественно. Движения кошки неестественны — она постоянно перепрыгивает с одной лапы на другую, и выглядит это странно. То же самое произошло и с хвостом: он дергается как сосиска, не как реальный хвост у кота. Хоть видео и получилось с большой долей реализма, движения в нем совсем не реалистичные. Под конец проверок модель заметно сдает позиции.

Pika

На удивление нейросеть услышала требование о замедленной съемке, и сделала ее. Видео получилось реалистичным по всем фронтам. Даже прыжок кошки выглядит почти как настоящий — небольшой, аккуратный и игривый, жаль, что всего один, но общую картину это ничуть не портит. 

Вывод

Но давайте посмотрим на проблему шире: пока обычные пользователи смеются над кринжовыми роликами про пятилапых собак, на крупных конференциях уже вовсю проводят лекции и сессии по безопасности от дипфейков. Например, себестоимость генерации лица сегодня упала до 50 рублей, а ущерб от мошеннических действий исчисляется миллиардами (но это уже тема отдельной статьи).

Как вы считаете, почему в развлекательном сегменте мы видим явную стагнацию и регресс моделей, тогда как в сфере таргетированных дипфейков и фейк-ньюс технологии развиваются пугающе быстро? Мы уперлись в экономию GPU-мощностей для неугодных сфер нейросетей, или в тупик самой архитектуры диффузионных моделей? Поделитесь своими техническими гипотезами в комментариях. 

Автор: Flampanzer

Источник