Netflix научил собственную ИИ-модель удалять объекты из видео и перестраивать сцену

Netflix открыл доступ к модели VOID ^[1] для редактирования видео с помощью ИИ, которая удаляет из кадра объекты и следы их взаимодействия с окружающей средой, а затем достраивает сцену так, чтобы оставшиеся элементы вели себя правдоподобно без удалённого объекта. ИИ-модель уже доступна для установки на Hugging Face и, по данным разработчиков, в опросе 25 участников получила 64,8% предпочтений против 18,4% у её ближайшего конкурента Runway.

VOID (Video Object and Interaction Deletion) рассчитана на сцены, где после удаления объекта нужно изменить поведение ^[2] всего остального кадра. Вместо пересъёмки или полной переработки эпизода с помощью компьютерной графики ИИ-модель позволяет преобразовать уже снятый материал в новую версию сцены. В описании технологии этот подход сводится к простой задаче: убрать из видеозаписи причину события и одновременно пересчитать его последствия.

Netflix относит разработку к ИИ-моделям, работающим одновременно с изображением и текстом. Система не только стирает объект из сцены, но и восстанавливает недостающие части видеоряда так, чтобы оставшиеся элементы выглядели словно удалённого объекта не было. Один из примеров — лобовое столкновение двух машин, которое ИИ превращает в сцену с одной машиной на дороге, убирая второе транспортное средство и перестраивая траекторию первого. При наличии обломков, дыма и пламени они тоже удаляются.

Следующий пример. Человек прыгает в бассейн, а система после удаления фигуры перестраивает сцену так, что вода выглядит спокойной и ни в бассейне, ни рядом с ним не остается следов всплеска.

Авторы ИИ-модели в предварительной ^[3] научной статье называют VOID системой удаления объектов из видео для физически правдоподобного восстановления изображения в сложных сценах. Netflix сравнила модель VOID с Runway, Generative Omnimatte, DiffuEraser, ROSE, MiniMax-Remover и ProPainter. В опросе 25 человек на нескольких сценах VOID выбрали в 64,8% случаев, Runway — в 18,4 %. Разработчики также утверждают, что проверили ИИ-модель на искусственно созданных и реальных данных и показали её преимущество над базовыми системами восстановления видео и моделями, меняющими видеоряд по текстовому указанию.

Делегируйте часть рутинных задач вместе с BotHub! ^[4] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке ^[5] вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник ^[6]

Автор: MrRjxrby

Источник ^[7]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/28321

URLs in this post:

[1] VOID: https://void-model.github.io/

[2] поведение: http://www.braintools.ru/article/9372

[3] предварительной: https://arxiv.org/abs/2604.02296

[4] BotHub!: https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=VOID_FROM_NETFLIX

[5] По ссылке: https://bothub.chat/?invitedBy=iTNi-351UcHgc1BxGFWim

[6] Источник: https://www.theregister.com/

[7] Источник: https://habr.com/ru/companies/bothub/news/1019722/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1019722

Нажмите здесь для печати.