Decart запустил MirageLSD — модель искусственного интеллекта, которая преобразует видео в реальном времени

Стартап в области генеративного ИИ Decart запустил MirageLSD — видеомодель на основе искусственного интеллекта ^[1], которая преобразует видео в реальном времени. Система призвана решить две серьёзные проблемы, связанные с существующими инструментами на основе ИИ для работы с видео: медленный рендеринг и быстрое снижение качества изображения с течением времени.

Видеомодели на основе ИИ часто работают медленно и, как правило, способны генерировать только короткие ролики длительностью от пяти до десяти секунд, после чего качество изображения начинает ухудшаться. MirageLSD ^[2] использует другой подход. Вместо того чтобы генерировать целые видеопоследовательности, модель создаёт каждый кадр отдельно.

Система использует окно с последними кадрами, текущий видеовход и запрос пользователя для прогнозирования следующего кадра по мере воспроизведения потока. Каждый новый кадр сразу же используется на следующем этапе вычислений, поэтому модель может мгновенно реагировать ^[3] на изменения в прямой трансляции. Такая настройка позволяет непрерывно преобразовывать видео в реальном времени со скоростью 20 кадров в секунду и разрешением 768 x 432, сохраняя при этом низкую задержку для интерактивных приложений.

Чтобы качество видео оставалось стабильным при длительных сеансах, Decart использует два метода обучения ^[4]. Первый, называемый «принудительная диффузия ^[5]», добавляет шум к каждому кадру по отдельности, обучая модель очищать изображения, не полагаясь на предыдущие кадры. Это помогает предотвратить накопление ошибок с течением времени.

Второй метод, «расширение истории», предполагает, что во время обучения модель сталкивается с искажёнными или ошибочными кадрами, поэтому она учится выявлять и исправлять повторяющиеся ошибки ^[6], а не просто пропускать их.

Компания Decart настроила MirageLSD специально для графических процессоров Nvidia Hopper, используя «оптимизацию с учётом архитектуры», чтобы отсечь менее важные части модели и повысить скорость и эффективность. Команда также применяет «дистилляцию ярлыков», обучая меньшие модели воспроизводить результаты более крупных. По их словам, этот процесс повышает производительность в 16 раз. В результате каждый кадр обрабатывается менее чем за 40 миллисекунд, а задержка остаётся достаточно низкой, чтобы большинство зрителей не заметили существенного отставания.

MirageLSD обеспечивает гораздо меньшую задержку, чем другие модели искусственного интеллекта для обработки видео, что позволяет более плавно преобразовывать видео в реальном времени

У MirageLSD есть некоторые ограничения. В настоящее время он обрабатывает только небольшое количество предыдущих кадров, поэтому при работе с более длинными видео может снижаться согласованность. Модель также с трудом справляется с серьёзными изменениями стиля и точным управлением отдельными объектами.

Mirage Platform запущена, в разработке новые функции

Компания Decart запустила платформу Mirage вместе с MirageLSD, веб-версия уже доступна ^[7], а мобильные приложения для iOS и Android находятся в разработке. Платформа предназначена для прямых трансляций, видеозвонков и игр. Компания Decart планирует регулярно выпускать обновления в течение лета, добавляя такие функции, как улучшенная согласованность лиц, голосовое управление и более точное управление объектами.

Это вторая модель искусственного интеллекта от Decart после их вирусного проекта Oasis в Minecraft ^[8]. На создание MirageLSD ушло около шести месяцев. Другие системы, такие как StreamDiT ^[9], могут достигать аналогичной скорости — до 16 кадров в секунду — и также предлагают интерактивные возможности, но всё же отстают от топовых моделей, таких как Veo 3 от Google ^[10], когда дело касается качества изображения.

Делегируйте часть рутинных задач вместе с BotHub ^[11]! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке ^[12] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Перевод, источник новости здесь ^[13].

Автор: mefdayy

Источник ^[14]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/17445

URLs in this post:

[1] интеллекта: http://www.braintools.ru/article/7605

[2] MirageLSD: https://about.decart.ai/publications/mirage

[3] реагировать: http://www.braintools.ru/article/1549

[4] обучения: http://www.braintools.ru/article/5125

[5] принудительная диффузия: https://the-decoder.com/diffusion-forcing-combines-strengths-of-language-and-image-models-for-better-video-generation/

[6] ошибки: http://www.braintools.ru/article/4192

[7] веб-версия уже доступна: https://mirage.decart.ai/

[8] после их вирусного проекта Oasis в Minecraft: https://the-decoder.com/ai-generated-game-oasis-now-turns-images-into-playable-3d-worlds/

[9] Другие системы, такие как StreamDiT: https://the-decoder.com/ai-system-streamdit-generates-livestream-videos-from-text-at-16-fps-512p/

[10] Veo 3 от Google: https://blog.google/technology/ai/google-veo-generative-video-model/

[11] BotHub: https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=DECARTS_LAUNCHES_MIRAGELSD_A_REAL-TIME_VIDEO_TRANSLATION_AI_MODEL

[12] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[13] здесь: https://the-decoder.com/decart-launches-miragelsd-an-ai-model-that-transforms-live-video-feeds-in-real-time/

[14] Источник: https://habr.com/ru/companies/bothub/news/929188/?utm_source=habrahabr&utm_medium=rss&utm_campaign=929188

Нажмите здесь для печати.