- BrainTools - https://www.braintools.ru -
Стартап в области генеративного ИИ Decart запустил MirageLSD — видеомодель на основе искусственного интеллекта [1], которая преобразует видео в реальном времени. Система призвана решить две серьёзные проблемы, связанные с существующими инструментами на основе ИИ для работы с видео: медленный рендеринг и быстрое снижение качества изображения с течением времени.

Видеомодели на основе ИИ часто работают медленно и, как правило, способны генерировать только короткие ролики длительностью от пяти до десяти секунд, после чего качество изображения начинает ухудшаться. MirageLSD [2] использует другой подход. Вместо того чтобы генерировать целые видеопоследовательности, модель создаёт каждый кадр отдельно.
Система использует окно с последними кадрами, текущий видеовход и запрос пользователя для прогнозирования следующего кадра по мере воспроизведения потока. Каждый новый кадр сразу же используется на следующем этапе вычислений, поэтому модель может мгновенно реагировать [3] на изменения в прямой трансляции. Такая настройка позволяет непрерывно преобразовывать видео в реальном времени со скоростью 20 кадров в секунду и разрешением 768 x 432, сохраняя при этом низкую задержку для интерактивных приложений.
Чтобы качество видео оставалось стабильным при длительных сеансах, Decart использует два метода обучения [4]. Первый, называемый «принудительная диффузия [5]», добавляет шум к каждому кадру по отдельности, обучая модель очищать изображения, не полагаясь на предыдущие кадры. Это помогает предотвратить накопление ошибок с течением времени.
Второй метод, «расширение истории», предполагает, что во время обучения модель сталкивается с искажёнными или ошибочными кадрами, поэтому она учится выявлять и исправлять повторяющиеся ошибки [6], а не просто пропускать их.
Компания Decart настроила MirageLSD специально для графических процессоров Nvidia Hopper, используя «оптимизацию с учётом архитектуры», чтобы отсечь менее важные части модели и повысить скорость и эффективность. Команда также применяет «дистилляцию ярлыков», обучая меньшие модели воспроизводить результаты более крупных. По их словам, этот процесс повышает производительность в 16 раз. В результате каждый кадр обрабатывается менее чем за 40 миллисекунд, а задержка остаётся достаточно низкой, чтобы большинство зрителей не заметили существенного отставания.
У MirageLSD есть некоторые ограничения. В настоящее время он обрабатывает только небольшое количество предыдущих кадров, поэтому при работе с более длинными видео может снижаться согласованность. Модель также с трудом справляется с серьёзными изменениями стиля и точным управлением отдельными объектами.
Компания Decart запустила платформу Mirage вместе с MirageLSD, веб-версия уже доступна [7], а мобильные приложения для iOS и Android находятся в разработке. Платформа предназначена для прямых трансляций, видеозвонков и игр. Компания Decart планирует регулярно выпускать обновления в течение лета, добавляя такие функции, как улучшенная согласованность лиц, голосовое управление и более точное управление объектами.
Это вторая модель искусственного интеллекта от Decart после их вирусного проекта Oasis в Minecraft [8]. На создание MirageLSD ушло около шести месяцев. Другие системы, такие как StreamDiT [9], могут достигать аналогичной скорости — до 16 кадров в секунду — и также предлагают интерактивные возможности, но всё же отстают от топовых моделей, таких как Veo 3 от Google [10], когда дело касается качества изображения.
Делегируйте часть рутинных задач вместе с BotHub [11]! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [12] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Перевод, источник новости здесь [13].
Автор: mefdayy
Источник [14]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/17445
URLs in this post:
[1] интеллекта: http://www.braintools.ru/article/7605
[2] MirageLSD: https://about.decart.ai/publications/mirage
[3] реагировать: http://www.braintools.ru/article/1549
[4] обучения: http://www.braintools.ru/article/5125
[5] принудительная диффузия: https://the-decoder.com/diffusion-forcing-combines-strengths-of-language-and-image-models-for-better-video-generation/
[6] ошибки: http://www.braintools.ru/article/4192
[7] веб-версия уже доступна: https://mirage.decart.ai/
[8] после их вирусного проекта Oasis в Minecraft: https://the-decoder.com/ai-generated-game-oasis-now-turns-images-into-playable-3d-worlds/
[9] Другие системы, такие как StreamDiT: https://the-decoder.com/ai-system-streamdit-generates-livestream-videos-from-text-at-16-fps-512p/
[10] Veo 3 от Google: https://blog.google/technology/ai/google-veo-generative-video-model/
[11] BotHub: https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=DECARTS_LAUNCHES_MIRAGELSD_A_REAL-TIME_VIDEO_TRANSLATION_AI_MODEL
[12] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7
[13] здесь: https://the-decoder.com/decart-launches-miragelsd-an-ai-model-that-transforms-live-video-feeds-in-real-time/
[14] Источник: https://habr.com/ru/companies/bothub/news/929188/?utm_source=habrahabr&utm_medium=rss&utm_campaign=929188
Нажмите здесь для печати.