HuMo: новый релиз от ByteDance

ByteDance представила новый релиз в области генерации видео — модель HuMo, специально ориентированную на создание видеоконтента с участием человека. Главная особенность HuMo заключается в контроле через разные модальности: текст, изображения и аудио, что позволяет создавать персонализированные и динамичные ролики с высоким уровнем детализации.

Модель поддерживает гибкие сценарии ввода. На вход можно подавать комбинации текст + изображение, текст + аудио или даже текст + изображение + аудио, что открывает широкие возможности для креативной генерации контента. HuMo также умеет сохранять образ персонажа и синхронизировать движения с аудио, что делает результат более реалистичным и естественным.

Технологическая база модели — Wan 2.1 и Whisper Large v3, что обеспечивает качественное распознавание и обработку аудио, а также точное моделирование движений человека в кадре. Благодаря этим компонентам HuMo может использоваться как для развлекательного контента, так и для профессиональных задач, например, создания обучающих или рекламных видеороликов.

Ознакомиться с HuMo и протестировать модель можно на платформе Hugging Face ^[1].

Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News ^[2].

Автор: cognitronn

Источник ^[3]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/19452

URLs in this post:

[1] Hugging Face: https://huggingface.co/bytedance-research/HuMo

[2] BotHub AI News: https://t.me/bothub

[3] Источник: https://habr.com/ru/companies/bothub/news/946476/?utm_source=habrahabr&utm_medium=rss&utm_campaign=946476

Нажмите здесь для печати.