- BrainTools - https://www.braintools.ru -

ByteDance представила новый релиз в области генерации видео — модель HuMo, специально ориентированную на создание видеоконтента с участием человека. Главная особенность HuMo заключается в контроле через разные модальности: текст, изображения и аудио, что позволяет создавать персонализированные и динамичные ролики с высоким уровнем детализации.
Модель поддерживает гибкие сценарии ввода. На вход можно подавать комбинации текст + изображение, текст + аудио или даже текст + изображение + аудио, что открывает широкие возможности для креативной генерации контента. HuMo также умеет сохранять образ персонажа и синхронизировать движения с аудио, что делает результат более реалистичным и естественным.
Технологическая база модели — Wan 2.1 и Whisper Large v3, что обеспечивает качественное распознавание и обработку аудио, а также точное моделирование движений человека в кадре. Благодаря этим компонентам HuMo может использоваться как для развлекательного контента, так и для профессиональных задач, например, создания обучающих или рекламных видеороликов.
Ознакомиться с HuMo и протестировать модель можно на платформе Hugging Face [1].
Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News [2].
Автор: cognitronn
Источник [3]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/19452
URLs in this post:
[1] Hugging Face: https://huggingface.co/bytedance-research/HuMo
[2] BotHub AI News: https://t.me/bothub
[3] Источник: https://habr.com/ru/companies/bothub/news/946476/?utm_source=habrahabr&utm_medium=rss&utm_campaign=946476
Нажмите здесь для печати.