
Исследователи из Shanghai Jiao Tong University и Tencent Hunyuan представили Harmony – фреймворк для генерации синхронизированного аудиовизуального контента.
В отличие от существующих опенсорс-моделей, которые часто допускают ошибки в синхронизации видео и звука, разработчикам Harmony удалось выявить и решить эти проблемы. Фреймворк успешно справляется с генерацией как для английской и китайской речи, так и для окружающих звуков.
По качеству генерации и точности синхронизации Harmony значительно опережает такие методы, как JavisDiT, Ovi и UniVerse-1. Особенно разрыв заметен в нереалистичных сценах: где другие модели часто выдают статичное видео, Harmony создаёт динамичный и идеально синхронизированный контент.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Автор: MrRjxrby


