В начале февраля китайская Bytedance выпустила Seedance 2.0 — генератор видео на основе искусственного интеллекта, который обрабатывает до четырёх типов входных данных одновременно: изображения, видео, аудио и текст. Теперь компания приостановила работу опции генератора из соображений безопасности.

В Seedance 2.0 пользователи могут комбинировать до девяти изображений, трёх видео и трёх аудио, а всего использовать до 12 файлов. Сгенерированные видеоролики длятся от 4 до 15 секунд и автоматически сопровождаются звуковыми эффектами или музыкой.
По словам представителей ByteDance, главной особенностью Seedance 2.0 стала возможность использования эталонных изображений: модель может воспроизводить работу камеры, движения и спецэффекты из загруженных эталонных видео, заменять персонажей и плавно расширять существующие клипы. Также работают задачи видеомонтажа, такие как замена или добавление персонажей.
Seedance 2.0 использует двухканальную архитектуру диффузионного трансформатора для одновременной генерации видеоизображений и нативного звука. Это позволяет ей создавать многокадровые последовательности в разрешении 2K.
Однако компании пришлось заблокировать функцию преобразования фото в голос после того, как модель продемонстрировала способность генерировать высокоточные записи даже без разрешения пользователя.
Пан Тяньхун, основатель технологического медиа-издания MediaStorm, обнаружил, что после загрузки личной фотографии лица модель воспроизводила аудио, почти идентичное его реальному голосу — без использования каких-либо голосовых сэмплов или авторизованных данных.
Это вызвало обеспокоенность пользователей по поводу подделки личных данных. Так, технологию можно применять для генерации дипфейк-новостей, мошенничества и шантажа.
В итоге 9 февраля операторы платформы Jimeng (китайское название приложения Seedance 2.0) объявили: «Для поддержания здоровой и устойчивой творческой среды мы вносим срочные изменения на основе отзывов пользователей и не будем разрешать использовать фотографии или видео, похожие на реальных людей, в качестве эталонных объектов».
Приложения Jimeng и Doubao от ByteDance ввели этап проверки в реальном времени, требующий от пользователей записи собственного изображения и голоса перед созданием цифрового аватара.
Seedance 2.0 пока проходит тестирование. Энтузиасты считают, что генератор будет полезен в создании короткометражных роликов и анимационных сериалов.
В июне 2025 года ByteDance представила Seedance 1.0. Тогда модель заняла первое место как по преобразованию текста в видео, так и по преобразованию изображения в видео, опережая таких конкурентов, как Veo 3 от Google, Kling 2.0 от Kuaishou и Sora от OpenAI.
Автор: maybe_elf


