ByteDance приостановила работу опции генерации голоса по фото в Seedance 2

В начале февраля китайская Bytedance выпустила ^[1] Seedance 2.0 — генератор видео на основе искусственного интеллекта ^[2], который обрабатывает до четырёх типов входных данных одновременно: изображения, видео, аудио и текст. Теперь компания приостановила работу опции генератора из соображений безопасности.

В Seedance 2.0 пользователи могут ^[3] комбинировать до девяти изображений, трёх видео и трёх аудио, а всего использовать до 12 файлов. Сгенерированные видеоролики длятся от 4 до 15 секунд и автоматически сопровождаются звуковыми эффектами или музыкой.

По словам представителей ByteDance, главной особенностью Seedance 2.0 стала возможность использования эталонных изображений: модель может воспроизводить работу камеры, движения и спецэффекты из загруженных эталонных видео, заменять персонажей и плавно расширять существующие клипы. Также работают задачи видеомонтажа, такие как замена или добавление персонажей.

Seedance 2.0 использует двухканальную архитектуру диффузионного трансформатора для одновременной генерации видеоизображений и нативного звука. Это позволяет ей создавать многокадровые последовательности в разрешении 2K.

Однако компании пришлось заблокировать ^[4] функцию преобразования фото в голос после того, как модель продемонстрировала способность генерировать высокоточные записи даже без разрешения пользователя.

Пан Тяньхун, основатель технологического медиа-издания MediaStorm, обнаружил, что после загрузки личной фотографии лица модель воспроизводила аудио, почти идентичное его реальному голосу — без использования каких-либо голосовых сэмплов или авторизованных данных.

Это вызвало обеспокоенность пользователей по поводу подделки личных данных. Так, технологию можно применять для генерации дипфейк-новостей, мошенничества и шантажа.

В итоге 9 февраля операторы платформы Jimeng (китайское название приложения Seedance 2.0) объявили: «Для поддержания здоровой и устойчивой творческой среды мы вносим срочные изменения на основе отзывов пользователей и не будем разрешать использовать фотографии или видео, похожие на реальных людей, в качестве эталонных объектов».

Приложения Jimeng и Doubao от ByteDance ввели этап проверки в реальном времени, требующий от пользователей записи собственного изображения и голоса перед созданием цифрового аватара.

Seedance 2.0 пока проходит тестирование. Энтузиасты считают, что генератор будет полезен в создании короткометражных роликов и анимационных сериалов.

В июне 2025 года ByteDance представила ^[5] Seedance 1.0. Тогда модель заняла первое место как по преобразованию текста в видео, так и по преобразованию изображения в видео, опережая таких конкурентов, как Veo 3 от Google, Kling 2.0 от Kuaishou и Sora от OpenAI.

Автор: maybe_elf

Источник ^[6]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/25484

URLs in this post:

[1] выпустила: https://the-decoder.com/bytedance-shows-impressive-progress-in-ai-video-with-seedance-2-0/

[2] интеллекта: http://www.braintools.ru/article/7605

[3] могут: https://habr.com/ru/companies/bothub/news/994610/

[4] пришлось заблокировать: https://technode.com/2026/02/10/bytedance-suspends-seedance-2-0-feature-that-turns-facial-photos-into-personal-voices-over-potential-risks/

[5] представила: https://habr.com/ru/companies/bothub/news/918072/

[6] Источник: https://habr.com/ru/news/995180/?utm_source=habrahabr&utm_medium=rss&utm_campaign=995180

Нажмите здесь для печати.