- BrainTools - https://www.braintools.ru -

Исследователи из ByteDance и Стэнфорда представили новый метод генерации длинных видео под названием Mixture of Contexts. Он призван решить ключевую проблему, с которой сталкиваются современные модели: по мере увеличения длины ролика внимание [1] «раздувается», вычислительные затраты растут, детали теряются, персонажи становятся непоследовательными, а сюжет уходит в сторону.
Новый подход меняет сам принцип работы с контекстом. Видео разбивается на части — кадры, шоты и подписи. Вместо того чтобы учитывать всю историю сразу, модель выбирает только те фрагменты, которые действительно важны для текущего запроса. Для этого применяется простая оценка релевантности, где признаки чанков сравниваются с запросом.
При этом система всегда опирается на два «якоря»: полный текстовый промпт и локальный шот для сохранения деталей. Дополнительно используется causal mask, который блокирует обращение к будущим кадрам и предотвращает зацикливания. Flash Attention применяется лишь к выбранным чанкам, что позволяет не зависеть от общей длины видео, а работать только с полезным контекстом.
Результаты выглядят впечатляюще: количество вычислений снижается в семь раз, скорость генерации возрастает более чем в два раза, а на длинных сценах с контекстом до 180 тысяч токенов удаётся отсечь около 85% ненужного внимания.
Практический эффект такой оптимизации очевиден. Короткие клипы сохраняют качество, длинные сцены становятся более плавными, персонажи стабильнее, а общее время генерации значительно сокращается. По сути, модель получает «память» на минуты видео без необходимости менять базовую архитектуру.
Делегируйте часть рутинных задач вместе с [2]BotHub [3]! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [4] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Источник [5]
Автор: cognitronn
Источник [6]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/18947
URLs in this post:
[1] внимание: http://www.braintools.ru/article/7595
[2] : https://bothub.chat/?utm%5C%5C%5C%5C%5C%5C%5C%5C%5C_source=contentmarketing&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C_medium=habr&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C_campaign=news&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C_content=GEMINI%20ON%20CHATGPT%27S%20HEELS:%20THE%20LATEST%20AI%20RANKING%20FROM%20ANDREESSEN%20HOROWITZ
[3] BotHub: https://bothub.chat/?utm%5C%5C%5C_source=contentmarketing&utm%5C%5C%5C_medium=habr&utm%5C%5C%5C_campaign=news&utm%5C%5C%5C_content=BYTEDANCE%20AND%20STANFORD%20FIGURE%20OUT%20HOW%20TO%20TEACH%20AI%20TO%20"REMEMBER"%20LONG%20VIDEOS
[4] По ссылке: https://bothub.chat/?invitedBy=m%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_aGCkuyTgqllHCK0dUc7
[5] Источник: https://arxiv.org/abs/2508.19667
[6] Источник: https://habr.com/ru/companies/bothub/news/942576/?utm_source=habrahabr&utm_medium=rss&utm_campaign=942576
Нажмите здесь для печати.