ByteDance и Stanford придумали, как научить ИИ «помнить» длинные видео. bytedance.. bytedance. chatgpt.. bytedance. chatgpt. Claude.. bytedance. chatgpt. Claude. gemini.. bytedance. chatgpt. Claude. gemini. grok.. bytedance. chatgpt. Claude. gemini. grok. stanford.. bytedance. chatgpt. Claude. gemini. grok. stanford. Блог компании BotHub.. bytedance. chatgpt. Claude. gemini. grok. stanford. Блог компании BotHub. Будущее здесь.. bytedance. chatgpt. Claude. gemini. grok. stanford. Блог компании BotHub. Будущее здесь. ИИ.. bytedance. chatgpt. Claude. gemini. grok. stanford. Блог компании BotHub. Будущее здесь. ИИ. ии и машинное обучение.. bytedance. chatgpt. Claude. gemini. grok. stanford. Блог компании BotHub. Будущее здесь. ИИ. ии и машинное обучение. искусственный интеллект.. bytedance. chatgpt. Claude. gemini. grok. stanford. Блог компании BotHub. Будущее здесь. ИИ. ии и машинное обучение. искусственный интеллект. Машинное обучение.. bytedance. chatgpt. Claude. gemini. grok. stanford. Блог компании BotHub. Будущее здесь. ИИ. ии и машинное обучение. искусственный интеллект. Машинное обучение. научно-популярное.. bytedance. chatgpt. Claude. gemini. grok. stanford. Блог компании BotHub. Будущее здесь. ИИ. ии и машинное обучение. искусственный интеллект. Машинное обучение. научно-популярное. нейросети.
ByteDance и Stanford придумали, как научить ИИ «помнить» длинные видео - 1

Исследователи из ByteDance и Стэнфорда представили новый метод генерации длинных видео под названием Mixture of Contexts. Он призван решить ключевую проблему, с которой сталкиваются современные модели: по мере увеличения длины ролика внимание «раздувается», вычислительные затраты растут, детали теряются, персонажи становятся непоследовательными, а сюжет уходит в сторону.

Новый подход меняет сам принцип работы с контекстом. Видео разбивается на части — кадры, шоты и подписи. Вместо того чтобы учитывать всю историю сразу, модель выбирает только те фрагменты, которые действительно важны для текущего запроса. Для этого применяется простая оценка релевантности, где признаки чанков сравниваются с запросом.

При этом система всегда опирается на два «якоря»: полный текстовый промпт и локальный шот для сохранения деталей. Дополнительно используется causal mask, который блокирует обращение к будущим кадрам и предотвращает зацикливания. Flash Attention применяется лишь к выбранным чанкам, что позволяет не зависеть от общей длины видео, а работать только с полезным контекстом.

Результаты выглядят впечатляюще: количество вычислений снижается в семь раз, скорость генерации возрастает более чем в два раза, а на длинных сценах с контекстом до 180 тысяч токенов удаётся отсечь около 85% ненужного внимания.

Практический эффект такой оптимизации очевиден. Короткие клипы сохраняют качество, длинные сцены становятся более плавными, персонажи стабильнее, а общее время генерации значительно сокращается. По сути, модель получает «память» на минуты видео без необходимости менять базовую архитектуру.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Автор: cognitronn

Источник

Rambler's Top100