Как ИИ научился делать научные видео — от слайдов до говорящей головы

Короткое 2–10‑минутное видео с пояснениями к статье сегодня стало почти обязательным: его ставят на страницу проекта, показывают на семинарах, пересылают коллегам. Но сделать такое видео — это часы подготовки слайдов, запись голоса и говорящей головы, монтаж и правки. И это совсем не то же самое, что “натуральная” генерация роликов: здесь важно аккуратно передать длинный контекст статьи, совместить несколько каналов — слайды, речь, субтитры, курсор — и сделать это понятно и профессионально.

Две ключевые задачи: слева — генерация презентации (PaperTalker), справа — оценка качества (Paper2Video).

Что именно предложили авторы

Работа Paper2Video решает проблему комплексно. Во‑первых, появляется первый открытый бенчмарк на 101 паре “статья — авторское видео” с метаданными: исходные слайды, лицо и голос докладчика. Во‑вторых, предлагается набор метрик, которые оценивают не только картинку, но и передачу знаний и запоминаемость. И, наконец, представлена мультиагентная система PaperTalker, которая автоматически собирает академическую презентацию: генерирует слайды, пишет субтитры, синхронизирует речь, управляет курсором и создает говорящую голову, подражая автору.

Статистика Paper2Video: темы из ML, CV и NLP; 4–28 слайдов и 2–14 минут на презентацию.

Почему это непросто

Презентация — это длинный мультимодальный объект. Нужно понять статью с множеством рисунков и таблиц, сжать ее до 10–20 слайдов, оформить так, чтобы ничего не поплыло, и синхронизировать голос, субтитры и указатель. Даже сильные видеомодели пока с трудом справляются с мелким текстом на экране, длинным контекстом и точным таймингом — отсюда потребность ^[1] в модульной архитектуре и понятных метриках.

Как устроен PaperTalker

Система — это связка из нескольких агентов, каждый отвечает за свой канал.

Слайды. Генерация Beamer LaTeX прямо из текста статьи с последующей автодебагом. Ключевая идея — Tree Search Visual Choice: система перебирает визуальные варианты (масштабы фигур, размер шрифта), рендерит кандидатов и с помощью визуально-языковой модели выбирает тот, где ничего не переполнено и все читаемо.
Субтитры и фокусы внимания ^[2]. По растеризованным слайдам формируется краткий сценарий: покадровые подписи и подсказки, куда должен указывать курсор.
Курсор. Позиции на слайде заземляются через модель взаимодействия с интерфейсом; WhisperX дает точные тайминги на уровне слов, чтобы указатель двигался между фразами, а не дергался внутри.
Речь и говорящая голова. F5‑TTS воспроизводит голос автора, а модели типа Hallo2 и FantasyTalking создают реалистичную мимику и верхнюю часть корпуса. Важная деталь — параллельная генерация по слайдам: это ускоряет процесс более чем в шесть раз.

Конвейер PaperTalker: тонкая оптимизация макета, привязка курсора и параллельная генерация.

Как они меряют качество

Обычных метрик для таких видео нет, поэтому команда предложила четыре:

Meta Similarity — насколько слайды и субтитры похожи на человеческую презентацию.
PresentArena — парное сравнение двух видео “кто лучше” по ясности, структуре и вовлеченности.
PresentQuiz — проверка передачи знаний: видео должно помочь правильно ответить на вопросы по статье.
IP Memory — запоминаемость автора и работы по короткому фрагменту, что ближе к опыту ^[3] реальной конференции.

Набор метрик: сходство с человеком, парные сравнения, тест знаний и запоминаемость.

Что получилось на практике

На бенчмарке Paper2Video метод PaperTalker стабильно обходит базовые подходы. Он выигрывает чаще в PresentArena, показывает лучшую Meta Similarity и высокое качество синтеза речи за счет персонализации. В тесте информативности PresentQuiz он даже на 10% превосходит человеческие видео: меньше воды, больше фактов. Курсор и ведущий заметно помогают — добавляют к точности и увеличивают долю побед в парных сравнениях. В IP Memory PaperTalker — лучший: сочетание лица, голоса и продуманной структуры делает видео запоминающимся.

При этом система не тратит бесконечные ресурсы: слайдовый параллелизм дает более чем шестикратное ускорение производства при скромных затратах на инференс. А визуально — ближе всего к человеческим презентациям: без размытий текста и с аккуратным макетом, в отличие от end‑to‑end видеогенерации, которая зачастую ограничена несколькими секундами и не держит мелкий шрифт.

Сравнение результатов: PaperTalker — детальные, читаемые слайды и точный курсор; у end‑to‑end моделей — размытый текст и неполное покрытие.

Пара слов о верстке слайдов

Отдельная изюминка — Tree Search Visual Choice. Небольшое, но очень практичное улучшение: перебор нескольких осторожно подобранных макетов с автоматическим выбором лучшего. Это гасит переполнения, исправляет подписи и делает итоговые кадры намного чище.

До и после тонкой оптимизации макета: переполнения уходят, читаемость растет.

Почему это важно для сообщества

Работа закрывает сразу три пробела: дает референсный датасет, предлагает содержательные метрики и показывает готовую к применению систему. Для исследователей это новый полигон: можно мерить не только “красоту” картинки, но и передачу знаний и эффект запоминания ^[4]. Для практиков — способ быстро получить качественное видео к статье без мучительного монтажа. И, что особенно ценно, архитектура модульная: каждый компонент можно улучшать отдельно — от генерации сценария до точной привязки курсора.

Ограничения и взгляд вперед

Есть куда расти: персонализация докладчика зависит от качества исходных данных, а автоматическое извлечение ключевых рисунков и таблиц из сложных LaTeX‑проектов всё еще требует аккуратности. Но уже сейчас результаты близки к авторским презентациям, а открытый код и данные обещают быстрое развитие экосистемы вокруг бенчмарка.

📜 Полная статья ^[5]

💾 Код ^[6]

***

Если вам интересна тема ИИ, ^[7]подписывайтесь на мой Telegram‑канал ^[8] ^[9]— там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Автор: andre_dataist

Источник ^[10]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/20410

URLs in this post:

[1] потребность: http://www.braintools.ru/article/9534

[2] внимания: http://www.braintools.ru/article/7595

[3] опыту: http://www.braintools.ru/article/6952

[4] запоминания: http://www.braintools.ru/article/722

[5] 📜 Полная статья: https://arxiv.org/abs/2510.05096

[6] 💾 Код: https://github.com/showlab/Paper2Video

[7] : https://t.me/+mP35nQPhgXZmZDYy

[8] подписывайтесь на мой Telegram‑канал: https://t.me/+v742_FSnbEIxNDE6

[9] : https://t.me/+d-7OcUj18oM1NGYy

[10] Источник: https://habr.com/ru/articles/954342/?utm_source=habrahabr&utm_medium=rss&utm_campaign=954342

Нажмите здесь для печати.