Image

Как ИИ научился делать научные видео — от слайдов до говорящей головы

933aaf31ec1c6c5a9b1d85165380705e

Короткое 2–10‑минутное видео с пояснениями к статье сегодня стало почти обязательным: его ставят на страницу проекта, показывают на семинарах, пересылают коллегам. Но сделать такое видео — это часы подготовки слайдов, запись голоса и говорящей головы, монтаж и правки. И это совсем не то же самое, что “натуральная” генерация роликов: здесь важно аккуратно передать длинный контекст статьи, совместить несколько каналов — слайды, речь, субтитры, курсор — и сделать это понятно и профессионально.

Две ключевые задачи: слева — генерация презентации (PaperTalker), справа — оценка качества (Paper2Video).
Две ключевые задачи: слева — генерация презентации (PaperTalker), справа — оценка качества (Paper2Video).

Что именно предложили авторы

Работа Paper2Video решает проблему комплексно. Во‑первых, появляется первый открытый бенчмарк на 101 паре “статья — авторское видео” с метаданными: исходные слайды, лицо и голос докладчика. Во‑вторых, предлагается набор метрик, которые оценивают не только картинку, но и передачу знаний и запоминаемость. И, наконец, представлена мультиагентная система PaperTalker, которая автоматически собирает академическую презентацию: генерирует слайды, пишет субтитры, синхронизирует речь, управляет курсором и создает говорящую голову, подражая автору.

Статистика Paper2Video: темы из ML, CV и NLP; 4–28 слайдов и 2–14 минут на презентацию.
Статистика Paper2Video: темы из ML, CV и NLP; 4–28 слайдов и 2–14 минут на презентацию.

Почему это непросто

Презентация — это длинный мультимодальный объект. Нужно понять статью с множеством рисунков и таблиц, сжать ее до 10–20 слайдов, оформить так, чтобы ничего не поплыло, и синхронизировать голос, субтитры и указатель. Даже сильные видеомодели пока с трудом справляются с мелким текстом на экране, длинным контекстом и точным таймингом — отсюда потребность в модульной архитектуре и понятных метриках.

Как устроен PaperTalker

Система — это связка из нескольких агентов, каждый отвечает за свой канал.

  • Слайды. Генерация Beamer LaTeX прямо из текста статьи с последующей автодебагом. Ключевая идея — Tree Search Visual Choice: система перебирает визуальные варианты (масштабы фигур, размер шрифта), рендерит кандидатов и с помощью визуально-языковой модели выбирает тот, где ничего не переполнено и все читаемо.

  • Субтитры и фокусы внимания. По растеризованным слайдам формируется краткий сценарий: покадровые подписи и подсказки, куда должен указывать курсор.

  • Курсор. Позиции на слайде заземляются через модель взаимодействия с интерфейсом; WhisperX дает точные тайминги на уровне слов, чтобы указатель двигался между фразами, а не дергался внутри.

  • Речь и говорящая голова. F5‑TTS воспроизводит голос автора, а модели типа Hallo2 и FantasyTalking создают реалистичную мимику и верхнюю часть корпуса. Важная деталь — параллельная генерация по слайдам: это ускоряет процесс более чем в шесть раз.

Конвейер PaperTalker: тонкая оптимизация макета, привязка курсора и параллельная генерация.
Конвейер PaperTalker: тонкая оптимизация макета, привязка курсора и параллельная генерация.

Как они меряют качество

Обычных метрик для таких видео нет, поэтому команда предложила четыре:

  • Meta Similarity — насколько слайды и субтитры похожи на человеческую презентацию.

  • PresentArena — парное сравнение двух видео “кто лучше” по ясности, структуре и вовлеченности.

  • PresentQuiz — проверка передачи знаний: видео должно помочь правильно ответить на вопросы по статье.

  • IP Memory — запоминаемость автора и работы по короткому фрагменту, что ближе к опыту реальной конференции.

Набор метрик: сходство с человеком, парные сравнения, тест знаний и запоминаемость.
Набор метрик: сходство с человеком, парные сравнения, тест знаний и запоминаемость.

Что получилось на практике

На бенчмарке Paper2Video метод PaperTalker стабильно обходит базовые подходы. Он выигрывает чаще в PresentArena, показывает лучшую Meta Similarity и высокое качество синтеза речи за счет персонализации. В тесте информативности PresentQuiz он даже на 10% превосходит человеческие видео: меньше воды, больше фактов. Курсор и ведущий заметно помогают — добавляют к точности и увеличивают долю побед в парных сравнениях. В IP Memory PaperTalker — лучший: сочетание лица, голоса и продуманной структуры делает видео запоминающимся.

При этом система не тратит бесконечные ресурсы: слайдовый параллелизм дает более чем шестикратное ускорение производства при скромных затратах на инференс. А визуально — ближе всего к человеческим презентациям: без размытий текста и с аккуратным макетом, в отличие от end‑to‑end видеогенерации, которая зачастую ограничена несколькими секундами и не держит мелкий шрифт.

Сравнение результатов: PaperTalker — детальные, читаемые слайды и точный курсор; у end‑to‑end моделей — размытый текст и неполное покрытие.
Сравнение результатов: PaperTalker — детальные, читаемые слайды и точный курсор; у end‑to‑end моделей — размытый текст и неполное покрытие.

Пара слов о верстке слайдов

Отдельная изюминка — Tree Search Visual Choice. Небольшое, но очень практичное улучшение: перебор нескольких осторожно подобранных макетов с автоматическим выбором лучшего. Это гасит переполнения, исправляет подписи и делает итоговые кадры намного чище.

До и после тонкой оптимизации макета: переполнения уходят, читаемость растет.
До и после тонкой оптимизации макета: переполнения уходят, читаемость растет.

Почему это важно для сообщества

Работа закрывает сразу три пробела: дает референсный датасет, предлагает содержательные метрики и показывает готовую к применению систему. Для исследователей это новый полигон: можно мерить не только “красоту” картинки, но и передачу знаний и эффект запоминания. Для практиков — способ быстро получить качественное видео к статье без мучительного монтажа. И, что особенно ценно, архитектура модульная: каждый компонент можно улучшать отдельно — от генерации сценария до точной привязки курсора.

Ограничения и взгляд вперед

Есть куда расти: персонализация докладчика зависит от качества исходных данных, а автоматическое извлечение ключевых рисунков и таблиц из сложных LaTeX‑проектов всё еще требует аккуратности. Но уже сейчас результаты близки к авторским презентациям, а открытый код и данные обещают быстрое развитие экосистемы вокруг бенчмарка.

📜 Полная статья

💾 Код

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram‑канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Источник: habr.com

✅ Найденные теги: Как, новости
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых