Теперь, когда мощные инструменты для создания видео доступны большему числу людей, давайте рассмотрим, как они работают.

MIT Technology Review объясняет: позвольте нашим авторам разобраться в сложном и запутанном мире технологий, чтобы помочь вам понять, что будет дальше. Подробнее об этой серии можно прочитать здесь.
Этот год стал знаменательным для видеопроизводства. За последние девять месяцев OpenAI выпустила Sora, Google DeepMind запустила Veo 3, а видеостартап Runway — Gen-4. Все эти технологии позволяют создавать видеоклипы, которые (практически) невозможно отличить от реальных отснятых материалов или компьютерной анимации. В этом году Netflix также дебютировал с визуальными эффектами ИИ в своём сериале «Вечный» — это первый случай использования видеопроизводства для массового телевидения.
Конечно, клипы, которые вы видите в демо-роликах, тщательно отобраны, чтобы продемонстрировать лучшие модели компании. Но с появлением новых технологий, число пользователей которых выросло как никогда прежде — Sora и Veo 3 доступны в приложениях ChatGPT и Gemini по платной подписке — даже самый неопытный режиссёр теперь может создать что-то выдающееся.
Недостаток в том, что создатели контента конкурируют с халтурой ИИ, а ленты социальных сетей заполняются фейковыми новостными кадрами. Создание видео также требует огромного количества энергии, во много раз больше, чем создание текста или изображений.
Поскольку видеоролики, создаваемые искусственным интеллектом, встречаются повсюду, давайте на минутку поговорим о технологиях, которые обеспечивают их работу.
Как создать видео?
Предположим, вы — обычный пользователь. Сейчас существует целый ряд высококлассных инструментов, позволяющих профессиональным видеомейкерам внедрять модели видеогенерации в свои рабочие процессы. Но большинство людей используют эту технологию в приложениях или на веб-сайтах. Вы знаете эту схему: «Эй, Gemini, сними мне видео единорога, который ест спагетти. А теперь сделай так, чтобы его рог взлетел, как ракета». Результат будет либо удачным, либо неудачным, и вам, как правило, придётся попросить модель сделать ещё один или даже десять проходов, прежде чем вы получите более-менее то, что хотели.
Так что же происходит под капотом? Почему всё работает с перебоями и почему это потребляет так много энергии? Последняя волна моделей видеогенераторов — это так называемые преобразователи с латентной диффузией . Да, это довольно сложно сказать. Давайте разберём каждую часть по порядку, начиная с диффузии.
Что такое модель диффузии?
Представьте, что вы берёте изображение и добавляете к нему хаотичный налёт пикселей. Возьмите это хаотичное изображение и наносите на него хаотичные пиксели снова и снова. Повторите это достаточное количество раз, и исходное изображение превратится в беспорядочную мешанину пикселей, как помехи на старом телевизоре.
Диффузионная модель — это нейронная сеть, обученная обращать этот процесс вспять, превращая случайные статические данные в изображения. В процессе обучения ей показывают миллионы изображений на разных стадиях пикселизации. Она изучает, как эти изображения меняются при добавлении новых пикселей, и, таким образом, как отменять эти изменения.
В результате, когда вы просите модель диффузии сгенерировать изображение, она начинает со случайного беспорядка пикселей и шаг за шагом превращает этот беспорядок в изображение, которое более или менее похоже на изображения в своем обучающем наборе.
Но вам не нужно изображение вообще, а нужно указанное вами изображение, обычно с текстовой подсказкой. Поэтому модель диффузии работает в паре со второй моделью, например, с большой языковой моделью (LLM), обученной сопоставлять изображения с текстовыми описаниями, которая направляет каждый этап процесса очистки, подталкивая модель диффузии к изображениям, которые большая языковая модель считает хорошо соответствующими подсказке.
Замечание: эта магистерская программа не выдумывает связи между текстом и изображениями с потолка. Большинство современных моделей преобразования текста в изображение и видео обучаются на больших наборах данных, содержащих миллиарды пар текста и изображений или текста и видео, взятых из интернета (что вызывает большое недовольство многих создателей контента). Это означает, что получаемое от таких моделей — это квинтэссенция того мира, каким он представлен в интернете, искажённая предрассудками (и порнографией).
Проще всего представить себе работу диффузионных моделей с изображениями. Однако этот метод можно использовать и с другими типами данных, включая аудио- и видеоматериалы. Для создания видеороликов диффузионная модель должна обрабатывать последовательности изображений — последовательные кадры видео, — а не только одно изображение.
Что такое модель скрытой диффузии?
Всё это требует огромных вычислительных ресурсов (читай: энергии). Именно поэтому большинство моделей диффузии, используемых для генерации видео, используют метод, называемый скрытой диффузией. Вместо обработки необработанных данных — миллионов пикселей в каждом видеокадре — модель работает в так называемом скрытом пространстве, где видеокадры (и текстовые подсказки) сжимаются в математический код, который фиксирует только самые важные характеристики данных и отбрасывает всё остальное.
Аналогичная ситуация происходит всякий раз, когда вы транслируете видео через Интернет: видео отправляется с сервера на ваш экран в сжатом формате, чтобы оно быстрее дошло до вас, а когда оно прибудет, ваш компьютер или телевизор преобразует его обратно в пригодное для просмотра видео.
Связанная история
Новые диффузионные модели искусственного интеллекта, создающие песни с нуля, усложняют наши определения авторства и человеческого творчества.
Итак, последний шаг — распаковать то, что создал процесс латентной диффузии. После того, как сжатые кадры случайных помех будут преобразованы в сжатые кадры видео, которые руководство LLM посчитает подходящими для подсказки пользователя, сжатое видео преобразуется в то, что можно посмотреть.
При скрытой диффузии процесс диффузии работает примерно так же, как и в случае с изображением. Разница заключается в том, что пикселизированные видеокадры теперь представляют собой математическое кодирование этих кадров, а не сами кадры. Это делает скрытую диффузию гораздо более эффективной, чем типичная модель диффузии. (Даже при этом генерация видео всё ещё потребляет больше энергии, чем генерация изображений или текста. Объём вычислений просто поражает.)
Что такое скрытый диффузионный трансформатор?
Всё ещё со мной? Остался ещё один кусочек пазла — как обеспечить, чтобы процесс диффузии создавал последовательность кадров, сохраняя объекты, освещение и так далее от кадра к кадру. OpenAI добился этого с Sora, объединив свою модель диффузии с другой моделью, называемой трансформером. Это стало стандартом в генеративном видео.
Трансформеры отлично справляются с обработкой длинных последовательностей данных, например, слов. Это сделало их особой изюминкой в крупных языковых моделях, таких как GPT-5 от OpenAI и Gemini от Google DeepMind, которые могут генерировать длинные осмысленные последовательности слов, сохраняя согласованность на протяжении десятков предложений.
Но видео не состоят из слов. Вместо этого видео нарезаются на фрагменты, с которыми можно обращаться так, как будто они состоят из слов. Подход, предложенный OpenAI, заключался в том, чтобы разбить видео на кубики в пространстве и времени. «Это как если бы у вас была стопка всех видеокадров, и вы бы нарезали из неё маленькие кубики», — говорит Тим Брукс, ведущий исследователь Sora.
Использование трансформаторов в сочетании с диффузионными моделями даёт ряд преимуществ. Поскольку трансформаторы предназначены для обработки последовательностей данных, они также помогают диффузионной модели поддерживать согласованность между кадрами при их генерации. Это позволяет, например, создавать видео, в которых объекты не появляются и не исчезают.
А поскольку видео фрагментированы, их размер и ориентация не имеют значения. Это означает, что новейшие модели видеогенерации можно обучать на широком спектре примеров видео, от коротких вертикальных клипов, снятых на телефон, до широкоэкранных фильмов. Более широкий выбор обучающих данных значительно улучшил генерацию видео, чем всего два года назад. Это также означает, что теперь модели видеогенерации можно использовать для создания видео в самых разных форматах.
А что насчет звука?
Значительным преимуществом Veo 3 является возможность генерировать видео со звуком — от диалогов с синхронизацией губ до звуковых эффектов и фонового шума. Это первый случай в истории моделей видеопроизводства. Как отметил генеральный директор Google DeepMind Демис Хассабис на конференции Google I/O в этом году: «Мы выходим из эпохи молчаливого видеопроизводства».
Задача состояла в том, чтобы найти способ выстроить видео- и аудиоданные так, чтобы процесс диффузии работал с ними одновременно. Прорывом Google DeepMind стал новый способ сжатия аудио- и видеоданных в единый фрагмент данных внутри модели диффузии. Когда Veo 3 генерирует видео, его модель диффузии генерирует аудио- и видеоданные одновременно в рамках синхронизированного процесса, обеспечивая синхронизацию звука и изображений.
Вы сказали, что модели диффузии могут генерировать разные виды данных. Магистры права тоже так работают?
Нет, или, по крайней мере, пока. Диффузионные модели чаще всего используются для генерации изображений, видео и аудио. Большие языковые модели, генерирующие текст (включая компьютерный код), строятся с помощью трансформеров. Но границы размываются. Мы видели, как трансформеры теперь комбинируются с диффузионными моделями для генерации видео. А этим летом Google DeepMind объявила о создании экспериментальной большой языковой модели, которая использует диффузионную модель вместо трансформера для генерации текста.
Вот тут-то и начинается запутанность: хотя генерация видео (с использованием моделей диффузии) потребляет много энергии, сами модели диффузии фактически эффективнее преобразователей. Таким образом, используя модель диффузии вместо преобразователя для генерации текста, новая модель LLM от Google DeepMind может быть гораздо эффективнее существующих. Ожидайте новых возможностей моделей диффузии в ближайшем будущем!
Источник: www.technologyreview.com



























