Image

Что ждет генеративное видео дальше?

Сора от OpenAI подняла планку для создания фильмов с использованием ИИ. Вот четыре вещи, которые следует иметь в виду, пока мы размышляем о том, что нас ждет.

47728de4633a23aefccac20a27b6a9cc

Майлз

Серия What's Next от MIT Technology Review рассматривает отрасли, тенденции и технологии, чтобы дать вам первый взгляд на будущее. Вы можете прочитать остальные здесь.

Когда OpenAI представила свою новую генеративную видеомодель Sora в прошлом месяце, она пригласила несколько режиссеров опробовать ее. На этой неделе компания опубликовала результаты: семь сюрреалистических короткометражных фильмов, которые не оставляют сомнений в том, что будущее генеративного видео быстро приближается.

Первая партия моделей, способных превращать текст в видео, появилась в конце 2022 года от таких компаний, как Meta, Google и стартап видеотехнологий Runway. Это был ловкий трюк, но результаты были зернистыми, глючными и длились всего несколько секунд.

Добро пожаловать в новый сюрреализм: как видео, созданное с помощью искусственного интеллекта, меняет кинематограф.

Эксклюзив: смотрите мировую премьеру короткометражного фильма «Мороз» , созданного с помощью искусственного интеллекта .

Перемотаем на 18 месяцев вперед, и лучшие из высококачественных, фотореалистичных продуктов Соры настолько ошеломляют, что некоторые затаившие дыхание наблюдатели предсказывают смерть Голливуда. Последние модели Runway могут создавать короткие клипы, которые могут соперничать с теми, что делают студии блокбастерной анимации. Midjourney и Stability AI, фирмы, стоящие за двумя из самых популярных моделей преобразования текста в изображение, теперь работают и над видео.

Ряд компаний спешат сделать бизнес на основе этих прорывов. Большинство выясняют, что это за бизнес, по ходу дела. «Я постоянно кричу: «Боже мой, это чертовски круто», играя с этими инструментами», — говорит Гэри Липковиц, генеральный директор Vyond, фирмы, которая предоставляет платформу point-and-click для создания коротких анимированных видеороликов. «Но как вы можете использовать это на работе?»

Каким бы ни был ответ на этот вопрос, он, вероятно, перевернет широкий спектр бизнеса и изменит роли многих профессионалов, от аниматоров до рекламодателей. Также растут опасения по поводу неправильного использования. Широко распространенная возможность создания фейковых видео сделает наводнение Интернета пропагандой и несогласованной порнографией проще, чем когда-либо. Мы можем это предвидеть. Проблема в том, что ни у кого нет хорошего решения.

Продолжая разбираться с тем, что нас ждет впереди — хорошим и плохим — вот четыре вещи, о которых стоит подумать. Мы также отобрали подборку лучших видеороликов, снятых режиссерами с использованием этой технологии, включая эксклюзивный показ «Somme Requiem», экспериментального короткометражного фильма от лос-анджелесской продюсерской компании Myles. Читайте дальше, чтобы узнать, куда движется кинопроизводство с использованием ИИ.

1. Сора — это только начало

Sora от OpenAI в настоящее время на голову выше конкурентов в области генерации видео. Но другие компании прилагают все усилия, чтобы догнать их. Рынок станет чрезвычайно переполненным в течение следующих нескольких месяцев, поскольку все больше компаний совершенствуют свои технологии и начинают выводить на рынок конкурентов Sora.

Британский стартап Haiper вышел из тени в этом месяце. Он был основан в 2021 году бывшими исследователями Google DeepMind и TikTok, которые хотели работать над технологией под названием neural radiance fields, или NeRF, которая может преобразовывать 2D-изображения в 3D-виртуальные среды. Они считали, что инструмент, превращающий снимки в сцены, в которые пользователи могли бы попасть, будет полезен для создания видеоигр.

Но полгода назад Haiper переключилась с виртуальных сред на видеоклипы, адаптировав свою технологию под то, что, по мнению генерального директора Ишу Мяо, станет еще большим рынком, чем игры. «Мы поняли, что генерация видео — это золотая середина», — говорит Мяо. «На это будет очень высокий спрос».

«Air Head» — короткометражный фильм, снятый Shy Kids, поп-группой и киноколлективом из Торонто, с использованием Sora.

Как и Sora от OpenAI, технология генеративного видео от Haiper использует модель диффузии для управления визуальными эффектами и трансформатор (компонент в больших языковых моделях, таких как GPT-4, который позволяет им так хорошо предсказывать, что будет дальше) для управления согласованностью между кадрами. «Видео — это последовательности данных, а трансформаторы — лучшая модель для изучения последовательностей», — говорит Мяо.

Последовательность — это большая проблема для генеративного видео и главная причина, по которой существующие инструменты производят всего несколько секунд видео за раз. Трансформеры для генерации видео могут повысить качество и продолжительность клипов. Недостатком является то, что трансформеры выдумывают или галлюцинируют. В тексте это не всегда очевидно. В видео это может привести, скажем, к человеку с несколькими головами. Для поддержания трансформеров на верном пути требуются огромные хранилища обучающих данных и хранилища, заполненные компьютерами.

Вот почему Irreverent Labs, основанная бывшими исследователями Microsoft, придерживается другого подхода. Как и Haiper, Irreverent Labs начинала с создания сред для игр, прежде чем перейти к полной генерации видео. Но компания не хочет следовать за стадом, копируя то, что делают OpenAI и другие. «Потому что тогда это будет битва вычислений, тотальная война GPU», — говорит Дэвид Раскино, соучредитель и технический директор Irreverent. «И в этом сценарии есть только один победитель, и он носит кожаную куртку». (Он говорит о Дженсене Хуанге, генеральном директоре чип-гиганта стоимостью в триллион долларов Nvidia.)

Вместо использования трансформатора технология Irreverent объединяет модель диффузии с моделью, которая предсказывает, что будет в следующем кадре на основе здравого смысла физики, например, как отскакивает мяч или как вода плещется на полу. Раскино говорит, что такой подход снижает как затраты на обучение, так и количество галлюцинаций. Модель все еще создает сбои, но они являются искажениями физики (например, отскакивающий мяч не следует плавной кривой) с известными математическими исправлениями, которые можно применить к видео после его генерации, говорит он.

Какой подход будет долговечным, еще предстоит увидеть. Мяо сравнивает сегодняшнюю технологию с большими языковыми моделями около GPT-2. Пять лет назад новаторская ранняя модель OpenAI поразила людей, потому что она показала, что возможно. Но потребовалось еще несколько лет, чтобы технология стала переломным моментом.

То же самое и с видео, говорит Мяо: «Мы все у подножия горы».

2. Что люди будут делать с генеративным видео?

Видео — это средство массовой информации в Интернете. YouTube, TikTok, кинохроника, реклама: ожидайте увидеть синтетическое видео везде, где уже есть видео.

Маркетинговая индустрия является одним из наиболее энтузиастов внедрения генеративных технологий. Согласно недавнему опросу, проведенному Adobe в США, две трети специалистов по маркетингу экспериментировали с генеративным ИИ в своей работе, причем более половины заявили, что использовали эту технологию для создания изображений.

Генеративное видео — это следующее. Несколько маркетинговых фирм уже выпустили короткие фильмы, чтобы продемонстрировать потенциал технологии. Последний пример — 2,5-минутный «Somme Requiem», снятый Майлзом. Вы можете посмотреть фильм ниже в эксклюзивном обзоре MIT Technology Review.

«Somme Requiem» — короткометражный фильм, снятый лос-анджелесской продюсерской компанией Myles. Каждый кадр был создан с использованием модели Gen 2 компании Runway. Затем клипы были смонтированы вместе командой видеоредакторов Myles.

«Somme Requiem» изображает занесенных снегом солдат во время рождественского перемирия во время Первой мировой войны в 1914 году. Фильм состоит из десятков различных кадров, которые были созданы с использованием генеративной видеомодели из Runway, затем сшиты вместе, откорректированы по цвету и наложены на музыку людьми-видеоредакторами в Myles. «Будущее повествования — это гибридный рабочий процесс», — говорит основатель и генеральный директор Джош Кан.

Кан выбрал военный период, чтобы подчеркнуть свою точку зрения. Он отмечает, что сериал Apple TV+ «Мастера воздуха», рассказывающий о группе летчиков Второй мировой войны, обошелся в 250 миллионов долларов. Команда, стоящая за документальным фильмом Питера Джексона о Первой мировой войне «Они не состарятся», потратила четыре года на подбор и восстановление более 100 часов архивных фильмов. «Большинство режиссеров могут только мечтать о возможности рассказать историю в этом жанре», — говорит Кан.

«Независимое кинопроизводство как бы умирает», — добавляет он. «Я думаю, это создаст невероятное возрождение».

Раскино надеется на это. «Жанр фильмов ужасов — это когда люди испытывают новые вещи, пробуют новые вещи, пока они не сломаются», — говорит он. «Я думаю, мы увидим блокбастерный фильм ужасов, созданный где-то в подвале четырьмя людьми с использованием искусственного интеллекта».

Так является ли генеративное видео убийцей Голливуда? Пока нет. Кадры с сценой в «Somme Requiem» — пустой лес, заброшенный военный лагерь — выглядят великолепно. Но люди в нем все еще страдают от искалеченных пальцев и искаженных лиц, отличительных черт технологии. Генеративное видео лучше всего подходит для широкоугольных панорам или затяжных крупных планов, что создает жуткую атмосферу, но мало действия. Если бы «Somme Requiem» был длиннее, он стал бы скучным.

Но в полнометражных фильмах постоянно появляются кадры с завязкой сцены. Большинство из них длятся всего несколько секунд, но на их съемку могут уйти часы. Раскино предполагает, что генеративные видеомодели вскоре можно будет использовать для создания этих промежуточных кадров за малую часть стоимости. Это также можно будет делать на лету на более поздних этапах производства, не требуя пересъемки.

Михал Пехоучек, технический директор Gen Digital, гиганта кибербезопасности, стоящего за рядом антивирусных брендов, включая Norton и Avast, соглашается. «Я думаю, что именно в этом направлении движется технология», — говорит он. «Мы увидим много разных моделей, каждая из которых будет специально обучена в определенной области кинопроизводства. Это будут просто инструменты, используемые талантливыми командами по производству видео».

Мы пока не достигли этой цели. Большой проблемой генеративного видео является отсутствие контроля пользователей над выводом. Создание неподвижных изображений может быть как удачным, так и неудачным; создание нескольких секунд видео еще более рискованно.

«Сейчас это все еще весело, вы получаете моменты «ага», — говорит Мяо. «Но создание видео, которое будет именно тем, что вам нужно, — это очень сложная техническая проблема. Мы далеки от создания длинных, последовательных видео из одного запроса».

Вот почему Липковиц из Vyond считает, что технология пока не готова для большинства корпоративных клиентов. Эти пользователи хотят гораздо больше контроля над внешним видом видео, чем дают им текущие инструменты, говорит он.

Тысячи компаний по всему миру, включая около 65% компаний из списка Fortune 500, используют платформу Vyond для создания анимированных видеороликов для внутренних коммуникаций, обучения, маркетинга и многого другого. Vyond использует ряд генеративных моделей, включая преобразование текста в изображение и преобразование текста в голос, но предоставляет простой интерфейс перетаскивания, который позволяет пользователям вручную собирать видео, часть за частью, а не создавать полный клип одним щелчком мыши.

Запуск генеративной модели — это как бросать игральные кости, говорит Липковиц. «Это трудное «нет» для большинства команд по производству видео, особенно в корпоративном секторе, где все должно быть идеально до пикселя и соответствовать бренду», — говорит он. «Если видео получится плохим — может быть, у персонажей слишком много пальцев или логотип компании не того цвета — ну, не повезло, так работает ИИ поколения».

Решение? Больше данных, больше обучения, повтор. «Хотел бы я указать на какие-то сложные алгоритмы», — говорит Мяо. «Но нет, это просто гораздо больше обучения».

3. Дезинформация — явление не новое, но дипфейки сделают ситуацию еще хуже.

Онлайн-дезинформация подрывает нашу веру в СМИ, в институты и друг в друга уже много лет. Некоторые опасаются, что добавление фейковых видео в эту смесь разрушит любые оставшиеся у нас столпы общей реальности.

«Мы заменяем доверие недоверием, замешательством, страхом и ненавистью», — говорит Пехоучек. «Общество без основополагающей истины деградирует».

Пехоучек особенно обеспокоен злонамеренным использованием deepfakes на выборах. Например, во время прошлогодних выборов в Словакии злоумышленники поделились фейковым видео, на котором ведущий кандидат обсуждал планы манипулирования избирателями. Видео было низкого качества и его было легко распознать как deepfake. Но Пехоучек считает, что этого было достаточно, чтобы переломить результат в пользу другого кандидата.

Видео, сделанное Сорой, с подсказкой: «Стильная женщина идет по улице Токио, заполненной теплым светящимся неоном и анимированными городскими вывесками. На ней черная кожаная куртка, длинное красное платье и черные ботинки, а в руках черная сумочка. На ней солнцезащитные очки и красная помада. Она идет уверенно и непринужденно. Улица влажная и отражающая, создавая зеркальный эффект разноцветных огней. Множество пешеходов ходят».
ОТКРЫТЫЙ

Джон Виссинджер, возглавляющий команды по стратегии и инновациям в Blackbird AI, фирме, которая отслеживает и управляет распространением дезинформации в Интернете, считает, что фейковое видео будет наиболее убедительным, если оно будет сочетать реальные и фейковые кадры. Возьмите два видео, на которых президент Джо Байден идет по сцене. На одном он спотыкается, на другом — нет. Кто скажет, какое из них настоящее?

«Допустим, событие действительно произошло, но то, как оно представлено мне, немного отличается», — говорит Виссинджер. «Это может повлиять на мою эмоциональную реакцию на него». Как заметил Пехоучек, фейковое видео даже не обязательно должно быть настолько хорошим, чтобы произвести впечатление. Плохая подделка, которая соответствует существующим предубеждениям, нанесет больше вреда, чем ловкая подделка, которая им не соответствует, говорит Виссинджер.

Вот почему Blackbird фокусируется на том, кто чем с кем делится. В каком-то смысле, является ли что-то правдой или ложью, менее важно, чем то, откуда это взялось и как распространяется, говорит Виссинджер. Его компания уже отслеживает низкотехнологичную дезинформацию, например, посты в социальных сетях, демонстрирующие реальные изображения вне контекста. Генеративные технологии ухудшают ситуацию, но проблема людей, представляющих медиа вводящими в заблуждение способами, намеренно или нет, не нова, говорит он.

Добавьте сюда ботов, которые распространяют и продвигают дезинформацию в социальных сетях, и все станет запутанным. Одно лишь знание о существовании фейковых СМИ посеет семена сомнения в недобросовестном дискурсе. «Вы можете видеть, как скоро станет невозможно отличить то, что синтезировано, от того, что реально», — говорит Виссинджер.

4. Мы сталкиваемся с новой онлайн-реальностью.

Скоро фейки будут повсюду, от кампаний по дезинформации до рекламных роликов и голливудских блокбастеров. Так что же нам делать, чтобы понять, что реально, а что — просто фантазия? Существует ряд решений, но ни одно из них не будет работать само по себе.

Технологическая индустрия работает над этой проблемой. Большинство генеративных инструментов пытаются обеспечить соблюдение определенных условий использования, например, запретить людям создавать видео публичных личностей. Но есть способы обойти эти фильтры, и версии инструментов с открытым исходным кодом могут поставляться с более либеральной политикой.

Компании также разрабатывают стандарты для водяных знаков, создаваемых ИИ, и инструменты для их обнаружения. Но не все инструменты будут добавлять водяные знаки, и водяные знаки могут быть удалены из метаданных видео. Надежных инструментов обнаружения также не существует. Даже если бы такие инструменты работали, они стали бы частью игры в кошки-мышки, пытаясь угнаться за достижениями в моделях, для контроля которых они предназначены.

Видео, созданное Сорой, с подсказкой: «Трейлер фильма о приключениях 30-летнего космонавта в красном шерстяном мотоциклетном шлеме, голубое небо, соляная пустыня, кинематографический стиль, снято на 35-мм пленку, яркие цвета».
ОТКРЫТЫЙ

Онлайн-платформы, такие как X и Facebook, имеют плохую репутацию в плане модерации. Мы не должны ожидать, что они будут лучше справляться, когда проблема станет сложнее. Мяо работал в TikTok, где он помогал создавать инструмент модерации, который обнаруживает загрузки видео, нарушающие условия использования TikTok. Даже он опасается того, что грядет: «Там есть реальная опасность», — говорит он. «Не доверяйте вещам, которые вы видите на своем ноутбуке».

Blackbird разработала инструмент под названием Compass, который позволяет вам проверять факты в статьях и сообщениях в социальных сетях. Вставьте ссылку в инструмент, и большая языковая модель сгенерирует аннотацию, взятую из надежных онлайн-источников (они всегда открыты для просмотра, говорит Виссинджер), которая дает некоторый контекст для связанного материала. Результат очень похож на заметки сообщества, которые иногда прикрепляются к спорным сообщениям на таких сайтах, как X, Facebook и Instagram. Компания предполагает, что Compass будет генерировать заметки сообщества для чего угодно. «Мы работаем над этим», говорит Виссинджер.

Но люди, которые размещают ссылки на веб-сайте проверки фактов, уже довольно подкованы, и многие другие могут не знать о существовании таких инструментов или не склонны доверять им. Дезинформация также имеет тенденцию распространяться гораздо шире, чем любое последующее исправление.

В то же время люди расходятся во мнениях о том, чья это проблема в первую очередь. Пехоучек говорит, что технологические компании должны открыть свое программное обеспечение, чтобы обеспечить большую конкуренцию в вопросах безопасности и доверия. Это также позволило бы фирмам по кибербезопасности, таким как его, разрабатывать стороннее программное обеспечение для контроля этой технологии. Это то, что произошло 30 лет назад, когда у Windows возникла проблема с вредоносным ПО, говорит он: «Microsoft позволила антивирусным фирмам помочь защитить Windows. В результате онлайн-мир стал более безопасным местом».

Но Пехоучек не слишком оптимистичен. «Разработчикам технологий нужно создавать свои инструменты, ставя безопасность на первое место», — говорит он. «Но больше людей думают о том, как сделать технологию более мощной, чем беспокоятся о том, как сделать ее более безопасной».

Видео, снятое Сорой, с подсказкой: «Вид с дрона на волны, разбивающиеся о скалистые утесы вдоль пляжа Гарай-Пойнт в Биг-Суре. Разбивающиеся голубые воды создают волны с белыми краями, а золотистый свет заходящего солнца освещает скалистый берег. Вдалеке находится небольшой остров с маяком, а зеленый кустарник покрывает край утеса. Крутой спуск от дороги к пляжу — это драматический подвиг, а края утеса выступают над морем. Это вид, который запечатлел грубую красоту побережья и суровый ландшафт шоссе Pacific Coast Highway».
ОТКРЫТЫЙ

В технологической отрасли распространен фаталистический рефрен: грядут перемены, смиритесь с ними. «Генеративный ИИ не перестанет быть изобретенным», — говорит Раскино. «Это может быть не очень популярно, но я думаю, что это правда: я не думаю, что технологические компании могут вынести всю ношу. В конце концов, лучшая защита от любой технологии — это очень образованная публика. Сокращенного пути нет».

Мяо соглашается. «Неизбежно, что мы будем массово внедрять генеративные технологии», — говорит он. «Но это также ответственность всего общества. Нам нужно обучать людей».

«Технологии будут развиваться, и нам нужно быть готовыми к этим изменениям», — добавляет он. «Нам нужно напомнить нашим родителям, нашим друзьям, что то, что они видят на своих экранах, может быть ненастоящим». Это особенно актуально для старшего поколения, говорит он: «Наши родители должны знать об этой опасности. Я думаю, все должны работать сообща».

Нам нужно будет быстро работать вместе. Когда месяц назад вышел Sora, мир технологий был ошеломлен тем, как быстро прогрессировало генеративное видео. Но подавляющее большинство людей даже не подозревают о существовании такого рода технологий, говорит Виссинджер: «Они, конечно, не понимают тенденций, в которых мы находимся. Я думаю, что это захватит мир штормом».

Источник: www.technologyreview.com

❌ Нет тегов для этой статьи
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых