Удалили человека — изменилась реальность: Netflix учит ИИ переписывать видео
Раньше можно было «стереть» человека с фото.
С видео это не работало — оставались дыры в логике сцены.
Теперь появился VOID — и он решает именно это.
Netflix Research показали фреймворк, который удаляет объект из видео вместе со всеми последствиями его присутствия.
Не просто закрашивает фон, а пересобирает события.
Как это работает:
— пользователь указывает объект
— VLM (например, Gemini) анализирует сцену
— определяет, что изменится: движения, взаимодействия, траектории
— создаётся quadmask — не «оставить/удалить», а более сложная карта изменений
— диффузионная модель (CogVideoX) генерирует альтернативную версию сцены
Результат:
— убрали человека с гитарой → гитара падает
— убрали шар → кегли остаются
— убрали кота → клубок лежит спокойно
То есть сцена ведёт себя так, как будто объекта никогда не было.
Почему это важно:
обычные методы умеют убрать пиксели,
но ломаются на взаимодействиях.
VOID работает именно с причинно-следственными связями.
Как обучали:
— синтетические пары: сцена «с объектом» / «без него»
— инструменты вроде Kubric и Blender с motion capture
— обучение на 8× A100 80GB























