Система V-JEPA использует обычные видео для понимания физики реального мира. Сохранить статью Прочитать позже

Модель демонстрирует понятие «удивления» при демонстрации нефизических сценариев.
Введение
Вот тест для младенцев: покажите им стакан воды на столе. Спрячьте его за деревянной доской. Теперь поднесите доску к стакану. Если доска продолжает проходить мимо стакана, как будто его нет, удивляются ли они? Многие шестимесячные дети удивляются, а к году почти все дети интуитивно понимают постоянство предмета, усваивая его посредством наблюдения. Теперь это делают и некоторые модели искусственного интеллекта.
Исследователи разработали систему искусственного интеллекта, которая узнает об мире с помощью видео и демонстрирует понятие «удивление», когда ей предоставляют информацию, противоречащую полученным ею знаниям.
Модель, созданная компанией Meta и получившая название Video Joint Embedding Predictive Architecture (V-JEPA), не делает никаких предположений о физике мира, представленного в видеороликах. Тем не менее, она позволяет понять, как устроен мир.
«Их утверждения априори весьма правдоподобны, а результаты крайне интересны», — говорит Миха Хейлброн, когнитивный ученый из Амстердамского университета, изучающий, как мозг и искусственные системы осмысливают мир.
Высшие абстракции
Как известно инженерам, создающим беспилотные автомобили, добиться от системы искусственного интеллекта надёжного понимания того, что она видит, может быть непросто. Большинство систем, предназначенных для «понимания» видео, чтобы классифицировать их содержание (например, «человек играет в теннис») или определять контуры объекта, например, машины впереди, работают в так называемом «пиксельном пространстве». По сути, эта модель рассматривает каждый пиксель в видео как равнозначный по важности.
Но эти модели в пиксельном пространстве имеют свои ограничения. Представьте, что вы пытаетесь разобраться в пригородной улице. Если в сцене есть машины, светофоры и деревья, модель может слишком сосредоточиться на несущественных деталях, таких как движение листьев. Она может упустить цвет светофора или положение близлежащих автомобилей. «Когда вы работаете с изображениями или видео, вам не нужно работать в [пиксельном] пространстве, потому что там слишком много деталей, которые вы не хотите моделировать», — сказал Рэндалл Балестриеро, специалист по информатике из Университета Брауна .

Ян Лекун, специалист по информатике из Нью-Йоркского университета и директор по исследованиям в области искусственного интеллекта в Meta, в 2022 году создал JEPA — предшественника V-JEPA, работающего с неподвижными изображениями.
Архитектура V-JEPA, представленная в 2024 году, призвана избежать этих проблем. Хотя специфика различных искусственных нейронных сетей, входящих в состав V-JEPA, сложна, базовая концепция проста.
Обычные системы пиксельного пространства проходят процесс обучения, включающий маскирование некоторых пикселей в кадрах видео и обучение нейронных сетей прогнозированию значений этих замаскированных пикселей. V-JEPA также маскирует части видеокадров. Но он не предсказывает, что находится за замаскированными областями на уровне отдельных пикселей. Вместо этого он использует более высокие уровни абстракции, или «скрытые» представления, для моделирования контента.
Скрытые представления фиксируют только существенные детали данных. Например, имея линейные чертежи различных цилиндров, нейронная сеть, называемая энкодером, может научиться преобразовывать каждое изображение в числа, представляющие основные характеристики каждого цилиндра, такие как его высота, ширина, ориентация и местоположение. Таким образом, информация, содержащаяся в сотнях или тысячах пикселей, преобразуется в несколько чисел — скрытые представления. Отдельная нейронная сеть, называемая декодером, затем обучается преобразовывать существенные детали цилиндра в его изображение.
V-JEPA фокусируется на создании и воспроизведении скрытых представлений. На высоком уровне архитектура разделена на три части: кодер 1, кодер 2 и предиктор. Сначала обучающий алгоритм берёт набор видеокадров, маскирует один и тот же набор пикселей во всех кадрах и передаёт кадры кодеру 1. Иногда последние несколько кадров видео полностью замаскированы. Кодер 1 преобразует замаскированные кадры в скрытые представления. Алгоритм также передаёт немаскированные кадры целиком кодеру 2, который преобразует их в другой набор скрытых представлений.
Теперь в дело вступает предиктор. Он использует скрытые представления, созданные кодером 1, для прогнозирования выходных данных кодера 2. По сути, он берёт скрытые представления, сгенерированные из замаскированных кадров, и предсказывает скрытые представления, сгенерированные из не замаскированных кадров. Воссоздавая соответствующие скрытые представления, а не недостающие пиксели предыдущих систем, модель учится видеть автомобили на дороге и не обращать внимания на листья на деревьях.
«Это позволяет модели отбрасывать ненужную… информацию и концентрироваться на более важных аспектах видео», — сказал Квентин Гарридо, научный сотрудник Meta. «Отбрасывание ненужной информации очень важно, и V-JEPA стремится делать это эффективно».
После завершения этапа предобучения следующим шагом будет адаптация V-JEPA для решения конкретных задач, таких как классификация изображений или распознавание действий, изображённых в видео. Этот этап адаптации требует наличия определённых размеченных человеком данных. Например, видео должны быть снабжены информацией о содержащихся в них действиях. Адаптация к финальным задачам требует гораздо меньше размеченных данных, чем если бы вся система была обучена сквозным образом для решения конкретных задач. Кроме того, одни и те же сети кодировщиков и предикторов можно адаптировать для решения различных задач.
Интуиция Имитатор
В феврале команда V-JEPA сообщила, как их системы справились с пониманием интуитивных физических свойств реального мира, таких как постоянство объектов, постоянство формы и цвета, а также влияние гравитации и столкновений. В тесте IntPhys, требующем от моделей ИИ определения физической правдоподобности или неправдоподобности действий, происходящих на видео, точность V-JEPA составила почти 98%. Известная модель, делающая прогнозы в пиксельном пространстве, показала лишь немного лучше случайного результата.

Автономным роботам необходимо что-то вроде физической интуиции, чтобы планировать свои движения и взаимодействовать с физической средой.
Команда V-JEPA также явно количественно оценила «удивление», демонстрируемое их моделью, когда её прогноз не совпадал с наблюдениями. Они взяли модель V-JEPA, предварительно обученную на естественных видео, добавили в неё новые видео, а затем математически рассчитали разницу между тем, что V-JEPA ожидала увидеть в будущих кадрах видео, и тем, что произошло на самом деле. Команда обнаружила, что ошибка предсказания резко возрастала, когда будущие кадры содержали физически невозможные события. Например, если мяч закатывался за какой-либо заслоняющий объект и временно исчезал из поля зрения, модель генерировала ошибку, когда мяч не появлялся из-за объекта в последующих кадрах. Реакция была похожа на интуитивную реакцию, наблюдаемую у младенцев. Можно сказать, что V-JEPA была удивлена.
Хейлброн впечатлён возможностями V-JEPA. «Из литературы по развитию мы знаем, что младенцам не требуется много времени, чтобы освоить эти виды интуитивной физики», — сказал он. «Убедительно, что они показывают, что этому можно научиться изначально, и для этого не обязательно иметь все эти врождённые априорные знания».
Карл Фристон, специалист по вычислительной нейробиологии из Университетского колледжа Лондона, считает, что V-JEPA находится на верном пути, имитируя «способ, которым наш мозг познаёт и моделирует мир». Однако ему всё ещё не хватает некоторых фундаментальных элементов. «В текущем предложении не хватает правильного кодирования неопределённости», — сказал он. Например, если информации в прошлых кадрах недостаточно для точного предсказания будущих кадров, предсказание становится неопределённым, и V-JEPA не оценивает эту неопределённость количественно.
В июне команда V-JEPA в Meta представила свою модель нового поколения V-JEPA 2 с 1,2 миллиарда параметров, предварительно обученную на 22 миллионах видеороликов. Они также применили эту модель к робототехнике: показали, как можно дополнительно настроить новую предикторную сеть, используя всего около 60 часов данных о роботе (включая видеозаписи робота и информацию о его действиях), а затем использовали настроенную модель для планирования следующих действий робота. «Такая модель может быть использована для решения простых задач роботизированной манипуляции и открывает путь для будущих исследований в этом направлении», — сказал Гарридо.
Чтобы продвинуть V-JEPA 2, команда разработала более сложный тест для интуитивного понимания физики под названием IntPhys 2. V-JEPA 2 и другие модели показали лишь немного лучшие результаты, чем случайный выбор, на этих более сложных тестах. Одна из причин, по словам Гарридо, заключается в том, что V-JEPA 2 может обрабатывать всего несколько секунд видео в качестве входных данных и делать прогнозы на несколько секунд вперёд. Всё, что длиннее, забывается. Можно было бы снова провести сравнение с младенцами, но Гарридо имел в виду другое существо. «В каком-то смысле память модели напоминает золотую рыбку», — сказал он.
Источник: www.quantamagazine.org



























