96c0946d127c53aa7272f8cb5d4f7e78.jpg

Эта модель ИИ может интуитивно понимать, как устроен физический мир

Система V-JEPA использует обычные видео для понимания физики реального мира.

Изображение может содержать комиксы и публикации, связанные с мультяшным искусством, живописью, ребёнком или человеком. Иллюстрация: Кристина Армитаж/Quanta Magazine

Сохранить историю Сохранить эту историю Сохранить историю Сохранить эту историю

Оригинальная версия этой истории была опубликована в журнале Quanta Magazine.

Вот тест для младенцев: покажите им стакан воды на столе. Спрячьте его за деревянной доской. Теперь поднесите доску к стакану. Если доска продолжает проходить мимо стакана, как будто его нет, удивляются ли они? Многие шестимесячные дети удивляются, а к году почти все дети интуитивно понимают постоянство предмета, усваивая его посредством наблюдения. Теперь это делают и некоторые модели искусственного интеллекта.

Исследователи разработали систему искусственного интеллекта, которая узнает об мире с помощью видео и демонстрирует понятие «удивление», когда ей предоставляют информацию, противоречащую полученным ею знаниям.

Модель, созданная компанией Meta и получившая название Video Joint Embedding Predictive Architecture (V-JEPA), не делает никаких предположений о физике мира, представленного в видеороликах. Тем не менее, она позволяет понять, как устроен мир.

«Их утверждения априори весьма правдоподобны, а результаты крайне интересны», — говорит Миха Хейлброн, когнитивный ученый из Амстердамского университета, изучающий, как мозг и искусственные системы осмысливают мир.

Высшие абстракции

Как известно инженерам, создающим беспилотные автомобили, добиться от системы искусственного интеллекта надёжного понимания того, что она видит, может быть непросто. Большинство систем, предназначенных для «понимания» видео, чтобы классифицировать их содержание (например, «человек играет в теннис») или определять контуры объекта, например, машины впереди, работают в так называемом «пиксельном пространстве». По сути, эта модель рассматривает каждый пиксель в видео как равнозначный по важности.

Но эти модели в пиксельном пространстве имеют свои ограничения. Представьте, что вы пытаетесь осмыслить пригородную улицу. Если в сцене есть машины, светофоры и деревья, модель может слишком сосредоточиться на несущественных деталях, таких как движение листьев. Она может упустить цвет светофора или положение близлежащих автомобилей. «Когда вы работаете с изображениями или видео, вам не нужно работать в [пиксельном] пространстве, потому что там слишком много деталей, которые вы не хотите моделировать», — сказал Рэндалл Балестриеро, специалист по информатике из Университета Брауна.

Изображение может содержать лицо Яна Лекуна, счастливую голову, улыбку, портрет, ямочки на щеках, взрослого человека и аксессуары.

Ян Лекун, специалист по информатике из Нью-Йоркского университета и директор по исследованиям искусственного интеллекта в Meta, в 2022 году создал JEPA, предшественника V-JEPA, работающего с неподвижными изображениями.

Фотография: Политехническая школа Париж-Сакле

Архитектура V-JEPA, представленная в 2024 году, призвана избежать этих проблем. Хотя специфика различных искусственных нейронных сетей, входящих в состав V-JEPA, сложна, базовая концепция проста.

Обычные системы пиксельного пространства проходят процесс обучения, включающий маскирование некоторых пикселей в кадрах видео и обучение нейронных сетей прогнозированию значений этих замаскированных пикселей. V-JEPA также маскирует части видеокадров. Но он не предсказывает, что находится за замаскированными областями на уровне отдельных пикселей. Вместо этого он использует более высокие уровни абстракции, или «скрытые» представления, для моделирования контента.

Скрытые представления фиксируют только существенные детали данных. Например, имея линейные чертежи различных цилиндров, нейронная сеть, называемая энкодером, может научиться преобразовывать каждое изображение в числа, представляющие фундаментальные характеристики каждого цилиндра, такие как его высота, ширина, ориентация и местоположение. Таким образом, информация, содержащаяся в сотнях или тысячах пикселей, преобразуется в несколько чисел — скрытые представления. Отдельная нейронная сеть, называемая декодером, затем обучается преобразовывать существенные детали цилиндра в его изображение.

V-JEPA фокусируется на создании и воспроизведении скрытых представлений. На высоком уровне архитектура разделена на три части: кодер 1, кодер 2 и предиктор. Сначала обучающий алгоритм берёт набор видеокадров, маскирует один и тот же набор пикселей во всех кадрах и передаёт кадры кодеру 1. Иногда последние несколько кадров видео полностью замаскированы. Кодер 1 преобразует замаскированные кадры в скрытые представления. Алгоритм также передаёт немаскированные кадры целиком кодеру 2, который преобразует их в другой набор скрытых представлений.

Теперь в дело вступает предиктор. Он использует скрытые представления, созданные кодером 1, для прогнозирования выходных данных кодера 2. По сути, он берёт скрытые представления, сгенерированные из замаскированных кадров, и предсказывает скрытые представления, сгенерированные из не замаскированных кадров. Воссоздавая соответствующие скрытые представления, а не недостающие пиксели предыдущих систем, модель учится видеть автомобили на дороге и не обращать внимания на листья на деревьях.

«Это позволяет модели отбрасывать ненужную… информацию и концентрироваться на более важных аспектах видео», — сказал Квентин Гарридо, научный сотрудник Meta. «Отбрасывание ненужной информации очень важно, и V-JEPA стремится делать это эффективно».

После завершения этапа предобучения следующим шагом будет адаптация V-JEPA для решения конкретных задач, таких как классификация изображений или распознавание действий, изображённых в видео. Этот этап адаптации требует наличия определённых размеченных человеком данных. Например, видео должны быть снабжены информацией о содержащихся в них действиях. Адаптация к финальным задачам требует гораздо меньше размеченных данных, чем если бы вся система была обучена сквозным образом для решения конкретных задач. Кроме того, одни и те же сети кодировщиков и предикторов можно адаптировать для решения различных задач.

Интуиция Имитатор

В феврале команда V-JEPA отчиталась о том, как их системы справились с пониманием интуитивных физических свойств реального мира, таких как постоянство объектов, постоянство формы и цвета, а также влияние гравитации и столкновений. В тесте IntPhys, который требует от моделей ИИ определять, являются ли действия, происходящие в видео, физически правдоподобными или неправдоподобными, точность V-JEPA составила почти 98%. Известная модель, делающая прогнозы в пиксельном пространстве, показала лишь немного лучше случайного результата.

Изображение может содержать ленту с изображением яблок, фруктов и овощей.

Автономным роботам необходимо нечто вроде физической интуиции, чтобы планировать свои движения и взаимодействовать с физической средой.

Фотография: Владимир Булгар/Science Photo Library

Команда V-JEPA также явно количественно оценила «удивление», демонстрируемое их моделью, когда её прогноз не совпадал с наблюдениями. Они взяли модель V-JEPA, предварительно обученную на естественных видео, добавили в неё новые видео, а затем математически рассчитали разницу между тем, что V-JEPA ожидала увидеть в будущих кадрах видео, и тем, что произошло на самом деле. Команда обнаружила, что ошибка предсказания резко возрастала, когда будущие кадры содержали физически невозможные события. Например, если мяч закатывался за какой-либо заслоняющий объект и временно исчезал из поля зрения, модель генерировала ошибку, когда мяч не появлялся из-за объекта в последующих кадрах. Реакция была похожа на интуитивную реакцию, наблюдаемую у младенцев. Можно сказать, что V-JEPA была удивлена.

Хейлброн впечатлён возможностями V-JEPA. «Из литературы по развитию мы знаем, что младенцам не требуется много времени, чтобы освоить эти виды интуитивной физики», — сказал он. «Убедительно, что они показывают, что этому можно научиться изначально, и для этого не обязательно иметь все эти врождённые априорные знания».

Карл Фристон, специалист по вычислительной нейробиологии из Университетского колледжа Лондона, считает, что V-JEPA находится на верном пути, имитируя «способ, которым наш мозг познаёт и моделирует мир». Однако ему всё ещё не хватает некоторых фундаментальных элементов. «В текущем предложении не хватает правильного кодирования неопределённости», — сказал он. Например, если информации в прошлых кадрах недостаточно для точного предсказания будущих кадров, предсказание становится неопределённым, и V-JEPA не оценивает эту неопределённость количественно.

В июне команда V-JEPA в Meta представила свою модель нового поколения V-JEPA 2 с 1,2 миллиарда параметров, предварительно обученную на 22 миллионах видеороликов. Они также применили эту модель к робототехнике: показали, как можно дополнительно настроить новую предикторную сеть, используя всего около 60 часов данных о роботе (включая видеозаписи робота и информацию о его действиях), а затем использовали настроенную модель для планирования следующих действий робота. «Такая модель может быть использована для решения простых задач роботизированной манипуляции и открывает путь для будущих исследований в этом направлении», — сказал Гарридо.

Чтобы продвинуть V-JEPA 2, команда разработала более сложный тест для интуитивного понимания физики под названием IntPhys 2. V-JEPA 2 и другие модели показали лишь немного лучшие результаты, чем случайный выбор, на этих более сложных тестах. Одна из причин, по словам Гарридо, заключается в том, что V-JEPA 2 может обрабатывать всего несколько секунд видео в качестве входных данных и делать прогнозы на несколько секунд вперёд. Всё, что длиннее, забывается. Можно было бы снова провести сравнение с младенцами, но Гарридо имел в виду другое существо. «В каком-то смысле память модели напоминает золотую рыбку», — сказал он.

Оригинальная статья перепечатана с разрешения журнала Quanta Magazine, редакционно-независимого издания Фонда Саймонса, миссия которого заключается в повышении уровня понимания науки среди общественности путем освещения научных разработок и тенденций в области математики, физических и биологических наук.

Источник: www.wired.com

✅ Найденные теги: новости, Эта

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Прежде чем появятся квантовые вычисления, этот стартап хочет привлечь предприятия, которые уже используют эту технологию.
ideipro logotyp
«Загрузка»: роль ИИ в войне с Ираном и эскалация судебной тяжбы.
ideipro logotyp
Обучение с помощью управляемых нейронных сетей позволяет «необучаемым» нейронным сетям реализовать свой потенциал.
Красочное квантовое будущее
Обнаружение штампов и подписей на документах с помощью ADE
Как сделать ваш товар в интернет-магазине видимым для агентов искусственного интеллекта? Используйте эту новую систему, которой доверяют L'Oréal, Unilever, Mars и Beiersdorf.
Вымирающих медососов из Австралии заново обучили традиционной песне. Птицы почти утратили ее из-за сокращения численности вида
Image Not Found
Прежде чем появятся квантовые вычисления, этот стартап хочет привлечь предприятия, которые уже используют эту технологию.

Прежде чем появятся квантовые вычисления, этот стартап хочет привлечь предприятия, которые уже используют эту технологию.

Источник изображения: Matthias Balk/picture alliance via Getty Images / Getty Images Спустя восемнадцать месяцев после продажи своего стартапа производителю микросхем AMD за 665 миллионов долларов финский предприниматель Петер Сарлин покинул пост генерального директора подразделения, ныне известного как…

Мар 13, 2026
ideipro logotyp

Вспышка кори в Южной Каролине замедляется.

Крупнейшая за последние десятилетия вспышка кори в США может закончиться раньше, чем ожидалось. Источник: www.wired.com ✅ Найденные теги: Вспышка, Кори, новости, Южная КаролинаПохожие записиПрежде чем появятся квантовые вычисления, этот стартап хочет привлечь предприятия, которые уже используют эту…

Мар 13, 2026
«Загрузка»: роль ИИ в войне с Ираном и эскалация судебной тяжбы.

«Загрузка»: роль ИИ в войне с Ираном и эскалация судебной тяжбы.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Как искусственный интеллект превращает иранский конфликт в театрализованное представление В контексте иранского конфликта основное внимание уделялось моделям, подобным Claude,…

Мар 13, 2026
ideipro logotyp

Представления, основанные на ожиданиях и акустических нейронных сетях, улучшают распознавание музыки по активности мозга.

arXiv:2603.03190v2 Тип объявления: замена-кросс Аннотация: Во время прослушивания музыки кортикальная активность кодирует как акустическую информацию, так и информацию, связанную с ожиданиями. Предыдущие работы показали, что представления ИНС напоминают кортикальные представления и могут служить в качестве сигналов-контролеров для…

Мар 13, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых