ideipro logotyp

Действие без взаимодействия: исследование физических основ видеосистем LMM с помощью обнаружения контакта и отпускания

arXiv:2511.20162v2 Тип объявления: replace-cross Аннотация: Крупные мультимодальные модели (LMM) демонстрируют растущую производительность в реалистичных визуальных задачах для изображений и, в последнее время, для видео. Например, имея видеопоследовательность, такие модели способны детально описывать объекты, окружение и динамические действия. В этом исследовании мы изучили, в какой степени эти модели основывают свое семантическое понимание на реальном визуальном входе. В частности, имея последовательности взаимодействий рук с объектами, мы спрашивали модели, когда и где начинается или заканчивается взаимодействие. Для этой цели мы представляем первый в своем роде крупномасштабный набор данных, содержащий более 20 000 аннотированных взаимодействий на видео из набора данных Something-Something-V2. 250 аннотаторов AMTurk разметили основные события взаимодействия, в частности, когда и где объекты и агенты прикрепляются («контакт») или отсоединяются («освобождение»). Мы попросили лучшие в своем классе линейные смешанные модели (LMM), включая GPT, Gemini и Qwen, определить местоположение этих событий в коротких видеороликах, каждый из которых содержал одно событие. Результаты показывают, что, хотя модели надежно называют целевые объекты и идентифицируют действия, они демонстрируют своего рода «быстрое обучение», где семантический успех маскирует неудачу в физическом обосновании. В частности, они постоянно не могут определить кадр, где начинается или заканчивается взаимодействие, и плохо локализуют физическое событие в сцене. Это несоответствие предполагает, что, хотя LMM преуспевают в интуитивном распознавании образов на уровне Системы 1 (называние действий и объектов), им не хватает когнитивных основ Системы 2, необходимых для рассуждений о физических примитивах, таких как «контакт» и «освобождение», и, следовательно, для истинного обоснования динамических сцен в физической реальности.

Источник: arxiv.org

✅ Найденные теги: взаимодействие, Видеосистемы, Действие, Исследование, новости, Обнаружение

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Золотое украшение с профилем мужчины, поврежденное с одной стороны, на чёрном фоне.
Профиль Сатоши Накамото: криптовалютный портфель и стоимость активов.
Робот рисует картину на холсте кистью в художественной студии.
Спасательная операция капсулы в океане с лодками и людьми, надувные буи.
Спасательная операция на море: команда эвакуирует капсулу космического корабля из воды.
Компактные мини-ПК MSI черного и белого цветов с USB-портами на передней панели.
Поверхность с кратером, покрытая песком и камнями, освещена солнечным светом.
Абстрактное изображение частиц, протекающих из центра, синие и разноцветные линии.
Летающая тарелка в ночном лесу, освещающая деревья голубым светом.
Image Not Found
Золотое украшение с профилем мужчины, поврежденное с одной стороны, на чёрном фоне.

В Англии нашли переделанную в подвеску необычную золотую монету. На артефакте IX века изображен Иоанн Креститель

На артефакте IX века изображен Иоанн Креститель Любитель поиска древностей и старинных артефактов с помощью металлоискателя обнаружил в графстве Норфолк, которое находится на востоке Англии, крайне необычную подвеску. Она представляет собой большой фрагмент золотой монеты, имитирующей римский или византийский солид, с проделанным отверстием, за которое…

Апр 10, 2026
Профиль Сатоши Накамото: криптовалютный портфель и стоимость активов.

NYT утверждает, что раскрыла личность создателя биткоина

NYT утверждает, что раскрыла личность создателя биткоина. Под ником Сатоши Накамото якобы скрывается 55-летний британский криптограф Адам Бэк Вывод журналистов газеты основывается на анализе тысяч сообщений из архивной переписки группы киберпанков в 1990-х, с которой были связаны…

Апр 10, 2026
Компактные мини-ПК MSI черного и белого цветов с USB-портами на передней панели.

MSI запустила серию мини-ПК Cubi NUC TWG с процессорами Intel N150 и N250

Если Thermalright предпочитает демонстрировать мини-ПК с AMD Ryzen AI MAX+ 395 и системой жидкостного охлаждения, то MSI готова порадовать любителей значительно более дешёвого, компактного и менее производительного, но всё ещё достаточного для офисной работы. Для этого она…

Апр 10, 2026
Луна видна через иллюминатор космического корабля, окруженного проводами и оборудованием.

Как при проектировании космического корабля «Артемида II» учитывался (относительный) комфорт.

Как при проектировании космического корабля Artemis II учитывался (относительный) комфорт. Фрилансер Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего сайта. Все работы Джорджины Торбет (6…

Апр 10, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых