ideipro logotyp

Действие без взаимодействия: исследование физических основ видеосистем LMM с помощью обнаружения контакта и отпускания

arXiv:2511.20162v2 Тип объявления: replace-cross Аннотация: Крупные мультимодальные модели (LMM) демонстрируют растущую производительность в реалистичных визуальных задачах для изображений и, в последнее время, для видео. Например, имея видеопоследовательность, такие модели способны детально описывать объекты, окружение и динамические действия. В этом исследовании мы изучили, в какой степени эти модели основывают свое семантическое понимание на реальном визуальном входе. В частности, имея последовательности взаимодействий рук с объектами, мы спрашивали модели, когда и где начинается или заканчивается взаимодействие. Для этой цели мы представляем первый в своем роде крупномасштабный набор данных, содержащий более 20 000 аннотированных взаимодействий на видео из набора данных Something-Something-V2. 250 аннотаторов AMTurk разметили основные события взаимодействия, в частности, когда и где объекты и агенты прикрепляются («контакт») или отсоединяются («освобождение»). Мы попросили лучшие в своем классе линейные смешанные модели (LMM), включая GPT, Gemini и Qwen, определить местоположение этих событий в коротких видеороликах, каждый из которых содержал одно событие. Результаты показывают, что, хотя модели надежно называют целевые объекты и идентифицируют действия, они демонстрируют своего рода «быстрое обучение», где семантический успех маскирует неудачу в физическом обосновании. В частности, они постоянно не могут определить кадр, где начинается или заканчивается взаимодействие, и плохо локализуют физическое событие в сцене. Это несоответствие предполагает, что, хотя LMM преуспевают в интуитивном распознавании образов на уровне Системы 1 (называние действий и объектов), им не хватает когнитивных основ Системы 2, необходимых для рассуждений о физических примитивах, таких как «контакт» и «освобождение», и, следовательно, для истинного обоснования динамических сцен в физической реальности.

Источник: arxiv.org

✅ Найденные теги: взаимодействие, Видеосистемы, Действие, Исследование, новости, Обнаружение

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Летающая тарелка в ночном лесу, освещающая деревья голубым светом.
Луна видна через иллюминатор космического корабля, окруженного проводами и оборудованием.
Лабораторное оборудование: пробирки, реагенты, пипетки в исследовательской лаборатории.
Цифровая передача данных: серверы, книги и документы на фоне технологий и интернета.
Солдаты Северной Кореи на параде, флаг на фоне, строевое развертывание.
Расширенные советы и рекомендации по использованию NotebookLM для опытных пользователей.
Мужчина работает на ноутбуке, редактируя изображение туманности в графическом редакторе.
Человек редактирует астрофотографию на ноутбуке с помощью специализированного ПО.
Три белых кассетных плеера Maxell на разноцветном фоне.
Image Not Found
Луна видна через иллюминатор космического корабля, окруженного проводами и оборудованием.

Как при проектировании космического корабля «Артемида II» учитывался (относительный) комфорт.

Как при проектировании космического корабля Artemis II учитывался (относительный) комфорт. Фрилансер Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего сайта. Все работы Джорджины Торбет (6…

Апр 10, 2026
Лабораторное оборудование: пробирки, реагенты, пипетки в исследовательской лаборатории.

Российские ученые сравнили адамантан и бороводородный кластер в борьбе с современными штаммами вируса гриппа А

© ИОНХ РАН Междисциплинарный коллектив исследователей из Института общей и неорганической химии им. Н.С. Курнакова РАН, Национального исследовательского центра эпидемиологии и микробиологии им. Н.Ф. Гамалеи, и МИРЭА – Российского технологического университета провел уникальное сравнительное исследование органических и…

Апр 10, 2026
Цифровая передача данных: серверы, книги и документы на фоне технологий и интернета.

Подготовка к получению степени магистра права: практическое руководство по применению RAG в корпоративных базах знаний

Четкая ментальная модель и практическая основа, на которой можно строить дальнейшее развитие. Делиться Каждый инженер-программист, занимающийся искусственным интеллектом, хорошо знаком с таким моментом. Вы только что запустили прототип. Демонстрация прошла блестяще. LLM бегло отвечал на вопросы, синтезировал…

Апр 10, 2026
Солдаты Северной Кореи на параде, флаг на фоне, строевое развертывание.

Вероятно, захват Северной Кореей одного из самых популярных в интернете проектов с открытым исходным кодом готовился несколько недель.

Источник изображения: Ким Вон-Джин / AFP / Getty Images Кибератака, осуществленная Северной Кореей в прошлый понедельник и ненадолго захватившая один из самых популярных проектов с открытым исходным кодом в интернете, заняла несколько недель и является частью длительной…

Апр 10, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых