Архив рубрики ~Лента новостей~

Действие без взаимодействия: исследование физических основ видеосистем LMM с помощью обнаружения контакта и отпускания

Действие без взаимодействия: исследование физических основ видеосистем LMM с помощью обнаружения контакта и отпускания

arXiv:2511.20162v2 Тип объявления: replace-cross Аннотация: Крупные мультимодальные модели (LMM) демонстрируют растущую производительность в реалистичных визуальных задачах для изображений и, в последнее время, для видео. Например, имея видеопоследовательность, такие модели способны детально описывать объекты, окружение и динамические действия. В этом исследовании мы изучили, в какой степени эти модели основывают свое семантическое понимание на реальном визуальном входе. В частности, имея последовательности взаимодействий рук с объектами, мы спрашивали модели, когда и где начинается или заканчивается взаимодействие. Для этой цели мы представляем первый в своем роде крупномасштабный набор данных, содержащий более 20 000 аннотированных взаимодействий на видео из набора данных Something-Something-V2. 250 аннотаторов AMTurk разметили основные события взаимодействия, в частности, когда и где объекты и агенты прикрепляются («контакт») или отсоединяются («освобождение»). Мы попросили лучшие в своем классе линейные смешанные модели (LMM), включая GPT, Gemini и Qwen, определить местоположение этих событий в коротких видеороликах, каждый из которых содержал одно событие. Результаты показывают, что, хотя модели надежно называют целевые объекты и идентифицируют действия, они демонстрируют своего рода «быстрое обучение», где семантический успех маскирует неудачу в физическом обосновании. В частности, они постоянно не могут определить кадр, где начинается или заканчивается взаимодействие, и плохо локализуют физическое событие в сцене. Это несоответствие предполагает, что, хотя LMM преуспевают в интуитивном распознавании образов на уровне Системы 1 (называние действий и объектов), им не хватает когнитивных основ Системы 2, необходимых для рассуждений о физических примитивах, таких как «контакт» и «освобождение», и, следовательно, для истинного обоснования динамических сцен в физической реальности.

Источник: arxiv.org

Оцените материал:

Поделиться
Понравилась статья? Расскажите другим
ВКонтакте
Читайте также
Новости робототехники Сами читают статьи и ставят видеокарты: Nvidia показала самообучающихся роботов ENPIRE Новости робототехники ExRobotics запускает сертифицированную UL инспекционную роботу для программной среды Новости робототехники Первая роботизированная буровая установка на материковой части России создана на базе российских программных продуктов IR-ПАК и IR-OPERBOT от РИГИНТЕЛ Архив рубрики ~Коротко из Telegram~ Google запускает собственную «мини-Википедию» для блогеров и создателей контента. Компания… Архив рубрики ~Коротко из Telegram~ Водители Tesla научились обманывать камеру слежения в салоне головой пластиковой… Архив рубрики ~Коротко из Telegram~ Главная компания ИИ-гонки не выпускает ни моделей, ни чипов ASML… Архив рубрики ~Коротко из Telegram~ DeepSeek-V4-Flash раздают бесплатно по API DeepSeek-V4-Flash временно открыли для бесплатного… Архив рубрики ~Коротко из Telegram~ ИИ помогает работать — и незаметно отучает работать самому Nature… Архив рубрики ~Коротко из Telegram~ GLM-5.2 залетела в дизайн и документы Новости робототехники В Китае кассиров меняют на гуманоидных роботов — сеть Galbot… Архив рубрики ~Коротко из Telegram~ VK Tech и Yadro подписали меморандум о технологическом партнерстве для… Архив рубрики ~Коротко из Telegram~ Яндекс выложил в открытый доступ формат хранения и передачи данных… Архив рубрики ~Коротко из Telegram~ 📷 Вышел новый open-source видеоредактор Palmier, который позволяет AI-модели Claude… Архив рубрики ~Обо всем~ Microsoft добавляет конфигурации с 8 ГБ оперативной памяти, чтобы снизить стартовую цену Surface Pro и Surface Laptop. Новости робототехники Сами читают статьи и ставят видеокарты: Nvidia показала самообучающихся роботов ENPIRE Новости робототехники ExRobotics запускает сертифицированную UL инспекционную роботу для программной среды Новости робототехники Первая роботизированная буровая установка на материковой части России создана на базе российских программных продуктов IR-ПАК и IR-OPERBOT от РИГИНТЕЛ Архив рубрики ~Коротко из Telegram~ Google запускает собственную «мини-Википедию» для блогеров и создателей контента. Компания… Архив рубрики ~Коротко из Telegram~ Водители Tesla научились обманывать камеру слежения в салоне головой пластиковой… Архив рубрики ~Коротко из Telegram~ Главная компания ИИ-гонки не выпускает ни моделей, ни чипов ASML… Архив рубрики ~Коротко из Telegram~ DeepSeek-V4-Flash раздают бесплатно по API DeepSeek-V4-Flash временно открыли для бесплатного… Архив рубрики ~Коротко из Telegram~ ИИ помогает работать — и незаметно отучает работать самому Nature… Архив рубрики ~Коротко из Telegram~ GLM-5.2 залетела в дизайн и документы Новости робототехники В Китае кассиров меняют на гуманоидных роботов — сеть Galbot… Архив рубрики ~Коротко из Telegram~ VK Tech и Yadro подписали меморандум о технологическом партнерстве для… Архив рубрики ~Коротко из Telegram~ Яндекс выложил в открытый доступ формат хранения и передачи данных… Архив рубрики ~Коротко из Telegram~ 📷 Вышел новый open-source видеоредактор Palmier, который позволяет AI-модели Claude… Архив рубрики ~Обо всем~ Microsoft добавляет конфигурации с 8 ГБ оперативной памяти, чтобы снизить стартовую цену Surface Pro и Surface Laptop.

Оставить комментарий