Архив рубрики ~Лента новостей~

Действие без взаимодействия: исследование физических основ видеосистем LMM с помощью обнаружения контакта и отпускания

Действие без взаимодействия: исследование физических основ видеосистем LMM с помощью обнаружения контакта и отпускания

arXiv:2511.20162v2 Тип объявления: replace-cross Аннотация: Крупные мультимодальные модели (LMM) демонстрируют растущую производительность в реалистичных визуальных задачах для изображений и, в последнее время, для видео. Например, имея видеопоследовательность, такие модели способны детально описывать объекты, окружение и динамические действия. В этом исследовании мы изучили, в какой степени эти модели основывают свое семантическое понимание на реальном визуальном входе. В частности, имея последовательности взаимодействий рук с объектами, мы спрашивали модели, когда и где начинается или заканчивается взаимодействие. Для этой цели мы представляем первый в своем роде крупномасштабный набор данных, содержащий более 20 000 аннотированных взаимодействий на видео из набора данных Something-Something-V2. 250 аннотаторов AMTurk разметили основные события взаимодействия, в частности, когда и где объекты и агенты прикрепляются («контакт») или отсоединяются («освобождение»). Мы попросили лучшие в своем классе линейные смешанные модели (LMM), включая GPT, Gemini и Qwen, определить местоположение этих событий в коротких видеороликах, каждый из которых содержал одно событие. Результаты показывают, что, хотя модели надежно называют целевые объекты и идентифицируют действия, они демонстрируют своего рода «быстрое обучение», где семантический успех маскирует неудачу в физическом обосновании. В частности, они постоянно не могут определить кадр, где начинается или заканчивается взаимодействие, и плохо локализуют физическое событие в сцене. Это несоответствие предполагает, что, хотя LMM преуспевают в интуитивном распознавании образов на уровне Системы 1 (называние действий и объектов), им не хватает когнитивных основ Системы 2, необходимых для рассуждений о физических примитивах, таких как «контакт» и «освобождение», и, следовательно, для истинного обоснования динамических сцен в физической реальности.

Источник: arxiv.org

Оцените материал:

Читайте также
Архив рубрики ~Обо всем~ Я бы порекомендовал этот мини-телевизор TCL LED, который продается на 1000 долларов дешевле, чем премиальные модели Samsung и LG. Архив рубрики ~Обо всем~ Решение задачи о вероятности для последовательности 3Blue1Brown (без ИИ) Архив рубрики ~Обо всем~ Google подает в суд на китайских мошенников, использующих Gemini AI для совершения мошеннических действий. Архив рубрики ~Обо всем~ Rocket Report: Ракета «Нова» проходит испытательный цикл; IPO SpaceX состоится в пятницу. Архив рубрики ~Обо всем~ Я позволяю Siri видеть мою жизнь на Vision Pro, и это предзнаменование грядущих событий. Архив рубрики ~Обо всем~ Новая электронная книга Boox Go 6 поддерживает использование стилуса для ведения заметок. Новости робототехники Вера в немецких роботов вышла за пределы ЕС Архив рубрики ~Обо всем~ Инженеры, застрявшие внутри, говорят, что созданный всего несколько месяцев назад блок искусственного интеллекта компании Meta — это настоящий ГУЛАГ, где царит атмосфера отчаяния. Архив рубрики ~Коротко из Telegram~ Математики объявили войну ИИ-хайпу Более 150 ведущих мировых математиков опубликовали… Архив рубрики ~Коротко из Telegram~ Siri переезжает в Spotlight и получает доступ к файлам Apple… Архив рубрики ~Коротко из Telegram~ Скилл, который отучает ИИ делать одинаковые сайты Для агентного фронтенда… Архив рубрики ~Коротко из Telegram~ Собираем себе ИИ-офис из агентов Появился Agent Teams — инструмент,… Архив рубрики ~Коротко из Telegram~ Siri стала Siri AI — теперь это не просто ассистент,… Архив рубрики ~Коротко из Telegram~ ХАЛЯВА ОТ NVIDIA: они раздают доступ к 95 бесплатным API… Архив рубрики ~Обо всем~ Я бы порекомендовал этот мини-телевизор TCL LED, который продается на 1000 долларов дешевле, чем премиальные модели Samsung и LG. Архив рубрики ~Обо всем~ Решение задачи о вероятности для последовательности 3Blue1Brown (без ИИ) Архив рубрики ~Обо всем~ Google подает в суд на китайских мошенников, использующих Gemini AI для совершения мошеннических действий. Архив рубрики ~Обо всем~ Rocket Report: Ракета «Нова» проходит испытательный цикл; IPO SpaceX состоится в пятницу. Архив рубрики ~Обо всем~ Я позволяю Siri видеть мою жизнь на Vision Pro, и это предзнаменование грядущих событий. Архив рубрики ~Обо всем~ Новая электронная книга Boox Go 6 поддерживает использование стилуса для ведения заметок. Новости робототехники Вера в немецких роботов вышла за пределы ЕС Архив рубрики ~Обо всем~ Инженеры, застрявшие внутри, говорят, что созданный всего несколько месяцев назад блок искусственного интеллекта компании Meta — это настоящий ГУЛАГ, где царит атмосфера отчаяния. Архив рубрики ~Коротко из Telegram~ Математики объявили войну ИИ-хайпу Более 150 ведущих мировых математиков опубликовали… Архив рубрики ~Коротко из Telegram~ Siri переезжает в Spotlight и получает доступ к файлам Apple… Архив рубрики ~Коротко из Telegram~ Скилл, который отучает ИИ делать одинаковые сайты Для агентного фронтенда… Архив рубрики ~Коротко из Telegram~ Собираем себе ИИ-офис из агентов Появился Agent Teams — инструмент,… Архив рубрики ~Коротко из Telegram~ Siri стала Siri AI — теперь это не просто ассистент,… Архив рубрики ~Коротко из Telegram~ ХАЛЯВА ОТ NVIDIA: они раздают доступ к 95 бесплатным API…

Оставить комментарий