ideipro logotyp

Действие без взаимодействия: исследование физических основ видеосистем LMM с помощью обнаружения контакта и отпускания

arXiv:2511.20162v2 Тип объявления: replace-cross Аннотация: Крупные мультимодальные модели (LMM) демонстрируют растущую производительность в реалистичных визуальных задачах для изображений и, в последнее время, для видео. Например, имея видеопоследовательность, такие модели способны детально описывать объекты, окружение и динамические действия. В этом исследовании мы изучили, в какой степени эти модели основывают свое семантическое понимание на реальном визуальном входе. В частности, имея последовательности взаимодействий рук с объектами, мы спрашивали модели, когда и где начинается или заканчивается взаимодействие. Для этой цели мы представляем первый в своем роде крупномасштабный набор данных, содержащий более 20 000 аннотированных взаимодействий на видео из набора данных Something-Something-V2. 250 аннотаторов AMTurk разметили основные события взаимодействия, в частности, когда и где объекты и агенты прикрепляются («контакт») или отсоединяются («освобождение»). Мы попросили лучшие в своем классе линейные смешанные модели (LMM), включая GPT, Gemini и Qwen, определить местоположение этих событий в коротких видеороликах, каждый из которых содержал одно событие. Результаты показывают, что, хотя модели надежно называют целевые объекты и идентифицируют действия, они демонстрируют своего рода «быстрое обучение», где семантический успех маскирует неудачу в физическом обосновании. В частности, они постоянно не могут определить кадр, где начинается или заканчивается взаимодействие, и плохо локализуют физическое событие в сцене. Это несоответствие предполагает, что, хотя LMM преуспевают в интуитивном распознавании образов на уровне Системы 1 (называние действий и объектов), им не хватает когнитивных основ Системы 2, необходимых для рассуждений о физических примитивах, таких как «контакт» и «освобождение», и, следовательно, для истинного обоснования динамических сцен в физической реальности.

Источник: arxiv.org

✅ Найденные теги: взаимодействие, Видеосистемы, Действие, Исследование, новости, Обнаружение

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Жировой гепатоз печени, изображение органа с жировыми отложениями.
GE HealthCare и Medtronic интегрируют системы bkActiv iUS и Stealth AXiS.
Знак FDA на здании, управление лекарствами и продуктами США, надписи с эффектом размытия.
Диаграмма процесса создания таксономии и оценки производительности в здравоохранении.
Диаграмма процесса создания таксономии и анализа производительности данных.
Флаг Ирана с наложением двоичного кода, символизирующий цифровую безопасность и технологии.
ideipro logotyp
Зелёная трава на фоне размытых деревьев, символ природы и экологичности.
Мужчина в костюме на фоне современного стеклянного интерьера.
Image Not Found
Жировой гепатоз печени, изображение органа с жировыми отложениями.

Даже эпизодическое злоупотребление алкоголем всего раз в месяц может утроить риск образования рубцов на печени.

Даже нечастое употребление алкоголя в больших количествах может резко повысить риск серьезного повреждения печени, особенно у людей с сопутствующими метаболическими нарушениями. Распределение потребления алкоголя во времени представляется гораздо менее вредным, чем употребление одинакового количества за один раз.…

Апр 10, 2026
GE HealthCare и Medtronic интегрируют системы bkActiv iUS и Stealth AXiS.

GE HealthCare и Medtronic интегрируют системы bkActiv iUS и Stealth AXiS.

Система Stealth AXiS недавно получила разрешение Управления по санитарному надзору за качеством пищевых продуктов и медикаментов США (FDA) для проведения черепно-мозговых операций. Фото: Gorodenkoff / Shutterstock.com. Компания GE HealthCare интегрировала свою интраоперационную ультразвуковую систему bkActiv с хирургической…

Апр 10, 2026
Знак FDA на здании, управление лекарствами и продуктами США, надписи с эффектом размытия.

STAT+: Меняющаяся точка зрения FDA на то, что делает медицинское устройство «прорывным».

Вы читаете веб-версию информационного бюллетеня STAT о технологиях в здравоохранении. Управление оповещениями для этой статьи Отправить эту статью по электронной почте Поделитесь этой статьей Фотоиллюстрация: STAT; Фото: Adobe Вы читаете веб-версию информационного бюллетеня STAT о технологиях в…

Апр 10, 2026
Диаграмма процесса создания таксономии и оценки производительности в здравоохранении.

Комплексная оценка больших языковых моделей для медицинских задач с помощью MedHELM.

Абстрактный Хотя большие языковые модели (LLM) показывают почти идеальные результаты на экзаменах по лицензированию медицинских специалистов, эти оценки неадекватно отражают сложность и разнообразие реальной клинической практики. Здесь мы представляем MedHELM — расширяемую систему оценки, включающую три основных…

Апр 10, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых