Image

Исследование мультимодальных моделей: как ИИ начинает думать как человек

f115afaac5a47802add6eda70ead2d63

Недавно в журнале Nature вышла статья, которая заставила нас ахнуть: оказывается, современные нейросети начинают думать о мире почти как люди! Учёные из Китая исследовали, как большие языковые модели (LLM) и мультимодальные модели (MLLM) формируют представления об объектах, и сравнили их с человеческим мышлением. Мы разобрали эту работу и рассказываем вам, почему она реально крутая, простым языком. Погнали!

Что за исследование?

Представьте, что вы смотрите на яблоко, собаку и стул. Вы сразу понимаете: яблоко и собака — это что‑то живое, а стул — нет. Собака ближе к кошке, чем к машине. Эта способность группировать и сравнивать объекты — основа нашего мышления. Учёные задались вопросом: могут ли нейросети, такие как ChatGPT или Gemini, делать то же самое? И если да, насколько их «мысли» похожи на наши?

Чтобы это проверить, исследователи собрали 4,7 миллиона ответов на задачу «найди лишнее» (как в детской игре). Они взяли базу из 1854 объектов — от животных до техники — и составили миллионы триплетов (например, «альпака, антилопа, доспехи»). Задача: выбрать, какой объект лишний. Ответы собирали от трёх групп:

  1. Люди — тысячи участников с платформы Amazon Mechanical Turk.

  2. Языковая модель (ChatGPT-3.5) — она видела только текстовые описания объектов (например, «альпака — одомашненная лама с шелковистой шерстью»).

  3. Мультимодальная модель (Gemini ProVision) — она смотрела на картинки объектов.

Из этих ответов учёные построили «ментальные карты» — математические представления, где каждый объект — это точка в многомерном пространстве, а похожие объекты находятся ближе друг к другу. И вот что они нашли.

Ключевые находки

Нейросети думают как люди

Учёные использовали метод SPOS (Sparse Positive Similarity Embedding), чтобы превратить миллионы ответов в 66-мерные карты. Это как координаты для каждого объекта (например, «кот» или «телескоп») в пространстве смыслов. И вот сюрприз: эти карты оказались стабильными и предсказуемыми. Нейросети не просто случайно выбирали ответы — они следовали логике, похожей на человеческую.

Ещё круче: эти 66 измерений оказались понятными для человека. Например, одно измерение объединяло животных, другое — еду, третье — технику. Gemini, которая видела картинки, даже выделила визуальные категории вроде «драгоценности» или «много мелких объектов» — то, чего текстовая ChatGPT не могла. Получается, нейросети сами, без подсказок, научились группировать объекты по смыслу, как мы!

Мультимодальные модели ближе к человеку

Учёные сравнили ментальные карты людей, ChatGPT и Gemini с помощью метода RSA (анализ репрезентативного сходства). Это так же, как проверить, насколько две карты похожи. Результаты:

  • Gemini круче ChatGPT: Мультимодальная модель, которая видит картинки, оказалась намного ближе к человеческому мышлению, чем текстовая ChatGPT.

  • Люди — мастера визуала: Мы лучше улавливаем цвета, формы и текстуры (например, «красное» или «округлое»). У ChatGPT с этим проблемы, а Gemini уже ближе к нам, но всё ещё не дотягивает.

  • ChatGPT — педант: Текстовая модель создаёт очень детальные категории, вроде «замороженные десерты» или «домашний скот», там, где мы просто говорим «еда» или «животные».

Нейросети и мозг работают похоже

Самое ошеломляющее: учёные сравнили ментальные карты нейросетей с активностью человеческого мозга! Они использовали данные fMRI (функциональной магнитно‑резонансной томографии) из проекта Natural Scenes Dataset. Людям показывали тысячи картинок, а их мозговую активность сканировали. Оказалось, что объекты, которые Gemini считает похожими, вызывают похожие реакции в зрительной коре мозга — особенно в областях, отвечающих за лица (FFA), тела (EBA) и сцены (PPA, RSC).

Это не просто совпадение. Это доказывает, что мультимодальные нейросети формируют представления, похожие на человеческие на уровне структуры. Словно ИИ и наш мозг, идя разными путями, пришли к похожим способам понимать мир.

Это исследование показывает, что нейросети, особенно мультимодальные, учатся видеть мир почти как мы. Они не просто имитируют ответы, а строят осмысленные категории — животные, еда, техника. Это открывает путь к ИИ, который будет интуитивно понимать нас, потому что его «взгляд» на мир похож на наш.

Помощь в изучении мозга

Анализируя нейросети, мы можем лучше понять, как работает наш собственный мозг. Если ИИ и мозг используют похожие принципы для категоризации, это даёт учёным новые подсказки о том, как мы думаем.

Философский вопрос

Что такое понимание? Нужен ли биологический мозг, чтобы «понимать» мир? Исследование говорит, что нет — достаточно сложной нейросети и кучи данных. Это размывает грань между искусственным и человеческим интеллектом и заставляет задуматься: где проходит эта граница?

Недостатки исследования

Как и любая научная работа, эта не идеальна. Вот что отметили сами авторы и мы:

  1. Мало моделей: Учёные тестировали только ChatGPT-3.5 и Gemini ProVision. Это старые модели, и хотя результаты, вероятно, применимы к новым, для полной уверенности нужно больше тестов.

  2. Человеческие описания: ChatGPT работала с текстовыми описаниями из базы WordNet, которые уже структурированы людьми. Получается, модель могла просто «отражать» человеческие категории, а не создавать их с нуля.

  3. Корреляция ≠ тождество: Да, карты нейросетей похожи на мозговые, но это не значит, что они работают одинаково. Мозг — это электрохимия и миллионы лет эволюции, а ИИ — математическая оптимизация на чипах.

  4. Чёрный ящик: Метод SPOS показал, какие категории использует ИИ (еда, животные), но не объясняет, как они появились внутри сети.

Заключение

Этоисследование — настоящий прорыв. Оно показывает, что мультимодальные нейросети, такие как Gemini, формируют представления об объектах, которые пугающе похожи на человеческие — и на уровне поведения, и на уровне активности мозга. Это не значит, что ИИ уже стал человеком, но он явно движется в этом направлении. Мы теперь знаем, что нейросети могут сами, без подсказок, выстраивать осмысленные категории, как мы. Это открывает двери к ИИ, который будет понимать нас лучше, и к новым открытиям о нашем собственном мышлении.

Но вопросов ещё много. Как нейросети приходят к этим категориям? Насколько универсальны их «мысли»? И где грань между имитацией и настоящим пониманием? Мы живём в невероятное время, когда ИИ становится всё ближе к нам, и такие исследования — это шаги к разгадке.

Присоединяйтесь к нашему тг-каналу: обсуждаем свежие исследования, делимся инсайтами и разбираем, как ИИ меняет мир.

Источник: habr.com

✅ Найденные теги: Исследование, новости
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых