Рука прикасается к цифровому глобусу под ярким светом на синем фоне.

Следующая революция в области искусственного интеллекта может начаться с мировых моделей

Почему современные системы искусственного интеллекта испытывают трудности с согласованностью и как новые модели мира стремятся дать машинам устойчивое представление о пространстве и времени

Стилизованная цифровая иллюстрация 3D-изображения человеческой руки, которая тянется вниз, чтобы коснуться светящейся точки на фрагментированном, похожем на куб глобусе, на синем фоне, что наводит на мысль связь между человечеством и технологиями

Вы, вероятно, видели, как система искусственного интеллекта выходит из строя. Вы просите показать видео с собакой, и когда собака забегает за диванчик, ее ошейник исчезает. Затем, когда камера поворачивается назад, двухместное кресло превращается в диван.

Часть проблемы заключается в предсказательной природе многих моделей искусственного интеллекта. Подобно моделям, используемым в ChatGPT, которые обучены предсказывать текст, модели генерации видео предсказывают, что статистически наиболее вероятно будет выглядеть следующим. Ни в том, ни в другом случае у ИИ нет четко определенной модели мира, которую он постоянно обновляет для принятия более обоснованных решений.

Но ситуация начинает меняться, поскольку исследователи во многих областях искусственного интеллекта работают над созданием «моделей мира», которые выходят за рамки создания видео и использования чат-ботов для дополненной реальности, робототехника, автономные транспортные средства и даже человекоподобный интеллект — или общий искусственный интеллект (AGI).

О поддержке научной журналистики

Если вам понравилась эта статья, подумайте о том, чтобы поддержать нашу журналистику, отмеченную наградами, подписавшись на нее. Приобретая подписку, вы помогаете обеспечить будущее впечатляющих историй об открытиях и идеях, формирующих наш современный мир.

Простой способ понять моделирование мира — это использовать четырехмерные, или 4D, модели (три измерения плюс время). Для этого давайте вспомним 2012 год, когда «Титаник», спустя 15 лет после его выхода на экраны, был кропотливо преобразован в стереоскопическое 3D. Если бы вы остановили любой кадр, у вас сложилось бы впечатление о расстоянии между персонажами и объектами на корабле. Но если бы Леонардо Ди Каприо стоял спиной к камере, вы не смогли бы обойти его, чтобы увидеть его лицо. Кинематографическая иллюзия 3D создается с помощью стереоскопии — двух слегка отличающихся друг от друга изображений, часто проецируемых в быстром чередовании, одно для левого глаза, другое для правого. Каждый зритель в кинотеатре видит одну и ту же пару изображений и, следовательно, схожий ракурс.

Однако благодаря исследованиям последнего десятилетия становится все более возможным использование нескольких ракурсов. Представьте, что вы понимаете, что вам следовало бы сделать снимок под другим углом, а затем попросить искусственный интеллект внести коррективы, чтобы та же сцена выглядела в новом ракурсе. Начиная с 2020 года, алгоритмы NeRF (neural radiance field) предложили способ создания «новых фотореалистичных видов», но потребовали объединения множества фотографий, чтобы система искусственного интеллекта могла генерировать 3D-представление. Другие 3D-подходы используют искусственный интеллект для прогнозирования недостающей информации, что еще больше отклоняется от реальности.

Теперь представьте, что каждый кадр в «Титанике» был представлен в 3D, так что фильм существовал в 4D. Вы можете прокручивать время, чтобы увидеть разные моменты, или прокручивать пространство, чтобы увидеть его с разных точек зрения. Вы также можете создавать новые версии этого. Например, в недавнем препринте «NeoVerse: Улучшение 4D-модели мира с помощью монокулярных видеороликов» описывается один из способов преобразования видео в 4D-модели для создания новых видеороликов с разных точек зрения.

Но технологии 4D также могут помочь в создании нового видеоконтента. Другой недавний препринт, «Телемир: на пути к динамическому мультимодальному синтезу с использованием 4D-модели мира», относится к сценарию, с которого мы начали: собака бежит за диванчиком. Авторы утверждают, что стабильность видеосистем с искусственным интеллектом улучшается, когда поколение пользователей ориентируется на постоянно обновляемую 4D-модель мира. 4D-модель системы поможет предотвратить превращение диванчика в кушетку, а собаки — в ошейник.

Это первые результаты, но они указывают на более широкую тенденцию: модели, которые обновляют внутреннюю карту сцены по мере создания. Тем не менее, у 4D-моделирования есть приложения, выходящие далеко за рамки создания видео. Для очков с дополненной реальностью (AR) — прототипов очков Orion от Meta — 4D-модель мира представляет собой карту мира пользователя, которая меняется с течением времени. Это позволяет AR-системам сохранять стабильность виртуальных объектов, делать освещение и перспективу правдоподобными и сохранять пространственную память о том, что недавно произошло. Это также позволяет создавать преграды — когда цифровые объекты исчезают за реальными. В документе, опубликованном в 2023 году, это требование сформулировано прямо: «Для достижения окклюзии требуется 3D-модель физической среды».

Возможность быстрого преобразования видео в 4D также предоставляет богатые данные для обучения роботов и автономных транспортных средств тому, как работает реальный мир. А создавая 4D-модели пространства, в котором они находятся, роботы могли бы лучше ориентироваться в нем и предсказывать, что может произойти дальше. Современные модели искусственного интеллекта общего назначения на визуальном языке, которые понимают изображения и текст, но не генерируют четко определенные модели мира, часто допускают ошибки; в контрольном документе, представленном на конференции 2025 года, сообщается о «поразительных ограничениях» в их базовых возможностях моделирования мира, включая «почти случайную точность при определении траекторий движения».

Вот в чем загвоздка: «модель мира» значит гораздо больше для тех, кто стремится к УЧИ. Например, ведущие на сегодняшний день крупные языковые модели (LLM), такие как те, которые поддерживают ChatGPT, имеют неявное представление о мире на основе своих обучающих данных. «В некотором смысле, я бы сказал, что у LLM уже есть очень хорошая модель мира, просто мы на самом деле не понимаем, как она это делает», — говорит Анджу Канадзава, доцент кафедры электротехники и компьютерных наук в Калифорнийском университете в Беркли. Однако эти концептуальные модели не дают физического представления о мире в реальном времени, поскольку магистранты не могут обновлять свои данные об обучении в режиме реального времени. Даже в техническом отчете OpenAI отмечается, что после развертывания его модель GPT-4 «не учитывает опыт».»

«Как вы разрабатываете интеллектуальный Система LLM vision, которая действительно может получать потоковую информацию и обновлять свое понимание мира и действовать соответствующим образом?» — говорит Канадзава. «Это большая открытая проблема. Я думаю, что внедрение AGI невозможно без фактического решения этой проблемы.”

Хотя исследователи спорят о том, смогут ли LLMS когда-либо достичь AGI, многие рассматривают LLMS как компонент будущих систем искусственного интеллекта. LLM будет выступать в качестве уровня, на котором «язык и здравый смысл будут взаимодействовать», — говорит Канадзава; он будет служить «интерфейсом», в то время как более четко определенная базовая модель мира обеспечит необходимую «пространственно-временную память», которая обеспечивает текущее взаимодействие. Не хватает дипломов бакалавра.

В последние годы ряд выдающихся исследователей ИИ обратились к мировым моделям. В 2024 году Фей Фей Ли основал World Labs, которая недавно запустила свое программное обеспечение Marble для создания 3D-миров из «текста, изображений, видео или грубых 3D-макетов», согласно рекламному материалу стартапа. А в ноябре прошлого года исследователь ИИ Ян Лекун объявил в LinkedIn, что покидает Meta, чтобы основать стартап, который теперь называется Advanced Machine Intelligence (AMI Labs), для создания «систем, которые понимают физический мир, обладают постоянной памятью, могут рассуждать и планировать сложные последовательности действий». Он изложил эти идеи в позиционном документе 2022 года, в котором задал вопрос, почему люди могут хорошо действовать в ситуациях, с которыми они никогда не сталкивались, и утверждал, что ответ может заключаться в способности… изучать модели мира, внутренние модели того, как устроен мир.» Исследования все чаще показывают преимущества внутренних моделей. В статье Nature, опубликованной в апреле 2025 года, сообщалось о результатах работы DreamerV3, ИИ-агента, который, изучая модель мира, может улучшить свое поведение, «представляя» сценарии будущего.

Таким образом, хотя в контексте AGI «модель мира» больше относится к внутренней модели того, как работает реальность, а не просто к 4D-реконструкциям, достижения в области 4D-моделирования могут обеспечить компоненты это помогает в понимании точек зрения, запоминании и даже краткосрочном прогнозировании. А пока, на пути к AGI, 4D-модели могут обеспечить полноценное моделирование реальности, в котором можно протестировать ИИ, чтобы убедиться, что, когда мы позволим им работать в реальном мире, они будут знать, как в нем существовать.

✅ Найденные теги: искусственный интеллект, Мировые Модели, новости, Революция, Следующая, Технологии

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых