Архив рубрики ~Коротко из Telegram~

MolmoMotion учит ИИ предсказывать движение объектов в 3D Институт Аллена…

MolmoMotion учит ИИ предсказывать движение объектов в 3D Институт Аллена…

MolmoMotion учит ИИ предсказывать движение объектов в 3D

Институт Аллена Ai2 выпустил MolmoMotion — модель, которая смотрит на кадр или короткое видео и предсказывает, как выбранный объект будет двигаться в ближайшие секунды.

На вход подаётся сцена, пользователь отмечает опорные точки на объекте и добавляет инструкцию вроде «подвинь и поверни деревянную миску с фруктами». На выходе модель строит траекторию этих точек уже в трёхмерном пространстве — в метрах относительно камеры.

В основе — Molmo 2 на 4 млрд параметров. Ai2 обучил две версии:
— авторегрессионную, которая достраивает движение шаг за шагом
— flow-matching вариант для ситуаций, где у действия может быть несколько вероятных продолжений

В открытый релиз пока попали только 2 AR-чекпойнта:
H3-F30 — для видео: 3 кадра истории и прогноз примерно на 2 секунды при 15 FPS
H1-F32 — для сценариев, где есть только один кадр

Вместе с моделью выложили датасет MolmoMotion-1M: 1,16 млн видео, 736 типов движения и около 5,6 тыс. объектов. Плюс бенчмарк PointMotionBench на 2,7 тыс. размеченных людьми видеоклипов.

Модель
H3-F30
H1-F32
Датасет
Бенчмарк
Похоже, визуальные модели всё ближе к пониманию физики мира: не просто «что на картинке», а «куда это сейчас поедет, упадёт или повернётся».

Оцените материал:

Поделиться
Понравилась статья? Расскажите другим
ВКонтакте
Читайте также
Архив рубрики ~Лента новостей~ Что под капотом у ИИ-агента для отдела продаж: архитектура, код и грабли Архив рубрики ~Лента новостей~ Видеомодель Alibaba на основе ИИ поднялась на 2-е место в мировом рейтинге, в то время как Sora от OpenAI и Seedance от ByteDance потеряли свои позиции. Архив рубрики ~Лента новостей~ Орбитальные дата-центры Маска: фантастика или следующий этап развития ИИ? Архив рубрики ~Обо всем~ Новейшая модель AirTag только что подешевела до 24 долларов в рамках распродажи Prime Day — и это просто невероятно выгодно! Архив рубрики ~Лента новостей~ Обзор ChatLLM от Abacus AI: многомодельное рабочее пространство для ИИ, созданное для повседневной работы. Архив рубрики ~Лента новостей~ Взлом Klue привёл к утечке данных в нескольких компаниях, занимающихся кибербезопасностью. Новости робототехники Bear Robotics Знакомство Киниси Робототехника, чтобы расширить возможности физического искусственного интеллекта Архив рубрики ~Лента новостей~ Как замена платы за обмен данными в Python на пользовательскую архитектуру памяти графического процессора позволяет добиться детерминированных задержек в микросекундах для многошагового RAG Архив рубрики ~Обо всем~ Марсоход НАСА «Персеверанс» завершил первый запланированный с использованием искусственного интеллекта запуск на Марсе. Новости робототехники Робот-велосипедист впервые без посторонней помощи выполнил переднее сальто благодаря аспиранту. Архив рубрики ~Лента новостей~ OpenAI запускает новую инициативу, призванную помочь в поиске и исправлении ошибок в открытом исходном коде. Архив рубрики ~Лента новостей~ Daybreak: Инструменты для обеспечения безопасности каждой организации в мире | OpenAI Архив рубрики ~Лента новостей~ Утечка GPT-5.6 Pro: Клон «The Sims» одним промптом за 48 минут и революция в генерации 3D Архив рубрики ~Лента новостей~ Нет Claude Fable 5? Не проблема: Sakana достигает передовых результатов благодаря новой многомодельной системе автоматического синтеза Fugu. Архив рубрики ~Лента новостей~ Что под капотом у ИИ-агента для отдела продаж: архитектура, код и грабли Архив рубрики ~Лента новостей~ Видеомодель Alibaba на основе ИИ поднялась на 2-е место в мировом рейтинге, в то время как Sora от OpenAI и Seedance от ByteDance потеряли свои позиции. Архив рубрики ~Лента новостей~ Орбитальные дата-центры Маска: фантастика или следующий этап развития ИИ? Архив рубрики ~Обо всем~ Новейшая модель AirTag только что подешевела до 24 долларов в рамках распродажи Prime Day — и это просто невероятно выгодно! Архив рубрики ~Лента новостей~ Обзор ChatLLM от Abacus AI: многомодельное рабочее пространство для ИИ, созданное для повседневной работы. Архив рубрики ~Лента новостей~ Взлом Klue привёл к утечке данных в нескольких компаниях, занимающихся кибербезопасностью. Новости робототехники Bear Robotics Знакомство Киниси Робототехника, чтобы расширить возможности физического искусственного интеллекта Архив рубрики ~Лента новостей~ Как замена платы за обмен данными в Python на пользовательскую архитектуру памяти графического процессора позволяет добиться детерминированных задержек в микросекундах для многошагового RAG Архив рубрики ~Обо всем~ Марсоход НАСА «Персеверанс» завершил первый запланированный с использованием искусственного интеллекта запуск на Марсе. Новости робототехники Робот-велосипедист впервые без посторонней помощи выполнил переднее сальто благодаря аспиранту. Архив рубрики ~Лента новостей~ OpenAI запускает новую инициативу, призванную помочь в поиске и исправлении ошибок в открытом исходном коде. Архив рубрики ~Лента новостей~ Daybreak: Инструменты для обеспечения безопасности каждой организации в мире | OpenAI Архив рубрики ~Лента новостей~ Утечка GPT-5.6 Pro: Клон «The Sims» одним промптом за 48 минут и революция в генерации 3D Архив рубрики ~Лента новостей~ Нет Claude Fable 5? Не проблема: Sakana достигает передовых результатов благодаря новой многомодельной системе автоматического синтеза Fugu.

Оставить комментарий