Image

Почему мышление через видео может быть следующим шагом в развитии ИИ

53cf80ab80a4152a5d72b6a4e5edeec6

Когда мы просим модель рассуждать, она делает это с помощью слов в случае текста или с помощью статичной сцены в случае картинки. Однако окружающий мир не является статичным: объекты могут перемещаться, а правила часто складываются только по их поведению во времени. Авторы предлагают использовать генерацию видео как универсальный канал для рассуждений. Текст в кадры можно буквально вписать, визуальные гипотезы — нарисовать, затем проверить, а затем исправить. В итоге получается рабочее пространство, объединяющее логику, геометрию и язык в едином процессе.

Как выглядит мышление через видео: и визуальные, и текстовые задачи решаются в одном потоке кадров и речи
Как выглядит мышление через видео: и визуальные, и текстовые задачи решаются в одном потоке кадров и речи

Что именно сделали

Авторы собрали бенчмарк задач VideoThinkBench. Он содержит как визуально-центричные задачи (различные визуальные пазлы, а также лабиринты и ARC‑AGI‑2), так и текст-центричные (подвыборки популярных GSM8K, MATH, MMLU/Pro, GPQA). Туда же включены существующие мультимодальные бенчмарки вроде MathVista, MMMU и других, но, конечно, адаптированных для видео‑оценки.

Задачи предлагается решать с помощью двух каналов. В видео просят не только выдать итоговый ответ, но и показать ход решения (например, нарисовать или подчеркнуть что‑то, выписать формулы, явно указать ответ). В аудио — проговорить только ответ. Оценка проводится раздельно: по последнему кадру или по транскрипции проговариваемого. Для визуальных задач в видео вводятся новые проверяемые правила: например, провела ли модель линию, соединяющую две точки, не задевает ли эта линия стены и так далее, верно ли она дорисовала кусок фигуры и совпадает ли он с эталоном.

Обзор 21 типа головоломок: построить точку, линию или фигуру — и сделать это на глаз, без точных измерений
Обзор 21 типа головоломок: построить точку, линию или фигуру — и сделать это на глаз, без точных измерений

Как модель справилась с чисто визуальными задачами

На визуальных задачах Sora‑2 часто показывает себя лучше других. В задачах на геометрию она хорошо справляется в нахождении точки пересечения двух лучей, центра окружности, отражения, путь до точки и прочее. Авторы отмечают, что Sora‑2 умеет проводить перпендикуляры. Лучшим методом оценки, по их наблюдениям, является не только финальный кадр, но и большинство кадров, так как «устойчивость» убирает случайные артефакты в конце видео.

В визуальных пазлах Sora‑2 хорошо справляется с задачами на продолжение цветового или форменного паттерна, то есть закрасить нужную область, подобрать нужный размер фигуры, правильно нарисовать отражение. Авторы отмечают, что это выглядит довольно неожиданно для видеогенератора, потому что это требует хорошей индукции, а не только воспроизведения шаблона.

Пазлы на раскрашивание и дорисовку фигур: модель не угадывает, а выводит правило и применяет его в кадре
Пазлы на раскрашивание и дорисовку фигур: модель не угадывает, а выводит правило и применяет его в кадре

С ARC‑AGI‑2 ситуация сложнее. Строгая автопроверка выдаёт довольно низкий результат, но ручная проверка показывает много частично верных ответов, а также ситуации, когда Sora‑2 меняет решение во время видео, видимо реализуя попытку самокоррекции. В ARC‑AGI‑2 если вместо одного кадра оценивать большинство и добавлять голосование между несколькими запусками, то итоговая точность заметно повышается.

Пример задачи Arc Connect: учёт большинства кадров и голосование повышают точность на десятки пунктов
Пример задачи Arc Connect: учёт большинства кадров и голосование повышают точность на десятки пунктов

Отдельно стоит отметить набор лабиринтов как интересный стресс‑тест. Там проверяют, умеет ли Sora‑2 переносить навык решения лабиринтов в различных топологиях. Авторы отмечают, что Sora‑2 довольно уверенно проводит кратчайший путь в лабиринте, если он находится в квадратной сетке, но сильно теряется, когда лабиринт задан в шестиугольной сетке или в круговой. Это говорит о том, что навык не до конца переносится на новые сцены.

В лабиринтах модель уверена на квадратной сетке, но теряется в других геометриях
В лабиринтах модель уверена на квадратной сетке, но теряется в других геометриях

Что там с текстом и мультимодальностью?

В текст-центричных задачах аудио‑ответ Sora‑2 оказывается неожиданно полезным. Она демонстрирует высокие результаты в GSM8K и довольно близкие к самым высоким в MATH. Она показывает очень хорошие, хотя и не лидирующие, результаты в таких мультимодальных бенчмарках, как MathVista и MMMU. Видео‑ответы оказываются хуже: видимо, аккуратно выписать формулы, подчеркнуть нужный вариант ответа и аккуратно вписать финальный ответ сложнее, чем просто его проговорить.

Как устроена подача и оценка текст-центричных задач: видео для хода решения, аудио для финального ответа
Как устроена подача и оценка текст-центричных задач: видео для хода решения, аудио для финального ответа

Откуда берутся такие способности

Авторы провели дополнительные тесты на утечки. Они сгенерировали задачи для GSM8K и MATH, которые отсутствуют во всех трэйнах, но структурно похожи. Результаты были сопоставимы, что уменьшает шансы на то, что система просто запомнила решения. Другая важная находка касается скрытого переписчика промта. На родственной системе Wan2.5 отключение переписчика почти обнуляет производительность на задачах рассуждения, а включение-возвращает высокую производительность. Это намекает на то, что внутри может быть компонент, который берёт краткий запрос и переписывает его в подробный промт для пошагового решения. Это могло бы объяснить предназначение доказательного видео для Sora‑2: оно обеспечивает устойчивость, удерживая пайплайн, даже если промт переписан, а аудио работает хорошо, потому что ему не нужно записывать каждый шаг, только финальный ответ. Даже если внутри есть скрытый переписчик, система всё равно должна адекватно выполнять такой пошаговый план, отправляя в каждую задачу сложные действия внутри видео и языка.

Для многих правильных ответов ход решения в видео остаётся нечитаемым: логика есть, но с записью проблемы
Для многих правильных ответов ход решения в видео остаётся нечитаемым: логика есть, но с записью проблемы

Для чего всё это

Мы привыкли думать о тексте как о пространстве для рассуждения, о картинках как о сфере визуального распознавания, а о видео как об инструменте рассказа историй. Но Sora‑2 использует видео как рабочее пространство для решения задач, что даёт ей следующие возможности:

  • Проверять гипотезы действиями, например, проводить линию, стирать маску, дорисовывать форму.

  • Удерживать язык и видение вместе, например, писать формулы и одновременно демонстрировать на диаграмме.

  • Использовать время для самокоррекции, так как несколько шагов с голосованием могут помочь преодолеть шум.

Подход далёк от идеала: перенос навыков между геометриями оставляет желать лучшего, часть производительности может зависеть от внутреннего переписчика промта. Тем не менее, это захватывающе. Это единая среда, где навыки построения модели мира, видения и языка могут сосуществовать не как набор токенов, а как действия во времени и пространстве.

Главные выводы: Видео как единая среда для рассуждения работает: система учится как отвечать, так и действовать Sora‑2 особенно сильна в задачах, требующих пространственного или индуктивного рассуждения, и выигрывает от устойчивости по кадрам и повторного прогонов В текстовых наборах аудио превосходит видео.

Для продвижения вперёд необходимы лучшие инструменты для записи хода решения в видео и обучение, стимулирующее перенос между геометриями. Так мышление с помощью видеогенерации становится естественным следующим шагом в развитии ИИ: это единая среда рассуждения, где язык, восприятие и действие существуют в общем временном потоке.

📜 Полная статья

💾 Код

📊 Бенчмарк

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Источник: habr.com

✅ Найденные теги: новости, Почему

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых