Яркий зонт на пляже под облачным небом, три стадии размытия.

Pixio от Meta* доказывает, что простая реконструкция пикселей может превзойти сложные модели компьютерного зрения

292f63ee1fe71e73dbe50b678905cf66

Исследователи из Meta* AI разработали модель обработки изображений, которая обучается исключительно за счет реконструкции пикселей. Pixio превосходит более сложные методы оценки глубины и 3D-реконструкции, несмотря на меньшее количество параметров и более простой подход к обучению.

Распространенный способ обучения моделей ИИ пониманию изображений заключается в том, чтобы скрыть части изображения и позволить модели заполнить недостающие области. Для этого модель должна научиться понимать, что обычно присутствует на изображениях: формы, цвета, объекты и их пространственное расположение.

Этот метод, известный как маскированный автокодировщик (MAE), недавно считался менее эффективным, чем более сложные методы, такие как DINOv2 или DINOv3. Однако исследовательская группа Meta AI в своем исследовании показала, что это не всегда так: их улучшенная модель Pixio превосходит DINOv3 в ряде практических задач.

Более простое обучение приводит к более глубокому пониманию сцены

Исследователи демонстрируют возможности Pixio на примерах реконструкции пикселей. При работе с изображениями, сильно замаскированными пикселями, модель выходит за рамки реконструкции текстур и улавливает пространственное расположение сцены. Она распознает симметричные цветовые узоры и понимает отражения, даже предсказывая наличие зеркального отражения человека в окне, даже если эта область была скрыта.

Модель MAE использует маскирование и реконструкцию пикселей для захвата совместного появления объектов, трехмерных перспектив, цветовой симметрии и отражений в четырех сценах
Модель MAE использует маскирование и реконструкцию пикселей для захвата совместного появления объектов, трехмерных перспектив, цветовой симметрии и отражений в четырех сценах

Эти возможности возникают потому, что модели необходимо понимать, что видно, чтобы точно это воссоздать: какие объекты присутствуют, как структурировано пространство и какие закономерности повторяются.

Pixio основана на фреймворке MAE, представленном Meta* в 2021 году. Исследователи выявили недостатки в первоначальной конструкции и внесли три основных изменения. Во-первых, они усилили декодер — часть модели, которая восстанавливает отсутствующие пиксели. В оригинальном MAE декодер был слишком поверхностным и слабым, что вынуждало кодировщик жертвовать качеством представления ради восстановления.

0f45947c2fb13eda14f4b75e77cbc0b3

Во-вторых, они увеличили замаскированные области: вместо небольших отдельных квадратов теперь скрыты более крупные смежные блоки. Это предотвращает простое копирование моделью соседних пикселей и заставляет ее фактически понимать изображение.

В-третьих, они добавили несколько токенов [CLS] (токены классов) — специальных токенов, размещенных в начале входных данных, которые объединяют глобальные свойства во время обучения. Каждый токен хранит такую ??информацию, как тип сцены, угол обзора камеры или освещение, помогая модели изучать более универсальные характеристики изображения.

Пропуск оптимизации бенчмарков приносит свои плоды.

Команда собрала два миллиарда изображений из интернета для обучения. В отличие от DINOv2 и DINOv3, исследователи намеренно избегали оптимизации для конкретных тестовых наборов данных. DINOv3, например, вставляет изображения из известного набора данных ImageNet непосредственно в свои обучающие данные и использует их до 100 раз, что составляет около десяти процентов от общего объема обучающих данных. Это повышает результаты на тестах на основе ImageNet, но может ограничить применимость к другим задачам.

Pixio использует более простой подход: изображения, которые сложнее восстановить, чаще появляются во время обучения. Фотографии товаров, которые легко предсказать, появляются реже, а визуально сложные сцены — чаще.

В тестах производительности Pixio с 631 миллионом параметров часто превосходит DINOv3 с 841 миллионом параметров. При оценке монокулярной глубины, вычислении расстояний по одной фотографии, Pixio на 16 процентов точнее, чем DINOv3. Он также превосходит DINOv3 в 3D-реконструкции по фотографиям, даже несмотря на то, что DINOv3 обучался на восьми различных ракурсах для каждой сцены, в то время как Pixio использовал только отдельные изображения.

Pixio обучается исключительно на синтетических изображениях и предоставляет точные оценки глубины в шести реальных тестовых сценариях
Pixio обучается исключительно на синтетических изображениях и предоставляет точные оценки глубины в шести реальных тестовых сценариях

Pixio также лидирует в области обучения роботов, где роботам необходимо делать выводы о действиях на основе изображений с камер: 78,4% по сравнению с 75,3% у DINOv2.

Маскировка имеет свои пределы

У этого метода обучения есть недостатки. Скрытие частей изображения — это искусственная задача, поскольку в реальном мире мы видим целые сцены, отмечают исследователи. Низкие показатели маскирования делают задачу слишком простой, в то время как высокие показатели оставляют слишком мало контекста для осмысленной реконструкции.

Исследователи предполагают, что следующим шагом может стать обучение на основе видео. Используя видео, модель сможет научиться предсказывать будущие кадры на основе прошлых; это более естественная задача, не требующая искусственного маскирования. Команда опубликовала код на GitHub.

Источник

Источник: habr.com

Источник: ai-news.ru

✅ Найденные теги: Meta, Pixio, Компьютерное Зрение, новости, Пиксели, Реконструкция

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых