Яркий зонт на пляже под облачным небом, три стадии размытия.

Pixio от Meta* доказывает, что простая реконструкция пикселей может превзойти сложные модели компьютерного зрения

292f63ee1fe71e73dbe50b678905cf66

Исследователи из Meta* AI разработали модель обработки изображений, которая обучается исключительно за счет реконструкции пикселей. Pixio превосходит более сложные методы оценки глубины и 3D-реконструкции, несмотря на меньшее количество параметров и более простой подход к обучению.

Распространенный способ обучения моделей ИИ пониманию изображений заключается в том, чтобы скрыть части изображения и позволить модели заполнить недостающие области. Для этого модель должна научиться понимать, что обычно присутствует на изображениях: формы, цвета, объекты и их пространственное расположение.

Этот метод, известный как маскированный автокодировщик (MAE), недавно считался менее эффективным, чем более сложные методы, такие как DINOv2 или DINOv3. Однако исследовательская группа Meta AI в своем исследовании показала, что это не всегда так: их улучшенная модель Pixio превосходит DINOv3 в ряде практических задач.

Более простое обучение приводит к более глубокому пониманию сцены

Исследователи демонстрируют возможности Pixio на примерах реконструкции пикселей. При работе с изображениями, сильно замаскированными пикселями, модель выходит за рамки реконструкции текстур и улавливает пространственное расположение сцены. Она распознает симметричные цветовые узоры и понимает отражения, даже предсказывая наличие зеркального отражения человека в окне, даже если эта область была скрыта.

Модель MAE использует маскирование и реконструкцию пикселей для захвата совместного появления объектов, трехмерных перспектив, цветовой симметрии и отражений в четырех сценах
Модель MAE использует маскирование и реконструкцию пикселей для захвата совместного появления объектов, трехмерных перспектив, цветовой симметрии и отражений в четырех сценах

Эти возможности возникают потому, что модели необходимо понимать, что видно, чтобы точно это воссоздать: какие объекты присутствуют, как структурировано пространство и какие закономерности повторяются.

Pixio основана на фреймворке MAE, представленном Meta* в 2021 году. Исследователи выявили недостатки в первоначальной конструкции и внесли три основных изменения. Во-первых, они усилили декодер — часть модели, которая восстанавливает отсутствующие пиксели. В оригинальном MAE декодер был слишком поверхностным и слабым, что вынуждало кодировщик жертвовать качеством представления ради восстановления.

0f45947c2fb13eda14f4b75e77cbc0b3

Во-вторых, они увеличили замаскированные области: вместо небольших отдельных квадратов теперь скрыты более крупные смежные блоки. Это предотвращает простое копирование моделью соседних пикселей и заставляет ее фактически понимать изображение.

В-третьих, они добавили несколько токенов [CLS] (токены классов) — специальных токенов, размещенных в начале входных данных, которые объединяют глобальные свойства во время обучения. Каждый токен хранит такую ??информацию, как тип сцены, угол обзора камеры или освещение, помогая модели изучать более универсальные характеристики изображения.

Пропуск оптимизации бенчмарков приносит свои плоды.

Команда собрала два миллиарда изображений из интернета для обучения. В отличие от DINOv2 и DINOv3, исследователи намеренно избегали оптимизации для конкретных тестовых наборов данных. DINOv3, например, вставляет изображения из известного набора данных ImageNet непосредственно в свои обучающие данные и использует их до 100 раз, что составляет около десяти процентов от общего объема обучающих данных. Это повышает результаты на тестах на основе ImageNet, но может ограничить применимость к другим задачам.

Pixio использует более простой подход: изображения, которые сложнее восстановить, чаще появляются во время обучения. Фотографии товаров, которые легко предсказать, появляются реже, а визуально сложные сцены — чаще.

В тестах производительности Pixio с 631 миллионом параметров часто превосходит DINOv3 с 841 миллионом параметров. При оценке монокулярной глубины, вычислении расстояний по одной фотографии, Pixio на 16 процентов точнее, чем DINOv3. Он также превосходит DINOv3 в 3D-реконструкции по фотографиям, даже несмотря на то, что DINOv3 обучался на восьми различных ракурсах для каждой сцены, в то время как Pixio использовал только отдельные изображения.

Pixio обучается исключительно на синтетических изображениях и предоставляет точные оценки глубины в шести реальных тестовых сценариях
Pixio обучается исключительно на синтетических изображениях и предоставляет точные оценки глубины в шести реальных тестовых сценариях

Pixio также лидирует в области обучения роботов, где роботам необходимо делать выводы о действиях на основе изображений с камер: 78,4% по сравнению с 75,3% у DINOv2.

Маскировка имеет свои пределы

У этого метода обучения есть недостатки. Скрытие частей изображения — это искусственная задача, поскольку в реальном мире мы видим целые сцены, отмечают исследователи. Низкие показатели маскирования делают задачу слишком простой, в то время как высокие показатели оставляют слишком мало контекста для осмысленной реконструкции.

Исследователи предполагают, что следующим шагом может стать обучение на основе видео. Используя видео, модель сможет научиться предсказывать будущие кадры на основе прошлых; это более естественная задача, не требующая искусственного маскирования. Команда опубликовала код на GitHub.

Источник

Источник: habr.com

Источник: ai-news.ru

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

ИИ почти всех обгонит? Прогнозы звучат громко, но есть нюансы…
Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.
dummy-img
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
dummy-img
dummy-img
Взаимодействие человека и машины погружается под воду.
Взаимодействие человека и машины погружается под воду.
Image Not Found
Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Вкратце Опубликовано: Изображение предоставлено: Thos Robinson/Getty Images для The New York Times (откроется в новом окне) Джули Борт Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.…

Апр 21, 2026
dummy-img

Как почистить виниловые пластинки (2026): пылесос, ультразвук, чистящий раствор, щетка.

Эти щелчки и треск недопустимы. Приведите свою музыку в порядок с помощью этого удобного руководства. Источник: www.wired.com

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых