Решение «дилеммы игры в «Ударь крота»»: более эффективный способ устранения предвзятости в моделях компьютерного зрения на основе ИИ.
Новая методика устранения предвзятости, называемая WRING, позволяет избежать создания или усиления предвзятости, которая может возникать при использовании существующих подходов к устранению предвзятости.
До применения алгоритма WRING для устранения предвзятости, модель CLIP была предвзята в отношении корги на изображениях «верных собак» и черно-белых изображений на изображениях «дорогих вещей». Изображение: Алекс Оуян/MIT Jameel Clinic, с использованием материалов Unsplash и AdobeStock.
В современных больницах и клиниках дерматолог может использовать модель искусственного интеллекта для классификации поражений кожи, чтобы оценить, существует ли риск развития рака или же поражение является доброкачественным. Но если модель предвзята по отношению к определенным оттенкам кожи, она может не выявить пациента с высоким риском.
Пожалуй, одной из самых известных и постоянных проблем, с которыми продолжают сталкиваться исследования в области ИИ, является предвзятость. Предвзятость часто обсуждается в контексте обучающих данных, но архитектура модели также может содержать и усиливать предвзятость, негативно влияя на производительность модели в реальных условиях. В критически важных медицинских сценариях реальные последствия низкой производительности превратили предвзятость в важнейшую проблему безопасности.
В новой статье исследователей из Массачусетского технологического института, Вустерского политехнического института и Google, принятой к публикации на Международной конференции по обучению представлениям 2026 года, предлагается новый подход к устранению предвзятости, называемый «взвешенное ротационное устранение предвзятости» (Weighted Rotational DebiasING, WRING), который может быть применен к моделям обработки визуального языка (VLM), таким как OpenCLIP от OpenAI.
VLM — это мультимодальные модели, способные одновременно понимать и интерпретировать различные типы данных, такие как видео, изображения и текст. Хотя существуют подходы к устранению смещения в VLM, наиболее часто используемый подход известен как «проекционное устранение смещения», что приводит к так называемой «дилемме «Ударь крота»» — эмпирическому наблюдению, которое было официально представлено в исследованиях в области ИИ в 2023 году.
Проекционное устранение смещения — это метод постобработки, который удаляет нежелательную, предвзятую информацию из векторных представлений моделей путем «проецирования» подпространства за пределы пространства представлений отношений, тем самым исключая смещение. Однако у этого подхода есть свои недостатки.
«Когда вы это делаете, вы непреднамеренно сжимаете все вокруг», — говорит Уолтер Герич, первый автор статьи, который проводил это исследование в прошлом году в качестве постдока в Массачусетском технологическом институте. «Все остальные взаимосвязи, которые изучает модель, меняются, когда вы это делаете».
К Геричу, который в настоящее время является доцентом кафедры компьютерных наук в Вустерском политехническом институте, в работе над статьей присоединились аспиранты Массачусетского технологического института Кассандра Парент и Куинн Периан; Рафия Джавед из Google; а также доценты кафедры электротехники Массачусетского технологического института Джастин Соломон и Марзие Гассеми, которая является сотрудницей клиники машинного обучения и здравоохранения им. Абдула Латифа Джамиля и Лаборатории информационных и систем принятия решений.
Хотя устранение предвзятости путем проекции предотвращает воздействие на модель предвзятости, спроецированной из подпространства, оно может в конечном итоге усиливать и создавать другие предвзятости, отсюда и дилемма «Ударь крота». По словам Гассеми, непреднамеренное усиление предвзятости модели является «как технической, так и практической проблемой. Например, при устранении предвзятости в VLM, которая извлекает изображения медицинского персонала, — если удалить расовую предвзятость — это может иметь непреднамеренное последствие в виде усиления гендерной предвзятости».
Метод WRING работает за счет перемещения определенных координат в многомерном пространстве модели — тех, которые, по-видимому, отвечают за смещение — под другим углом, так что модель больше не может различать разные группы в рамках определенного понятия. Это изменяет представление в конкретном пространстве, оставляя при этом другие взаимосвязи модели неизменными. И, как и метод коррекции смещения проекции, WRING — это метод постобработки, что означает, что его можно применять «на лету» к предварительно обученной модели VLM.
«Люди уже потратили много ресурсов, много денег на обучение этих огромных моделей, и мы не хотим ничего менять в процессе обучения, потому что тогда придется начинать с нуля», — объясняет Герич. «[WRING] очень эффективен. Он не требует дополнительного обучения модели и является минимально инвазивным».
В своих результатах исследователи обнаружили, что WRING значительно снижает предвзятость в отношении целевой концепции, не увеличивая при этом предвзятость в других областях. Однако на данный момент этот подход в некоторой степени ограничен моделями предварительного обучения контрастивного языка и изображений (CLIP), типом VLM, который связывает изображения с языком для поиска или классификации.
«Расширение этого функционала для генеративных языковых моделей в стиле ChatGPT — это разумный следующий шаг для нас», — говорит Герич.
Данная работа частично финансировалась Национальным научным фондом США в рамках программы CAREER, стипендией AI2050 для молодых ученых, стипендией Sloan Research Fellow Award, премией Фонда Гордона и Бетти Мур, а также премией MIT-Google Computing Innovation Award.
Источник: news.mit.edu

Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.