Создание более качественных критериев оценки эффективности ИИ: сколько экспертов достаточно?

31.05.2026 ideipro.ru

Мы представляем систему оценки моделей машинного обучения, основанную на «эталонных» данных оценок, которая оптимизирует компромисс между количеством элементов и экспертов, оценивающих каждый элемент, предоставляя план действий для создания высоковоспроизводимых эталонных тестов ИИ, учитывающих нюансы человеческих разногласий.

Быстрые ссылки

Бумага
Симулятор с открытым исходным кодом
Делиться
- Скопировать ссылку ×

В машинном обучении воспроизводимость измеряет, насколько легко повторить одни и те же эксперименты — используя тот же код, данные/распределение и настройки — и получить те же результаты. Высокий уровень воспроизводимости способствует доверию между командами и позволяет им опираться на достижения друг друга.

Проблема воспроизводимости заключается в том, что эталонные данные обычно зависят от людей; а люди, в отличие от машин, подходят к решению любых проблем с разных точек зрения и часто расходятся во мнениях относительно результата. Удивительно мало исследований посвящено изучению влияния фактического игнорирования разногласий между людьми, что является распространенным упущением в бенчмаркинге ИИ. Одна из причин недостатка исследований заключается в ограниченных бюджетах на сбор данных для оценки, основанной на человеческом факторе, а получение большего количества образцов от нескольких экспертов для каждого примера значительно увеличивает затраты на аннотирование каждого элемента.

Использование множественного числа для обозначения нескольких оценок игнорирует вариативность. В обоих приведенных выше примерах множественное число одинаково, но во втором случае оценка явно склоняется к «токсичному».

В статье «Лес против дерева: компромисс ( N , K ) в воспроизводимой оценке машинного обучения» мы исследуем компромисс воспроизводимости между соотношением оцениваемых элементов и количеством экспертов-оценщиков для каждого элемента. Лучше ли иметь меньше экспертов для многих элементов или много экспертов для меньшего количества элементов? Представьте это как вопрос между широтой и глубиной . Подход «ширина» (то есть «лес») предполагает, что 1000 разных человек пробуют по одному блюду в ресторане, чтобы получить общее представление о качестве. Подход «глубина» (древовидный подход) предполагает, что 20 человек пробуют одни и те же 50 блюд, что позволяет получить больше информации о конкретных блюдах, которая может повлиять на общую оценку.

Исторически сложилось так, что в оценке ИИ преобладал подход «леса». Большинство исследователей ограничиваются 1–5 экспертами на каждый пункт, полагая, что этого достаточно для выявления единственной «правильной» истины. Наше исследование показывает, что этот стандарт часто недостаточен для выявления естественных разногласий, и мы предлагаем план действий по созданию более надежных и экономически эффективных эталонных показателей для ИИ.

Эксперимент: Моделирование бюджета

Основная проблема воспроизводимости заключается в том, что субъективность подрывает эмпирическую оценку. Если два разных исследователя проводят одну и ту же оценку и получают разные результаты, исследование не воспроизводимо. Чтобы найти оптимальный баланс между количеством оцениваемых элементов и количеством оценщиков на каждый элемент, мы разработали симулятор на основе реальных наборов данных, включающих субъективные задачи, такие как выявление токсичности и разжигания ненависти.

По сути, мы провели масштабный «стресс-тест», чтобы найти наиболее эффективный способ расходования заданного исследовательского бюджета (например, по стоимости, времени и т. д.). Мы изменили два основных параметра, чтобы определить, какой из них даст наиболее надежные результаты:

Шкала ( N ): Общее количество оцениваемых элементов (от небольшого бюджета в 100 до крупного бюджета в 50 000).
Толпа ( K ): Количество людей, рассматривающих один и тот же предмет (от 1 человека до толпы в 500 человек).

Мы использовали симулятор для тестирования тысяч таких комбинаций в различных масштабах, чтобы определить, какие конфигурации являются наиболее статистически надежными (с p < 0,05) — и, следовательно, воспроизводимыми .

воспроизведение видео без звука зацикливание пауза видео без звука зацикливание включение звука видео выключение звука

Блок-схема нашей системы оценки, предназначенной для сравнения моделей машинного обучения A и B по отношению к «эталонным» меткам.

Для поддержки более широкого сообщества мы опубликовали исходный код этого симулятора в открытом доступе на GitHub.

Наборы данных

Мы используем несколько наборов данных, каждый из которых включает различные категории с несколькими вариантами ответов для каждого элемента:

Набор данных Toxicity состоит из 107 620 комментариев в социальных сетях, помеченных 17 280 экспертами.
Набор данных DICES Diversity in Conversational AI Evaluation for Safety состоит из 350 диалогов с чат-ботами, оцененных с точки зрения безопасности 123 экспертами по 16 параметрам безопасности.
D3code — это большой межкультурный набор данных, включающий 4554 элемента, каждый из которых был оценен на предмет оскорбительного характера 4309 экспертами из 21 страны и сбалансирован по полу и возрасту.
Jobs — это коллекция из 2000 твитов, связанных с работой, каждый из которых помечен пятью экспертами. Эксперты отвечают на 3 вопроса по каждому твиту, а соответствующие наборы обозначаются как JobsQ1/2/3. Категории в JobsQ1/2/3 представляют собой точку зрения на информацию, связанную с работой, статус занятости и события, связанные со сменой работы, соответственно.

Используя эти наборы данных, мы также проверили, что происходит, когда данные «неупорядочены». Например, если 99% электронных писем — спам, и только 1% важны (что указывает на сильное искажение данных), меняет ли это оптимальное распределение оценок (ширина против глубины)? Кроме того, мы также исследовали влияние наличия большего количества категорий данных, например, тегов токсичности, таких как токсичный, слегка оскорбительный, нейтральный и т. д.

Основные выводы: Универсального решения не существует.

Наше исследование выявило три важных момента, которые ставят под сомнение существующее положение дел в области оценки машинного обучения:

1. «Стандарта» в 3–5 оценок недостаточно.

Наши результаты показывают, что распространенная практика использования 1, 3 или 5 экспертов для оценки каждого пункта часто оказывается недостаточной. Такой подход с «небольшим количеством экспертов» не обеспечивает достаточной широты охвата для понимания общей картины и недостаточной глубины для понимания нюансов человеческого мнения. Для достижения действительно надежных результатов, отражающих человеческие нюансы, специалистам часто требуется более 10 экспертов для оценки каждого пункта.

Увеличение числа экспертов, оценивающих каждый пункт, повышает статистическую значимость по мере приближения p-значения к нулю. Это означает, что мы можем отбросить нулевую гипотезу о том, что модели A и B работают одинаково хорошо, что, как показывает симулятор, не соответствует действительности.

2. Показатель определяет стратегию.

Идеального соотношения не существует. Оптимальный компромисс полностью зависит от того, что именно измеряется:

Точность – Голосование большинства : Если цель состоит просто в том, чтобы проверить, соответствует ли модель «голосованию большинства» людей, то подход с использованием леса, как правило, лучше. Добавление большего количества элементов помогает больше, чем добавление большего количества оценщиков.
Нюанс – Диапазон мнений : Если требуется охватить весь спектр человеческих мнений, учитывая тот факт, что «возможно» отличается от «да», то древовидный подход оказывается более эффективным. Увеличение числа оценщиков – единственный способ охватить «все многообразие» человеческого мышления.

3. Эффективность вполне достижима.

Наиболее обнадеживающим результатом является то, что бесконечный бюджет не обязателен. Мы обнаружили, что, правильно оптимизировав соотношение оценок на элемент на основе выбранной метрики, можно добиться высокой воспроизводимости результатов при скромном бюджете около 1000 аннотаций. Однако неправильный выбор баланса может привести к ненадежным выводам, даже при увеличении исследовательского бюджета.

Почему это важно для будущего ИИ

Это исследование имеет жизненно важное значение для будущего надежного ИИ. В течение многих лет в этой области действовала парадигма «единой истины» — идея о том, что для каждого входного параметра существует одна «правильная» метка. Но даже когда существует единственная истина, ее может быть невозможно измерить. И по мере того, как ИИ все больше проникает в субъективные области, такие как этика, выявляя субъективные понятия, такие как вредоносные намерения или характер социального взаимодействия, эта парадигма рушится.

Отходя от «леса» и обращаясь к «дереву», мы можем создать критерии, которые действительно отражают сложность и различные точки зрения, приводящие к естественным разногласиям, встречающимся в человеческом мире. Эта дорожная карта позволяет специалистам разрабатывать более качественные и воспроизводимые тесты без чрезмерных затрат. В конечном счете, понимание причин разногласий между людьми так же важно, как и знание того , в чем они согласны, и наши исследования предоставляют математические инструменты для учета и того, и другого.

Благодарности

В значительной степени эта работа выполнена благодаря сотрудничеству с аспирантом Дипаком Пандитой и профессором Кристофером Хоманом из RIT.

Источник: research.google

Оцените материал:

Оставить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Создание более качественных критериев оценки эффективности ИИ: сколько экспертов достаточно?

Быстрые ссылки