Абстрактное изображение вершины с трофеем и вопросительным знаком, символизирующее успех и загадку.

Исследование: Платформы, ранжирующие новейшие магистерские программы, могут быть ненадежными.

Удаление даже ничтожно малой доли данных, полученных методом краудсорсинга и используемых платформами для ранжирования в интернете, может существенно изменить результаты. Треснувший трофей, затерянный в данных. «В конечном итоге пользователь хочет знать, выбирает ли он лучшую программу магистратуры в области права. Если на этот рейтинг влияют лишь несколько факторов, это говорит о том, что рейтинг может быть не окончательным», — говорит Тамара Бродерик. Изображение: MIT News; iStock

Компания, желающая использовать большую языковую модель (LLM) для обобщения отчетов о продажах или обработки запросов клиентов, может выбирать из сотен уникальных LLM с десятками вариантов, каждый из которых имеет немного отличающиеся характеристики.

Чтобы сузить выбор, компании часто используют платформы для ранжирования программ LLM, которые собирают отзывы пользователей о взаимодействии с моделями, чтобы ранжировать новейшие программы LLM на основе того, как они справляются с определенными задачами.

Однако исследователи из Массачусетского технологического института обнаружили, что небольшое количество взаимодействий с пользователями может исказить результаты, заставляя кого-то ошибочно полагать, что одна модель LLM является идеальным выбором для конкретного случая использования. Их исследование показывает, что удаление небольшой доли данных, полученных методом краудсорсинга, может изменить рейтинг моделей.

Они разработали быстрый метод тестирования рейтинговых платформ и определения их подверженности этой проблеме. Метод оценки выявляет отдельные голоса, наиболее сильно влияющие на искажение результатов, чтобы пользователи могли изучить эти влиятельные голоса.

Исследователи утверждают, что эта работа подчеркивает необходимость более строгих стратегий оценки рейтингов моделей. Хотя в данном исследовании они не фокусировались на смягчении последствий, они предлагают рекомендации, которые могут повысить надежность этих платформ, например, сбор более подробной обратной связи для составления рейтингов.

Исследование также служит предостережением для пользователей, которые могут полагаться на рейтинги при принятии решений о программах магистратуры в области права, которые могут иметь далеко идущие и дорогостоящие последствия для бизнеса или организации.

«Мы были удивлены, насколько чувствительны эти рейтинговые платформы к этой проблеме. Если окажется, что рейтинг лучшего LLM зависит всего от двух или трех отзывов пользователей из десятков тысяч, то нельзя предполагать, что лучший LLM будет постоянно превосходить все остальные LLM после внедрения», — говорит Тамара Бродерик, доцент кафедры электротехники и компьютерных наук (EECS) Массачусетского технологического института (MIT); член Лаборатории информационных и систем принятия решений (LIDS) и Института данных, систем и общества; сотрудник Лаборатории компьютерных наук и искусственного интеллекта (CSAIL); и старший автор этого исследования.

Вместе с ней в работе над статьей приняли участие ведущие авторы и аспиранты факультета электротехники и информатики Дженни Хуанг и Юньи Шен, а также Деннис Вэй, старший научный сотрудник исследовательского центра IBM. Результаты исследования будут представлены на Международной конференции по обучению представлениям.

Удаление данных

Хотя существует множество типов платформ для ранжирования LLM, наиболее популярные варианты предлагают пользователям отправить запрос двум моделям и выбрать ту LLM, которая даст лучший ответ.

Эти платформы объединяют результаты этих сравнений, чтобы составить рейтинги, показывающие, какие магистерские программы лучше всего справились с определенными задачами, такими как программирование или визуальное восприятие.

Выбирая наиболее эффективную модель LLM, пользователь, вероятно, ожидает, что её высокий рейтинг будет обобщающим, то есть она должна превзойти другие модели в аналогичных, но не идентичных задачах с использованием нового набора данных.

Ранее исследователи из Массачусетского технологического института изучали обобщение в таких областях, как статистика и экономика. Эта работа выявила определенные случаи, когда исключение небольшого процента данных может изменить результаты модели, указывая на то, что выводы этих исследований могут быть неприменимы за пределами их узкой области применения.

Исследователи хотели выяснить, можно ли применить тот же анализ к платформам для ранжирования программ магистратуры и магистратуры.

«В конечном итоге пользователь хочет знать, выбирает ли он лучшую программу магистратуры в области права. Если на этот рейтинг влияют лишь несколько факторов, это говорит о том, что рейтинг может быть не определяющим», — говорит Бродерик.

Однако проверить феномен потери данных вручную было бы невозможно. Например, один из рейтингов, который они оценивали, содержал более 57 000 голосов. Проверка потери данных на 0,1 процента означает удаление каждого подмножества из 57 000 голосов (всего подмножеств более 10194), а затем пересчет рейтинга.

Вместо этого исследователи разработали эффективный метод аппроксимации, основанный на их предыдущих работах, и адаптировали его для использования в системах ранжирования LLM.

«Хотя у нас есть теория, доказывающая работоспособность аппроксимации при определенных предположениях, пользователю не нужно ей доверять. Наш метод в конце сообщает пользователю о проблемных точках данных, поэтому он может просто удалить эти точки, повторно запустить анализ и проверить, изменилось ли положение дел», — говорит она.

Удивительно чувствительный

Когда исследователи применили свою методику к популярным рейтинговым платформам, они с удивлением обнаружили, как мало точек данных им нужно было удалить, чтобы вызвать значительные изменения в рейтинге лучших моделей LLM. В одном случае удаление всего двух голосов из более чем 57 000, что составляет 0,0035 процента, изменило рейтинг модели.

Другая платформа для ранжирования, использующая экспертов-аннотаторов и более качественные подсказки, оказалась более надежной. В этом случае удаление 83 из 2575 оценок (около 3 процентов) изменило положение лучших моделей.

Их анализ показал, что многие влиятельные голоса могли быть результатом ошибки пользователя. В некоторых случаях, по словам Бродерика, казалось, что был очевиден ответ на вопрос, какая модель LLM показала лучшие результаты, но пользователь вместо этого выбрал другую модель.

«Мы никогда не можем знать, что было у пользователя в тот момент, но, возможно, он случайно кликнул не туда, не обратил внимания или просто не знал, какой вариант лучше. Главный вывод здесь в том, что не стоит допускать, чтобы шум, ошибки пользователей или какие-то аномальные данные определяли, какой из вариантов является лучшим в магистратуре», — добавляет она.

Исследователи предполагают, что сбор дополнительной обратной связи от пользователей, например, уровня уверенности в каждом голосе, предоставит более полную информацию, которая могла бы помочь смягчить эту проблему. Платформы для ранжирования также могли бы использовать экспертов для оценки ответов, полученных методом краудсорсинга.

Со своей стороны, исследователи хотят продолжить изучение обобщения в других контекстах, а также разработать более совершенные методы аппроксимации, способные учитывать больше примеров неустойчивости.

«Работа Бродерик и ее студентов показывает, как можно получить достоверные оценки влияния конкретных данных на последующие процессы, несмотря на сложность исчерпывающих вычислений, учитывая размер современных моделей машинного обучения и наборов данных», — говорит Джессика Халлман, профессор компьютерных наук имени Джинни Рометти в Северо-Западном университете, которая не принимала участия в этой работе. «Недавняя работа дает представление о сильной зависимости от данных в обычно применяемых — но также очень ненадежных — методах агрегирования человеческих предпочтений и использования их для обновления модели. Понимание того, как небольшое количество предпочтений может действительно изменить поведение точно настроенной модели, может вдохновить на разработку более продуманных методов сбора этих данных».

Данное исследование частично финансируется Управлением военно-морских исследований, лабораторией искусственного интеллекта MIT-IBM Watson, Национальным научным фондом, компанией Amazon и грантом CSAIL.

Источник: news.mit.edu

✅ Найденные теги: Исследование, Магистерские Программы, Ненадежность, новости, Платформы

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Запуск космической ракеты в небо, огненные струи.
Запуск ракеты с усилителями в космос на фоне голубого неба.
Шмель пьет каплю воды с поверхности.
Шмель пьет каплю воды с гладкой поверхности крупным планом.
Клавиша с надписью "Job change" на серой клавиатуре, символизирующая смену работы.
Клавиша клавиатуры с надписью "Job change" символизирует смену работы.
Подводный древний город с руинами и лестницами на морском дне.
Портрет женщины с длинными волосами в синих тонах на светлом фоне.
Лунный пейзаж с луноходом на поверхности в невесомости, исследование космоса.
Image Not Found
Портрет женщины с длинными волосами в синих тонах на светлом фоне.

Непрерывный мониторинг уровня глюкозы сводил меня с ума.

Компания MAHA одержима этими носимыми устройствами — и делает это по совершенно неправильным причинам. Виктория Сонг, старший рецензент в области носимых технологий. Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту…

Апр 8, 2026
Полупрозрачный бокоплав на черном фоне, вид сбоку.

«Не пара»: бокоплавы оказались способны полностью истребить веслоногих рачков в соленых озерах

Гаммарус © Владимир Яковенко / Из личного архива Ученые выяснили, что два вида рачков — бокоплавы и копеподы, — обитающие в гиперсоленых озерах и специально выращиваемые в аквакультурах, не могут жить вместе долгое время. Это связано с…

Апр 8, 2026
Диаграмма двух методов получения кополимеров: автоклавный и высокое давление.

Материалы для водородной энергетики можно будет создавать быстрее

© Алексей Винюков/ФИЦ ПХФ и МХ РАН Исследователи из Московского центра перспективных исследований, НИТУ МИСИС и ФИЦ проблем химической физики и медицинской химии РАН сравнили два способа приготовления дисперсий перфторированных сульфокислотных иономеров — Nafion и Aquivion, которые…

Апр 8, 2026
Пайплайн отбора признаков: корреляция Спирмена и Крамера, отбор финального набора данных.

Создание надежных моделей кредитного скоринга с помощью Python

Практическое руководство по измерению взаимосвязей между переменными для отбора признаков в системе кредитного скоринга. Делиться Спасибо за ваши отзывы и интерес к моей предыдущей статье. Поскольку несколько читателей спрашивали, как воспроизвести анализ, я решил поделиться полным кодом…

Апр 8, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых