Абстрактное изображение вершины с трофеем и вопросительным знаком, символизирующее успех и загадку.

Исследование: Платформы, ранжирующие новейшие магистерские программы, могут быть ненадежными.

Удаление даже ничтожно малой доли данных, полученных методом краудсорсинга и используемых платформами для ранжирования в интернете, может существенно изменить результаты. Треснувший трофей, затерянный в данных. «В конечном итоге пользователь хочет знать, выбирает ли он лучшую программу магистратуры в области права. Если на этот рейтинг влияют лишь несколько факторов, это говорит о том, что рейтинг может быть не окончательным», — говорит Тамара Бродерик. Изображение: MIT News; iStock

Компания, желающая использовать большую языковую модель (LLM) для обобщения отчетов о продажах или обработки запросов клиентов, может выбирать из сотен уникальных LLM с десятками вариантов, каждый из которых имеет немного отличающиеся характеристики.

Чтобы сузить выбор, компании часто используют платформы для ранжирования программ LLM, которые собирают отзывы пользователей о взаимодействии с моделями, чтобы ранжировать новейшие программы LLM на основе того, как они справляются с определенными задачами.

Однако исследователи из Массачусетского технологического института обнаружили, что небольшое количество взаимодействий с пользователями может исказить результаты, заставляя кого-то ошибочно полагать, что одна модель LLM является идеальным выбором для конкретного случая использования. Их исследование показывает, что удаление небольшой доли данных, полученных методом краудсорсинга, может изменить рейтинг моделей.

Они разработали быстрый метод тестирования рейтинговых платформ и определения их подверженности этой проблеме. Метод оценки выявляет отдельные голоса, наиболее сильно влияющие на искажение результатов, чтобы пользователи могли изучить эти влиятельные голоса.

Исследователи утверждают, что эта работа подчеркивает необходимость более строгих стратегий оценки рейтингов моделей. Хотя в данном исследовании они не фокусировались на смягчении последствий, они предлагают рекомендации, которые могут повысить надежность этих платформ, например, сбор более подробной обратной связи для составления рейтингов.

Исследование также служит предостережением для пользователей, которые могут полагаться на рейтинги при принятии решений о программах магистратуры в области права, которые могут иметь далеко идущие и дорогостоящие последствия для бизнеса или организации.

«Мы были удивлены, насколько чувствительны эти рейтинговые платформы к этой проблеме. Если окажется, что рейтинг лучшего LLM зависит всего от двух или трех отзывов пользователей из десятков тысяч, то нельзя предполагать, что лучший LLM будет постоянно превосходить все остальные LLM после внедрения», — говорит Тамара Бродерик, доцент кафедры электротехники и компьютерных наук (EECS) Массачусетского технологического института (MIT); член Лаборатории информационных и систем принятия решений (LIDS) и Института данных, систем и общества; сотрудник Лаборатории компьютерных наук и искусственного интеллекта (CSAIL); и старший автор этого исследования.

Вместе с ней в работе над статьей приняли участие ведущие авторы и аспиранты факультета электротехники и информатики Дженни Хуанг и Юньи Шен, а также Деннис Вэй, старший научный сотрудник исследовательского центра IBM. Результаты исследования будут представлены на Международной конференции по обучению представлениям.

Удаление данных

Хотя существует множество типов платформ для ранжирования LLM, наиболее популярные варианты предлагают пользователям отправить запрос двум моделям и выбрать ту LLM, которая даст лучший ответ.

Эти платформы объединяют результаты этих сравнений, чтобы составить рейтинги, показывающие, какие магистерские программы лучше всего справились с определенными задачами, такими как программирование или визуальное восприятие.

Выбирая наиболее эффективную модель LLM, пользователь, вероятно, ожидает, что её высокий рейтинг будет обобщающим, то есть она должна превзойти другие модели в аналогичных, но не идентичных задачах с использованием нового набора данных.

Ранее исследователи из Массачусетского технологического института изучали обобщение в таких областях, как статистика и экономика. Эта работа выявила определенные случаи, когда исключение небольшого процента данных может изменить результаты модели, указывая на то, что выводы этих исследований могут быть неприменимы за пределами их узкой области применения.

Исследователи хотели выяснить, можно ли применить тот же анализ к платформам для ранжирования программ магистратуры и магистратуры.

«В конечном итоге пользователь хочет знать, выбирает ли он лучшую программу магистратуры в области права. Если на этот рейтинг влияют лишь несколько факторов, это говорит о том, что рейтинг может быть не определяющим», — говорит Бродерик.

Однако проверить феномен потери данных вручную было бы невозможно. Например, один из рейтингов, который они оценивали, содержал более 57 000 голосов. Проверка потери данных на 0,1 процента означает удаление каждого подмножества из 57 000 голосов (всего подмножеств более 10194), а затем пересчет рейтинга.

Вместо этого исследователи разработали эффективный метод аппроксимации, основанный на их предыдущих работах, и адаптировали его для использования в системах ранжирования LLM.

«Хотя у нас есть теория, доказывающая работоспособность аппроксимации при определенных предположениях, пользователю не нужно ей доверять. Наш метод в конце сообщает пользователю о проблемных точках данных, поэтому он может просто удалить эти точки, повторно запустить анализ и проверить, изменилось ли положение дел», — говорит она.

Удивительно чувствительный

Когда исследователи применили свою методику к популярным рейтинговым платформам, они с удивлением обнаружили, как мало точек данных им нужно было удалить, чтобы вызвать значительные изменения в рейтинге лучших моделей LLM. В одном случае удаление всего двух голосов из более чем 57 000, что составляет 0,0035 процента, изменило рейтинг модели.

Другая платформа для ранжирования, использующая экспертов-аннотаторов и более качественные подсказки, оказалась более надежной. В этом случае удаление 83 из 2575 оценок (около 3 процентов) изменило положение лучших моделей.

Их анализ показал, что многие влиятельные голоса могли быть результатом ошибки пользователя. В некоторых случаях, по словам Бродерика, казалось, что был очевиден ответ на вопрос, какая модель LLM показала лучшие результаты, но пользователь вместо этого выбрал другую модель.

«Мы никогда не можем знать, что было у пользователя в тот момент, но, возможно, он случайно кликнул не туда, не обратил внимания или просто не знал, какой вариант лучше. Главный вывод здесь в том, что не стоит допускать, чтобы шум, ошибки пользователей или какие-то аномальные данные определяли, какой из вариантов является лучшим в магистратуре», — добавляет она.

Исследователи предполагают, что сбор дополнительной обратной связи от пользователей, например, уровня уверенности в каждом голосе, предоставит более полную информацию, которая могла бы помочь смягчить эту проблему. Платформы для ранжирования также могли бы использовать экспертов для оценки ответов, полученных методом краудсорсинга.

Со своей стороны, исследователи хотят продолжить изучение обобщения в других контекстах, а также разработать более совершенные методы аппроксимации, способные учитывать больше примеров неустойчивости.

«Работа Бродерик и ее студентов показывает, как можно получить достоверные оценки влияния конкретных данных на последующие процессы, несмотря на сложность исчерпывающих вычислений, учитывая размер современных моделей машинного обучения и наборов данных», — говорит Джессика Халлман, профессор компьютерных наук имени Джинни Рометти в Северо-Западном университете, которая не принимала участия в этой работе. «Недавняя работа дает представление о сильной зависимости от данных в обычно применяемых — но также очень ненадежных — методах агрегирования человеческих предпочтений и использования их для обновления модели. Понимание того, как небольшое количество предпочтений может действительно изменить поведение точно настроенной модели, может вдохновить на разработку более продуманных методов сбора этих данных».

Данное исследование частично финансируется Управлением военно-морских исследований, лабораторией искусственного интеллекта MIT-IBM Watson, Национальным научным фондом, компанией Amazon и грантом CSAIL.

Источник: news.mit.edu

✅ Найденные теги: Исследование, Магистерские Программы, Ненадежность, новости, Платформы

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Клод, OpenClaw и новая реальность: агенты искусственного интеллекта уже здесь — и вместе с ними хаос.
Схема структуры звезды: давление и гравитация, внутреннее строение.
Дети изучают глобус в классе, школьный урок географии.
Космическая перчатка держит загадочную жидкость на фоне космоса, загадки и вопросительные знаки.
Старт ракеты в небо с пусковой площадки, клубы дыма и яркое пламя двигателей.
Материнская плата MSI MEG Z790 ACE с поддержкой игрового процессора и дизайном с драконами.
Запуск космической ракеты в небо, огненные струи.
Запуск ракеты с усилителями в космос на фоне голубого неба.
Шмель пьет каплю воды с поверхности.
Image Not Found
Клод, OpenClaw и новая реальность: агенты искусственного интеллекта уже здесь — и вместе с ними хаос.

Клод, OpenClaw и новая реальность: агенты искусственного интеллекта уже здесь — и вместе с ними хаос.

Даттарадж Рао, Персистентные системы Автор создал текст, используя знак Близнецов. Эпоха агентного ИИ уже наступила — хотим мы этого или нет. То, что началось с невинного обмена вопросами и ответами в ChatGPT в 2022 году, превратилось в…

Апр 8, 2026
Схема структуры звезды: давление и гравитация, внутреннее строение.

Всплески гравитационных волн подтвердили разрыв в распределении масс черных дыр. Раньше подтвердить его наличие не удавалось

Раньше подтвердить его наличие не удавалось Астрономы нашли достаточно надежное доказательство существования разрыва в распределении масс черных дыр, который возникает из-за взрывов их звезд-прародителей как парно-нестабильных сверхновых. В пользу наличия разрыва говорят свойства распределения масс вторичных черных дыр…

Апр 8, 2026
Дети изучают глобус в классе, школьный урок географии.

Почему отказ от развития мышления народа — это стратегическое поражение

На первый взгляд, элитам выгодно, чтобы народ не мыслил слишком глубоко. Управлять людьми с клиповым сознанием, живущими эмоциями и короткими импульсами, гораздо проще: дёрнул за ниточку страха — получил нужную реакцию, пообещал лёгких денег — купил лояльность.…

Апр 8, 2026
Материнская плата MSI MEG Z790 ACE с поддержкой игрового процессора и дизайном с драконами.

MSI, как и ASUS, не будет выпускать новые платы для процессоров Intel Core Ultra 200S Plus

Не успели мы изучить слова энтузиаста GGF Events о том, что ASUS якобы не будет выпускать новых материнских плат специально для обновлённых процессоров Intel Arrow Lake Refresh, как в дело вступает ресурс Wccftech, утверждающий, что по той…

Апр 8, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых