Абстрактное изображение вершины с трофеем и вопросительным знаком, символизирующее успех и загадку.

Исследование: Платформы, ранжирующие новейшие магистерские программы, могут быть ненадежными.

Удаление даже ничтожно малой доли данных, полученных методом краудсорсинга и используемых платформами для ранжирования в интернете, может существенно изменить результаты. Треснувший трофей, затерянный в данных. «В конечном итоге пользователь хочет знать, выбирает ли он лучшую программу магистратуры в области права. Если на этот рейтинг влияют лишь несколько факторов, это говорит о том, что рейтинг может быть не окончательным», — говорит Тамара Бродерик. Изображение: MIT News; iStock

Компания, желающая использовать большую языковую модель (LLM) для обобщения отчетов о продажах или обработки запросов клиентов, может выбирать из сотен уникальных LLM с десятками вариантов, каждый из которых имеет немного отличающиеся характеристики.

Чтобы сузить выбор, компании часто используют платформы для ранжирования программ LLM, которые собирают отзывы пользователей о взаимодействии с моделями, чтобы ранжировать новейшие программы LLM на основе того, как они справляются с определенными задачами.

Однако исследователи из Массачусетского технологического института обнаружили, что небольшое количество взаимодействий с пользователями может исказить результаты, заставляя кого-то ошибочно полагать, что одна модель LLM является идеальным выбором для конкретного случая использования. Их исследование показывает, что удаление небольшой доли данных, полученных методом краудсорсинга, может изменить рейтинг моделей.

Они разработали быстрый метод тестирования рейтинговых платформ и определения их подверженности этой проблеме. Метод оценки выявляет отдельные голоса, наиболее сильно влияющие на искажение результатов, чтобы пользователи могли изучить эти влиятельные голоса.

Исследователи утверждают, что эта работа подчеркивает необходимость более строгих стратегий оценки рейтингов моделей. Хотя в данном исследовании они не фокусировались на смягчении последствий, они предлагают рекомендации, которые могут повысить надежность этих платформ, например, сбор более подробной обратной связи для составления рейтингов.

Исследование также служит предостережением для пользователей, которые могут полагаться на рейтинги при принятии решений о программах магистратуры в области права, которые могут иметь далеко идущие и дорогостоящие последствия для бизнеса или организации.

«Мы были удивлены, насколько чувствительны эти рейтинговые платформы к этой проблеме. Если окажется, что рейтинг лучшего LLM зависит всего от двух или трех отзывов пользователей из десятков тысяч, то нельзя предполагать, что лучший LLM будет постоянно превосходить все остальные LLM после внедрения», — говорит Тамара Бродерик, доцент кафедры электротехники и компьютерных наук (EECS) Массачусетского технологического института (MIT); член Лаборатории информационных и систем принятия решений (LIDS) и Института данных, систем и общества; сотрудник Лаборатории компьютерных наук и искусственного интеллекта (CSAIL); и старший автор этого исследования.

Вместе с ней в работе над статьей приняли участие ведущие авторы и аспиранты факультета электротехники и информатики Дженни Хуанг и Юньи Шен, а также Деннис Вэй, старший научный сотрудник исследовательского центра IBM. Результаты исследования будут представлены на Международной конференции по обучению представлениям.

Удаление данных

Хотя существует множество типов платформ для ранжирования LLM, наиболее популярные варианты предлагают пользователям отправить запрос двум моделям и выбрать ту LLM, которая даст лучший ответ.

Эти платформы объединяют результаты этих сравнений, чтобы составить рейтинги, показывающие, какие магистерские программы лучше всего справились с определенными задачами, такими как программирование или визуальное восприятие.

Выбирая наиболее эффективную модель LLM, пользователь, вероятно, ожидает, что её высокий рейтинг будет обобщающим, то есть она должна превзойти другие модели в аналогичных, но не идентичных задачах с использованием нового набора данных.

Ранее исследователи из Массачусетского технологического института изучали обобщение в таких областях, как статистика и экономика. Эта работа выявила определенные случаи, когда исключение небольшого процента данных может изменить результаты модели, указывая на то, что выводы этих исследований могут быть неприменимы за пределами их узкой области применения.

Исследователи хотели выяснить, можно ли применить тот же анализ к платформам для ранжирования программ магистратуры и магистратуры.

«В конечном итоге пользователь хочет знать, выбирает ли он лучшую программу магистратуры в области права. Если на этот рейтинг влияют лишь несколько факторов, это говорит о том, что рейтинг может быть не определяющим», — говорит Бродерик.

Однако проверить феномен потери данных вручную было бы невозможно. Например, один из рейтингов, который они оценивали, содержал более 57 000 голосов. Проверка потери данных на 0,1 процента означает удаление каждого подмножества из 57 000 голосов (всего подмножеств более 10194), а затем пересчет рейтинга.

Вместо этого исследователи разработали эффективный метод аппроксимации, основанный на их предыдущих работах, и адаптировали его для использования в системах ранжирования LLM.

«Хотя у нас есть теория, доказывающая работоспособность аппроксимации при определенных предположениях, пользователю не нужно ей доверять. Наш метод в конце сообщает пользователю о проблемных точках данных, поэтому он может просто удалить эти точки, повторно запустить анализ и проверить, изменилось ли положение дел», — говорит она.

Удивительно чувствительный

Когда исследователи применили свою методику к популярным рейтинговым платформам, они с удивлением обнаружили, как мало точек данных им нужно было удалить, чтобы вызвать значительные изменения в рейтинге лучших моделей LLM. В одном случае удаление всего двух голосов из более чем 57 000, что составляет 0,0035 процента, изменило рейтинг модели.

Другая платформа для ранжирования, использующая экспертов-аннотаторов и более качественные подсказки, оказалась более надежной. В этом случае удаление 83 из 2575 оценок (около 3 процентов) изменило положение лучших моделей.

Их анализ показал, что многие влиятельные голоса могли быть результатом ошибки пользователя. В некоторых случаях, по словам Бродерика, казалось, что был очевиден ответ на вопрос, какая модель LLM показала лучшие результаты, но пользователь вместо этого выбрал другую модель.

«Мы никогда не можем знать, что было у пользователя в тот момент, но, возможно, он случайно кликнул не туда, не обратил внимания или просто не знал, какой вариант лучше. Главный вывод здесь в том, что не стоит допускать, чтобы шум, ошибки пользователей или какие-то аномальные данные определяли, какой из вариантов является лучшим в магистратуре», — добавляет она.

Исследователи предполагают, что сбор дополнительной обратной связи от пользователей, например, уровня уверенности в каждом голосе, предоставит более полную информацию, которая могла бы помочь смягчить эту проблему. Платформы для ранжирования также могли бы использовать экспертов для оценки ответов, полученных методом краудсорсинга.

Со своей стороны, исследователи хотят продолжить изучение обобщения в других контекстах, а также разработать более совершенные методы аппроксимации, способные учитывать больше примеров неустойчивости.

«Работа Бродерик и ее студентов показывает, как можно получить достоверные оценки влияния конкретных данных на последующие процессы, несмотря на сложность исчерпывающих вычислений, учитывая размер современных моделей машинного обучения и наборов данных», — говорит Джессика Халлман, профессор компьютерных наук имени Джинни Рометти в Северо-Западном университете, которая не принимала участия в этой работе. «Недавняя работа дает представление о сильной зависимости от данных в обычно применяемых — но также очень ненадежных — методах агрегирования человеческих предпочтений и использования их для обновления модели. Понимание того, как небольшое количество предпочтений может действительно изменить поведение точно настроенной модели, может вдохновить на разработку более продуманных методов сбора этих данных».

Данное исследование частично финансируется Управлением военно-морских исследований, лабораторией искусственного интеллекта MIT-IBM Watson, Национальным научным фондом, компанией Amazon и грантом CSAIL.

Источник: news.mit.edu

✅ Найденные теги: Исследование, Магистерские Программы, Ненадежность, новости, Платформы

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

ideipro logotyp
Компания Anthropic отключает возможность использования подписок Claude с OpenClaw и сторонними агентами искусственного интеллекта.
Компания Anthropic отключает возможность использования подписок Claude с OpenClaw и сторонними агентами искусственного интеллекта.
Космический аппарат на фоне Луны в фазе полумесяца в открытом космосе.
ideipro logotyp
Астронавт на Луне с камерой, отражение Земли в шлеме. Космос, исследование.
Астронавт на поверхности Луны, отражение в шлеме, лунная миссия, космическая съемка.
Современный черный игровой компьютерный стол с крючками для наушников и стакана.
Три миски с горохом на столе, узорчатая тарелка и перцы на заднем плане.
Image Not Found
ideipro logotyp

Представляем план обеспечения безопасности детей | OpenAI

Система мер по борьбе с сексуальной эксплуатацией детей с использованием искусственного интеллекта и ее предотвращению. Прочитайте документ (откроется в новом окне) Сексуальная эксплуатация детей — одна из самых актуальных проблем цифровой эпохи. Искусственный интеллект быстро меняет как…

Апр 8, 2026
Компания Anthropic отключает возможность использования подписок Claude с OpenClaw и сторонними агентами искусственного интеллекта.

Компания Anthropic отключает возможность использования подписок Claude с OpenClaw и сторонними агентами искусственного интеллекта.

Карл Франзен Источник: VentureBeat, создано с помощью Google Nano Banana Pro 2 Вы являетесь подписчиком тарифных планов Anthropic Claude Pro (20 долларов в месяц) или Max (100-200 долларов в месяц) и используете модели и продукты Claude AI…

Апр 8, 2026
Компания Anthropic отключает возможность использования подписок Claude с OpenClaw и сторонними агентами искусственного интеллекта.

Компания Anthropic отключает возможность использования подписок Claude с OpenClaw и сторонними агентами искусственного интеллекта.

Карл Франзен Источник: VentureBeat, создано с помощью Google Nano Banana Pro 2 Вы являетесь подписчиком тарифных планов Anthropic Claude Pro (20 долларов в месяц) или Max (100-200 долларов в месяц) и используете модели и продукты Claude AI…

Апр 8, 2026
Космический аппарат на фоне Луны в фазе полумесяца в открытом космосе.

Астронавты починили туалет на борту «Ориона». И в ручном режиме совершили маневры вокруг второй ступени ракеты SLS

И в ручном режиме совершили маневры вокруг второй ступени ракеты SLS «Орион» успешно провел маневры по поднятию околоземной орбиты во время первого пилотируемого полета к Луне по программе «Артемида-2». Астронавты подтвердили возможность управления кораблем в ручном режиме и оперативно…

Апр 8, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых