Оценка соответствия поведенческих установок у студентов магистратуры.
В рамках нашего продолжающегося исследования поведения и согласованности моделей мы представляем систематическую структуру оценки, которая преобразует существующие методы оценки в крупномасштабные ситуационные тесты для больших языковых моделей. Этот подход, представляющий собой попытку понять и отобразить согласованность моделей, позволяет количественно оценить поведенческие тенденции моделей относительно социальных склонностей человека, выявляя измеримые соответствия и отклонения между результатами работы моделей и общим консенсусом людей.
Поскольку модели поведения интегрируются в нашу повседневную жизнь, понимание их поведения становится крайне важным. В рамках наших постоянных усилий по изучению поведения моделей и соответствия между ними, мы представляем эту работу как первый шаг в этом направлении. Мы фокусируемся на поведенческих диспозициях — основных тенденциях, формирующих реакции в социальных контекстах, — и предлагаем структуру для изучения того, насколько точно диспозиции, проявляемые моделями поведения, соответствуют диспозициям людей.
Поведенческие склонности обычно количественно оцениваются с помощью опросников самоотчета по различным чертам характера (например, эмпатия, напористость), где респонденты оценивают степень своего согласия с утверждениями, выражающими предпочтения, такими как: «Я быстро выражаю свое мнение». Опросники, использованные в этом исследовании, являются стандартизированными, научно обоснованными инструментами, широко используемыми для оценки личностных черт в международных исследованиях и психологии, такими как: IRI (эмпатия), ERQ (регуляция эмоций) и другие. Каждый инструмент основан на рецензируемой литературе, которая устанавливает его психометрическую валидность и надежность с использованием различных стратегий. Для нашего исследования мы выбрали наиболее широко используемые инструменты.
Наша цель — развить подобные психологические опросники, но их прямое применение к людям с ограниченными возможностями развития представляет собой технические сложности, поскольку результаты опросов таких людей чувствительны к формулировке вопросов и изменениям в их распределении. Следовательно, утверждения, «заявляемые» людьми с ограниченными возможностями развития в формате самоотчета, не гарантируют успешного переноса в поведение в реалистичных, открытых ситуациях.
Для решения этих проблем в исследовании «Оценка соответствия поведенческих установок в моделях LLM» наша методология оценивает поведенческие установки моделей LLM в реалистичных сценариях взаимодействия пользователя и помощника, где их консультативная роль может привести к ощутимым результатам. Это исследование является первым шагом в оценке соответствия между человеческим консенсусом и поведением модели в реалистичных, практических сценариях, фокусируясь на повседневном взаимодействии людей и рабочих ситуациях. Мы гарантируем, что эти сценарии остаются основанными на общепринятых психологических опросниках, чтобы отразить суть основных поведенческих черт. Протестированные сценарии включали профессиональную выдержку, разрешение конфликтов, практические задачи, такие как бронирование поездки, и образ жизни или принятие решений в повседневной жизни, подчеркивая поведение модели в условиях, репрезентативных для типичного повседневного опыта человека. Наш масштабный анализ 25 моделей LLM выявляет два типа расхождений: один, когда установки модели отклоняются от консенсуса среди аннотаторов-людей, и другой, когда установки модели не отражают весь спектр мнений людей при отсутствии консенсуса. Эти предварительные результаты подчеркивают возможность улучшения поведенческой согласованности, чтобы модели могли более адекватно учитывать нюансы социальной динамики, и мы ожидаем, что будущие исследования будут опираться на эти результаты.
От самоотчета к ситуативной оценке
Мы начинаем со сбора утверждений из общепринятых, научно обоснованных психологических опросников и адаптируем их в заявления об общей склонности модели к консультированию. Затем адаптированные утверждения используются для создания ситуационных тестов на суждение (SJT), методологии оценки, широко используемой в психологии, прогнозировании поведения и других областях. В этих отраслях SJT являются стандартом для оценки поведенческих компетенций и способности к суждению в сложных условиях. Эти тесты обычно состоят из реалистичных сценариев, представляющих два возможных варианта действий: один поддерживает определенную поведенческую черту, а другой противоречит ей. В нашем исследовании каждый SJT проверяется тремя независимыми аннотаторами для подтверждения того, что (сгенерированный с помощью LLM) сценарий и действия являются согласованными и точно отражают лежащие в основе проверяемые поведенческие маркеры.
В ходе оценки модель получает на вход тест SJT и генерирует естественный ответ, который сопоставляется с одним из двух вариантов действий с помощью LLM-агента.
Поскольку наша цель состоит не в количественной оценке поведенческих предпочтений моделей поведения, а в изучении степени их соответствия человеческому поведению, мы собираем данные о предпочтительных действиях от 10 аннотаторов для каждого сценария ситуативного тестирования из пула в 550 участников и сравниваем полученное распределение предпочтений людей с распределением ответов моделей в каждом сценарии.
Наш конвейер генерации и оценки данных.
Направленное соответствие поведенческих предпочтений LLM
Здесь мы сосредоточимся на подмножестве сценариев, где существует консенсус между экспертами-аннотаторами относительно предпочтительного курса действий. Согласованность в этих случаях важна, поскольку неспособность проявить или подавить признак при высоком уровне согласия между экспертами указывает на поведенческий профиль, который, как правило, отличается от типичных моделей поведения человека.
Мы определяем направленное соответствие как интерпретируемый критерий, проверяющий, присваивает ли модель более высокую вероятность действию, поддерживаемому большинством людей. Соответствие модели затем количественно оценивается процентом сценариев, в которых этот критерий выполняется.
На рисунке ниже представлены результаты по 25 различным моделям LLM и четырем различным характеристикам. Результаты сгруппированы по уровню согласия среди экспертов (из 10 ответов на каждый сценарий): единодушие (10/10), очень высокий уровень согласия (9, 10) и высокий уровень согласия (8, 9).
Процент сценариев, в которых поведение каждой модели совпадает с показаниями экспертов-аннотаторов.
Меньшие по размеру модели (<25B) демонстрируют заметно более низкую направленность выравнивания, о чем свидетельствует более высокая распространенность красных и оранжевых клеток в нижних рядах под черной горизонтальной линией. Эти меньшие модели часто не различают соответствующее проявление или подавление признаков, часто выравниваясь с консенсусом с вероятностью, близкой к случайной.
Модели с большой емкостью (>120 байт) и модели с замкнутыми весами демонстрируют значительное улучшение, достигая почти идеального выравнивания при единодушном согласии среди экспертов-аннотаторов. Однако выравнивание этих моделей по-прежнему стабилизируется на уровне 80-85%, когда консенсус ниже 90%.
Качественный анализ случаев, когда модели поведения отклоняются от предпочтительного поведенческого режима в ситуациях с высоким уровнем консенсуса, выявил несколько интересных закономерностей. Модели, как правило, поощряют эмоциональную открытость в профессиональной среде, где люди рекомендуют сохранять спокойствие. В социальных спорах модели часто отдают приоритет гармонии, а не отстаиванию своей позиции, вопреки предпочтениям участников. Наконец, модели иногда проявляют большую импульсивность, чем люди, рекомендуя немедленные действия вместо логистической проверки в ситуациях, требующих оперативного реагирования.
Отсутствие согласования распределений
Принцип дистрибутивного плюрализма — это принцип справедливости, утверждающий, что распределение ответов модели должно точно отражать разнообразие человеческих точек зрения, а не сходиться к одному доминирующему ответу. Чтобы учесть это в нашей модели, в случаях, когда у людей меньше согласия относительно предпочтительного действия, вероятностная масса модели должна быть более равномерно распределена между двумя возможными действиями, что приведет к снижению уверенности в ее предпочтительном действии.
На рисунке ниже представлена зависимость уверенности модели от согласия между экспертами. В то время как уверенность идеально согласованной модели должна масштабироваться пропорционально консенсусу среди экспертов (пунктирная черная линия), все 25 оцененных моделей (синие линии) демонстрируют систематическую чрезмерную уверенность в своем решении. Сплошная синяя линия, представляющая среднее значение по 25 моделям LLM, иллюстрирует, что модели не отражают присущую им неоднозначность и весь спектр мнений экспертов. Даже в случаях низкого консенсуса, когда мнения экспертов значительно расходятся (50–60% согласия), уверенность остается высокой для всех оцененных моделей.
Уверенность модели как функция консенсуса среди экспертов-аннотаторов.
Лидеры в области прав человека занимают позицию, когда среди людей нет единого мнения.
Мы установили, что когда консенсус среди экспертов-аннотаторов относительно предпочтительного действия низок, модели с низкой степенью согласованности (LLM) не отражают такой неоднозначности, что проявляется в чрезмерной уверенности. На рисунке ниже показано, что направление этой чрезмерной уверенности существенно различается даже между моделями с высокой степенью согласованности. Это говорит о том, что различные процедуры обучения и согласования приводят к уникальным поведенческим установкам.
График плотности распределения среднего балла поддержки признака по четырем признакам в сценариях с низким уровнем согласия среди экспертов-аннотаторов. Ось x представляет тенденцию модели поддерживать проявление признака, где 50% (вертикальная пунктирная линия) указывает на нейтральность. График получен на основе всех 25 оцененных моделей, при этом специальные значки отмечают позиции подмножества моделей, находящихся на границе оптимальных значений (Anthropic Claude 4 Sonnet, Google Gemini 3 Pro, OpenAI GPT 5.1, Mistral Large и DeepSeek R1).
Самоотчеты и выявленное поведение
Достоверность оценки склонностей LLM посредством самооценки соответствия утверждениям анкеты остается активной областью исследований. Хотя некоторые исследователи ставят под сомнение конструктивную валидность этого подхода, другие утверждают, что специальные схемы подсказок позволяют проводить надежную оценку. Хотя разрешение этого спора выходит за рамки данной работы, наша схема, которая напрямую сопоставляет пункты анкеты с поведенческими сценариями, предлагает уникальный взгляд на изучение этой динамики.
На рисунке ниже показано заметное расхождение между самооценкой моделей поведения и их фактическим поведением. Например, модели часто заявляют о низкой импульсивности, однако в их поведении наблюдается тенденция к импульсивности. При изучении распределения внутри каждой черты также наблюдаются явные несоответствия между самооценкой моделей поведения и их фактическим поведением. Этот анализ указывает на потенциальные ограничения в достоверности прямой самооценки и подчеркивает полезность нашей модели как основы для будущих исследований.
Сравнение самооценки склонностей и результатов теста ситуационной чувствительности (SJT). Каждая точка данных представляет собой модель. Оси y и x отображают средние баллы SJT и самооценки соответственно.
Обсуждение
В качестве первого вклада в наше текущее исследование поведения и согласованности моделей мы представляем структуру для оценки поведенческих предпочтений в моделях с низкой степенью согласованности, основывая наш подход на устоявшейся методологии анкетирования и одновременно устраняя ограничения традиционных методов самоотчета. Эта структура позволяет измерять расхождения, когда модели не всегда последовательно отражают консенсус среди экспертов в сценариях с высокой степенью согласованности и недостаточно представляют диапазон мнений в сценариях с низкой степенью согласованности. Это шаг вперед в понимании поведенческих тенденций моделей, и необходимы дальнейшие исследования в таких важных областях, как оценка и устранение выявленных расхождений.
Для более подробного ознакомления с нашей методологией и результатами, прочтите статью здесь.
Благодарности
Данное исследование было проведено Амиром Таубенфельдом, Зориком Гехманом, Лиором Незри, Омри Фельдманом, Натали Харрис, Шаширом Редди, Роминой Стеллой, Ариэлем Гольдштейном, Марианом Кроаком, Йосси Матиасом и Амиром Федером. Мы благодарим Итая Лайша, Рене Шелби, Нино Шеррера, Сивана Эйгера, Сашку Мойсиловича, Авинатана Хассидима, Ронит Левави Морад и Джеймса Маника за рецензирование работы и ценные предложения.
Источник: research.google

Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.