воспроизведение видео без звука зацикливание пауза видео без звука зацикливание включение звука видео выключение звука
Оценка языковых моделей в сложных областях (таких как здравоохранение) может быть дорогостоящей и трудоемкой. Мы представляем новую адаптивную и точную методологию оценки, которая экономит время и повышает согласованность оценок между экспертами по сравнению с существующими протоколами.
Быстрые ссылки
- Бумага
- Делиться
Крупные языковые модели могут использоваться для анализа и интерпретации сложных данных. В наших предыдущих работах было показано, как их можно использовать для генерации полезных, персонализированных ответов при предоставлении пользователю информации о здоровье, включающей образ жизни, биомаркеры и контекст. Строгие и эффективные методологии оценки имеют решающее значение для обеспечения точности, достоверности, релевантности и безопасности ответов. Однако существующие методы оценки в значительной степени зависят от экспертов, что делает их дорогостоящими, трудоемкими и не масштабируемыми. Кроме того, задачи, требующие человеческого суждения, часто требуют тщательной разработки, чтобы избежать предвзятости и низкой согласованности между экспертами.
Учитывая вышеизложенное, в статье «Масштабируемая структура для оценки языковых моделей здравоохранения», опубликованной в njp Digital Medicine , мы представляем структуру оценки, которая направлена на оптимизацию человеческой и автоматизированной оценки открытых вопросов. Наш метод помогает выявлять критические пробелы в ответах модели, используя минимальный набор целевых вопросов рубрики, которые разбивают сложные, многогранные вопросы оценки на детализированные цели оценки, на которые можно ответить с помощью простых логических значений. В частности, мы представляем адаптивные точные логические рубрики как парадигму для масштабируемых оценок в сфере здравоохранения. Мы предположили, что небольшой набор детализированных логических критериев (Да/Нет) повысит согласованность и эффективность оценки сложных запросов. Существующие работы показали, что «детализация» сложных критериев оценки в более крупный набор сфокусированных логических рубрик повышает надежность оценки для задач общего назначения, таких как суммирование и диалог. Наша работа расширяет эти структуры, применяя их к сфере здравоохранения, учитывая персонализацию пользователя с использованием данных о здоровье как в ответах на языковые модели здравоохранения, так и в оценках. Мы подтверждаем эффективность этого подхода в контексте метаболического здоровья, области, охватывающей диабет, сердечно-сосудистые заболевания и ожирение.
воспроизведение видео без звука зацикливание пауза видео без звука зацикливание включение звука видео выключение звука
Для построения входных данных для языковой модели используется набор репрезентативных медицинских запросов и данных с носимых устройств, которые затем оцениваются с помощью предложенной нами системы критериев оценки.
Разработка адаптивных точных булевых критериев оценки
Сначала мы использовали итеративный процесс для преобразования критериев рубрики, характеризующихся сложными вариантами ответов (например, открытый текст или многобалльные шкалы Ликерта), в более детализированный набор критериев рубрики, использующих бинарные варианты ответов (т.е. логические «Да» или «Нет») — подход, который мы называем точными логическими рубриками. Основная цель разработки точных логических рубрик заключалась в повышении согласованности оценок между экспертами в задачах аннотирования и в создании более надежного и действенного сигнала оценки, что облегчает программную интерпретацию и уточнение ответов. Повышенная детализация, обеспечиваемая простым форматом «Да/Нет», снижает субъективность интерпретации и способствует более согласованным оценкам, даже при большем общем количестве вопросов.
Из-за детального характера разработанной нами системы критериев оценки, полученные критерии Precise Boolean содержали значительно большее количество критериев оценки по сравнению с исходными критериями, основанными на шкале Ликерта. Хотя методы автоматической оценки хорошо справляются с возросшим объемом критериев, разработка предложенных критериев Precise Boolean вручную оказалась чрезмерно ресурсоемкой. Для снижения этой нагрузки мы усовершенствовали подход Precise Boolean, чтобы динамически фильтровать обширный набор вопросов критериев, сохраняя только наиболее релевантные критерии в зависимости от конкретных оцениваемых данных. Эта адаптация, основанная на данных и получившая название Adaptive Precise Boolean rubric, позволила сократить количество оценок, необходимых для каждого ответа в рамках LLM. Это связано с тем, что запросы пользователей и соответствующие результаты LLM часто имеют узкую тематику, требующую оценки только по подмножеству критериев критериев, относящихся к этим темам.
Для преобразования точных булевых критериев в адаптивные точные булевые критерии мы использовали Gemini в качестве классификатора вопросов с нулевым количеством примеров. Входными данными для LLM являются пользовательский запрос, соответствующий оцениваемый ответ LLM и конкретный критерий критерия. Затем LLM выдает результат, является ли критерий релевантным или нет. Для проверки этого адаптивного подхода мы создали эталонный набор данных на основе аннотаций классификации вопросов, предоставленных тремя медицинскими экспертами, с использованием голосования по большинству для определения консенсусной аннотации. Критерии, полученные на основе использования этого эталонного набора данных для адаптации, называются адаптивными точными булевыми критериями .

Пример запроса и ответа с выделением ссылок на конкретные релевантные части ответа, а также примеры ответов на вопросы оценочной шкалы (Ликерта, точные логические операторы и адаптивные точные логические операторы).
Ключевые результаты
Улучшение согласованности между экспертами и сокращение времени оценки.
В настоящее время для оценки моделей поведения в здравоохранении часто используются шкалы Ликерта. Мы сравнили этот базовый показатель с нашими основанными на данных точными булевыми шкалами. Наши результаты показали значительно более высокую межэкспертную надежность при использовании точных булевых шкал, измеренную с помощью коэффициентов внутриклассовой корреляции (ICC), по сравнению с традиционными шкалами Ликерта.
Ключевым преимуществом нашего подхода является его эффективность. Адаптивные точные булевы критерии оценки привели к высокой согласованности оценок между экспертами при использовании полной точной булевой шкалы, одновременно сократив время оценки более чем на 50%. Это повышение эффективности делает наш метод быстрее, чем даже оценки по шкале Ликерта, что повышает масштабируемость оценки LLM. Тот факт, что это также обеспечивает более высокую надежность оценок между экспертами, подтверждает аргумент о том, что такая упрощенная система оценки также обеспечивает более качественный сигнал.

Слева: Межэкспертная корреляция, измеренная с помощью коэффициента внутриклассовой корреляции (ICC), между различными подгруппами — экспертами (специалистами и неспециалистами) и автоматизированной оценкой. Справа: Адаптивные точные булевы критерии оценки занимают примерно вдвое меньше времени по сравнению с вопросами по шкале Ликерта.
Повышенная чувствительность к качеству ответа
Для проверки эффективности наших критериев оценки мы исследовали их чувствительность к изменениям качества ответов. Мы систематически дополняли пользовательские запросы всё большим количеством контекстных данных о здоровье, предполагая, что более подробные запросы приведут к получению более качественных ответов на вопросы с низким и средним уровнем чувствительности. Результаты, подтверждающие это предположение, будут подробно рассмотрены ниже.
Средние оценки по шкалам Ликерта показали ограниченную чувствительность к этим улучшениям в контексте входных данных, особенно в автоматизированных оценках. Это говорит о недостаточной детализации шкал Ликерта для выявления тонких изменений в качестве ответов. В отличие от этого, средние баллы по нашим булевым критериям показали четкую положительную корреляцию с объемом предоставленных пользовательских данных, что указывает на превосходную способность измерять постепенные улучшения качества ответов.

Влияние на средние оценки: Оценки, полученные в результате автоматической оценки с использованием булевых критериев, более согласованы/коррелированы с оценками, данными людьми. Кроме того, замена всех вопросов адаптивным набором практически не влияет на сигнал.
Автоматически адаптивные точные логические критерии оценки
Структура критериев оценки Precise Boolean является всеобъемлющей, но для любого заданного запроса релевантным является лишь подмножество вопросов. Мы автоматизировали этот процесс фильтрации, используя Gemini в качестве классификатора с нулевым обучением для прогнозирования релевантности отдельных вопросов критериев на основе входного запроса и ответа LLM. Классификатор достиг средней точности 0,77 и показателя F1, равного 0,83, при определении релевантных вопросов. Мы обнаружили, что критерии оценки Auto-Adaptive Boolean, использующие этот автоматизированный фильтр, сохранили эквивалентное улучшение ICC и показали аналогичные тенденции оценки, как и критерии оценки Human-Adaptive Boolean. Это говорит о том, что несовершенного, но эффективного автоматизированного классификатора достаточно для улавливания основного сигнала оценки. Это открытие имеет решающее значение для создания полностью автоматизированных и масштабируемых конвейеров оценки.

( A ) Адаптация точных булевых критериев с использованием Gemini 1.5 Pro в качестве классификатора вопросов критериев без предварительного обучения не приводит к снижению внутриклассовой корреляции по сравнению с адаптацией, осуществляемой человеком. ( B ) Автоматически адаптируемые критерии демонстрируют аналогичную тенденцию средней оценки, как и критерии, адаптированные человеком, что указывает на достаточность критериев автоматической адаптации для выявления сигналов оценки, присутствующих при адаптации человеком.
Более точное выявление пробелов в качестве ответов
Для демонстрации надежности мы оценили способность нашей системы выявлять недостатки в ответах LLM, полученных на основе данных реальных участников исследования. Мы использовали обезличенные данные из исследования Wearables for Metabolic Health (WEAR-ME), крупномасштабного (n≈1500) исследовательского проекта, в рамках которого собирались данные с носимых устройств, биомаркеров и анкет, проведенного с одобрения Институционального наблюдательного совета (IRB). Все участники предоставили электронное информированное согласие и специальное разрешение HIPAA через приложение Google Health Studies до начала исследования, подтверждая, что их обезличенные данные будут использоваться в исследовательских целях.

Применение предложенного подхода в реальном исследовании состояния здоровья (WEAR-ME).
Для данного анализа мы отобрали 141 участника с подтвержденными метаболическими заболеваниями (например, ожирение III степени, диабет, гиперхолестеринемия), чтобы проверить чувствительность разработанных методик. Для каждого участника мы предложили пользователю с линейной моделью мышления ответить на вопросы о состоянии здоровья в двух условиях:
- Без изменений: В задании были представлены полные, реальные данные о состоянии здоровья участника.
- Изменено: В задании намеренно были опущены ключевые биомаркеры, имеющие отношение к состоянию участника, и содержалось указание для магистра права не использовать личные медицинские данные.

Иллюстрация нашей схемы быстрой абляции.
Затем мы использовали автоматизированную систему оценки для выставления баллов за оба ответа, применяя шкалы Лайкерта и точные булевы шкалы. Более высокий показатель положительного расхождения (оценка неизмененного ответа минус оценка измененного ответа) указывает на то, что система оценки успешно выявила снижение качества.
Как показано ниже, структура Precise Boolean неизменно давала большой положительный показатель расхождения, что указывает на ее надежное обнаружение того, что измененные ответы были более низкого качества. В отличие от этого, показатель расхождения по шкале Ликерта был непоследовательным и меньшим по величине, не позволяя надежно выявлять ответы более низкого качества. Эти результаты демонстрируют, что структура Precise Boolean значительно более чувствительна к включению персональных данных, что делает ее более надежным инструментом для автоматизированных конвейеров оценки.


Оценка чувствительности автора к корректировкам с помощью шкал Ликерта и предложенных точных булевых шкал.
Заключение и дальнейшие направления
Наши результаты показывают, что использование адаптивных точных булевых критериев оценки :
- Значительно снижает межоценочную вариативность по сравнению со шкалами Ликерта.
- Время оценки сокращается вдвое как для экспертов, так и для неэкспертов.
- Обеспечивает соответствие автоматизированной оценки экспертной оценке человека.
- При интеграции с реальными данными, полученными с помощью носимых устройств, биомаркеров и контекстной информации, система более точно выявляет несоответствия качества.
Этот подход предлагает значительный прогресс в масштабировании и оптимизации оценки LLM в специализированных областях. Хотя LLM перспективны для применения в здравоохранении, в данной статье основное внимание уделяется критической необходимости надежных методологий оценки, и модели не представлены в качестве одобренных медицинских изделий.
Наша структура не привязана к конкретной предметной области и может применяться не только в сфере здравоохранения и персонализированной оценки. Использование контекста здоровья и благополучия для валидации носит исключительно иллюстративный и исследовательский характер. Данное исследование не привязано к какому-либо конкретному продукту или услуге. Обсуждаемые модели LLM используются в контролируемых исследовательских условиях, и любое реальное применение в здравоохранении будет подлежать собственной валидации и потенциальной проверке со стороны регулирующих органов. У этого подхода есть некоторые ограничения; в некоторых ситуациях может быть полезна тонкая оценка, предоставляемая шкалой Ликерта. В будущих исследованиях можно расширить наши результаты, включив более широкий спектр пользовательских профилей и областей здравоохранения. Кроме того, процесс создания исходных булевых вопросов на основе критериев Ликерта можно дополнительно автоматизировать, включив модели LLM, что повысит масштабируемость структуры с самого начала.
Благодарности
В этой работе приняли участие следующие исследователи: Нил Маллинар, А. Али Хейдари, Синь Лю, Энтони З. Фаранеш, Брент Уинслоу, Нова Хаммерквист, Бенджамин Греф, Кэти Спид*, Марк Малхотра, Шветак Патель, Хавьер Л. Прието*, Дэниел Макдафф и Ахмед А. Метвалли.
* Работа выполнена во время работы в Google.
Источник: research.google
























