Анализ данных здоровья: индекс массы тела, биомаркеры, физическая активность, рекомендации.

Масштабируемая платформа для оценки языковых моделей в сфере здравоохранения.

воспроизведение видео без звука зацикливание пауза видео без звука зацикливание включение звука видео выключение звука

Оценка языковых моделей в сложных областях (таких как здравоохранение) может быть дорогостоящей и трудоемкой. Мы представляем новую адаптивную и точную методологию оценки, которая экономит время и повышает согласованность оценок между экспертами по сравнению с существующими протоколами.

Быстрые ссылки

Крупные языковые модели могут использоваться для анализа и интерпретации сложных данных. В наших предыдущих работах было показано, как их можно использовать для генерации полезных, персонализированных ответов при предоставлении пользователю информации о здоровье, включающей образ жизни, биомаркеры и контекст. Строгие и эффективные методологии оценки имеют решающее значение для обеспечения точности, достоверности, релевантности и безопасности ответов. Однако существующие методы оценки в значительной степени зависят от экспертов, что делает их дорогостоящими, трудоемкими и не масштабируемыми. Кроме того, задачи, требующие человеческого суждения, часто требуют тщательной разработки, чтобы избежать предвзятости и низкой согласованности между экспертами.

Учитывая вышеизложенное, в статье «Масштабируемая структура для оценки языковых моделей здравоохранения», опубликованной в njp Digital Medicine , мы представляем структуру оценки, которая направлена на оптимизацию человеческой и автоматизированной оценки открытых вопросов. Наш метод помогает выявлять критические пробелы в ответах модели, используя минимальный набор целевых вопросов рубрики, которые разбивают сложные, многогранные вопросы оценки на детализированные цели оценки, на которые можно ответить с помощью простых логических значений. В частности, мы представляем адаптивные точные логические рубрики как парадигму для масштабируемых оценок в сфере здравоохранения. Мы предположили, что небольшой набор детализированных логических критериев (Да/Нет) повысит согласованность и эффективность оценки сложных запросов. Существующие работы показали, что «детализация» сложных критериев оценки в более крупный набор сфокусированных логических рубрик повышает надежность оценки для задач общего назначения, таких как суммирование и диалог. Наша работа расширяет эти структуры, применяя их к сфере здравоохранения, учитывая персонализацию пользователя с использованием данных о здоровье как в ответах на языковые модели здравоохранения, так и в оценках. Мы подтверждаем эффективность этого подхода в контексте метаболического здоровья, области, охватывающей диабет, сердечно-сосудистые заболевания и ожирение.

воспроизведение видео без звука зацикливание пауза видео без звука зацикливание включение звука видео выключение звука

Для построения входных данных для языковой модели используется набор репрезентативных медицинских запросов и данных с носимых устройств, которые затем оцениваются с помощью предложенной нами системы критериев оценки.

Разработка адаптивных точных булевых критериев оценки

Сначала мы использовали итеративный процесс для преобразования критериев рубрики, характеризующихся сложными вариантами ответов (например, открытый текст или многобалльные шкалы Ликерта), в более детализированный набор критериев рубрики, использующих бинарные варианты ответов (т.е. логические «Да» или «Нет») — подход, который мы называем точными логическими рубриками. Основная цель разработки точных логических рубрик заключалась в повышении согласованности оценок между экспертами в задачах аннотирования и в создании более надежного и действенного сигнала оценки, что облегчает программную интерпретацию и уточнение ответов. Повышенная детализация, обеспечиваемая простым форматом «Да/Нет», снижает субъективность интерпретации и способствует более согласованным оценкам, даже при большем общем количестве вопросов.

Из-за детального характера разработанной нами системы критериев оценки, полученные критерии Precise Boolean содержали значительно большее количество критериев оценки по сравнению с исходными критериями, основанными на шкале Ликерта. Хотя методы автоматической оценки хорошо справляются с возросшим объемом критериев, разработка предложенных критериев Precise Boolean вручную оказалась чрезмерно ресурсоемкой. Для снижения этой нагрузки мы усовершенствовали подход Precise Boolean, чтобы динамически фильтровать обширный набор вопросов критериев, сохраняя только наиболее релевантные критерии в зависимости от конкретных оцениваемых данных. Эта адаптация, основанная на данных и получившая название Adaptive Precise Boolean rubric, позволила сократить количество оценок, необходимых для каждого ответа в рамках LLM. Это связано с тем, что запросы пользователей и соответствующие результаты LLM часто имеют узкую тематику, требующую оценки только по подмножеству критериев критериев, относящихся к этим темам.

Для преобразования точных булевых критериев в адаптивные точные булевые критерии мы использовали Gemini в качестве классификатора вопросов с нулевым количеством примеров. Входными данными для LLM являются пользовательский запрос, соответствующий оцениваемый ответ LLM и конкретный критерий критерия. Затем LLM выдает результат, является ли критерий релевантным или нет. Для проверки этого адаптивного подхода мы создали эталонный набор данных на основе аннотаций классификации вопросов, предоставленных тремя медицинскими экспертами, с использованием голосования по большинству для определения консенсусной аннотации. Критерии, полученные на основе использования этого эталонного набора данных для адаптации, называются адаптивными точными булевыми критериями .

EvalHealth2_Example

Пример запроса и ответа с выделением ссылок на конкретные релевантные части ответа, а также примеры ответов на вопросы оценочной шкалы (Ликерта, точные логические операторы и адаптивные точные логические операторы).

Ключевые результаты

Улучшение согласованности между экспертами и сокращение времени оценки.

В настоящее время для оценки моделей поведения в здравоохранении часто используются шкалы Ликерта. Мы сравнили этот базовый показатель с нашими основанными на данных точными булевыми шкалами. Наши результаты показали значительно более высокую межэкспертную надежность при использовании точных булевых шкал, измеренную с помощью коэффициентов внутриклассовой корреляции (ICC), по сравнению с традиционными шкалами Ликерта.

Ключевым преимуществом нашего подхода является его эффективность. Адаптивные точные булевы критерии оценки привели к высокой согласованности оценок между экспертами при использовании полной точной булевой шкалы, одновременно сократив время оценки более чем на 50%. Это повышение эффективности делает наш метод быстрее, чем даже оценки по шкале Ликерта, что повышает масштабируемость оценки LLM. Тот факт, что это также обеспечивает более высокую надежность оценок между экспертами, подтверждает аргумент о том, что такая упрощенная система оценки также обеспечивает более качественный сигнал.

EvalHealth3_ICC

Слева: Межэкспертная корреляция, измеренная с помощью коэффициента внутриклассовой корреляции (ICC), между различными подгруппами — экспертами (специалистами и неспециалистами) и автоматизированной оценкой. Справа: Адаптивные точные булевы критерии оценки занимают примерно вдвое меньше времени по сравнению с вопросами по шкале Ликерта.

Повышенная чувствительность к качеству ответа

Для проверки эффективности наших критериев оценки мы исследовали их чувствительность к изменениям качества ответов. Мы систематически дополняли пользовательские запросы всё большим количеством контекстных данных о здоровье, предполагая, что более подробные запросы приведут к получению более качественных ответов на вопросы с низким и средним уровнем чувствительности. Результаты, подтверждающие это предположение, будут подробно рассмотрены ниже.

Средние оценки по шкалам Ликерта показали ограниченную чувствительность к этим улучшениям в контексте входных данных, особенно в автоматизированных оценках. Это говорит о недостаточной детализации шкал Ликерта для выявления тонких изменений в качестве ответов. В отличие от этого, средние баллы по нашим булевым критериям показали четкую положительную корреляцию с объемом предоставленных пользовательских данных, что указывает на превосходную способность измерять постепенные улучшения качества ответов.

EvalHealth4_SensitivityFinal

Влияние на средние оценки: Оценки, полученные в результате автоматической оценки с использованием булевых критериев, более согласованы/коррелированы с оценками, данными людьми. Кроме того, замена всех вопросов адаптивным набором практически не влияет на сигнал.

Автоматически адаптивные точные логические критерии оценки

Структура критериев оценки Precise Boolean является всеобъемлющей, но для любого заданного запроса релевантным является лишь подмножество вопросов. Мы автоматизировали этот процесс фильтрации, используя Gemini в качестве классификатора с нулевым обучением для прогнозирования релевантности отдельных вопросов критериев на основе входного запроса и ответа LLM. Классификатор достиг средней точности 0,77 и показателя F1, равного 0,83, при определении релевантных вопросов. Мы обнаружили, что критерии оценки Auto-Adaptive Boolean, использующие этот автоматизированный фильтр, сохранили эквивалентное улучшение ICC и показали аналогичные тенденции оценки, как и критерии оценки Human-Adaptive Boolean. Это говорит о том, что несовершенного, но эффективного автоматизированного классификатора достаточно для улавливания основного сигнала оценки. Это открытие имеет решающее значение для создания полностью автоматизированных и масштабируемых конвейеров оценки.

EvalHealth5_AdaptationFinFinal

( A ) Адаптация точных булевых критериев с использованием Gemini 1.5 Pro в качестве классификатора вопросов критериев без предварительного обучения не приводит к снижению внутриклассовой корреляции по сравнению с адаптацией, осуществляемой человеком. ( B ) Автоматически адаптируемые критерии демонстрируют аналогичную тенденцию средней оценки, как и критерии, адаптированные человеком, что указывает на достаточность критериев автоматической адаптации для выявления сигналов оценки, присутствующих при адаптации человеком.

Более точное выявление пробелов в качестве ответов

Для демонстрации надежности мы оценили способность нашей системы выявлять недостатки в ответах LLM, полученных на основе данных реальных участников исследования. Мы использовали обезличенные данные из исследования Wearables for Metabolic Health (WEAR-ME), крупномасштабного (n≈1500) исследовательского проекта, в рамках которого собирались данные с носимых устройств, биомаркеров и анкет, проведенного с одобрения Институционального наблюдательного совета (IRB). Все участники предоставили электронное информированное согласие и специальное разрешение HIPAA через приложение Google Health Studies до начала исследования, подтверждая, что их обезличенные данные будут использоваться в исследовательских целях.

EvalHealth6_Application

Применение предложенного подхода в реальном исследовании состояния здоровья (WEAR-ME).

Для данного анализа мы отобрали 141 участника с подтвержденными метаболическими заболеваниями (например, ожирение III степени, диабет, гиперхолестеринемия), чтобы проверить чувствительность разработанных методик. Для каждого участника мы предложили пользователю с линейной моделью мышления ответить на вопросы о состоянии здоровья в двух условиях:

  1. Без изменений: В задании были представлены полные, реальные данные о состоянии здоровья участника.
  2. Изменено: В задании намеренно были опущены ключевые биомаркеры, имеющие отношение к состоянию участника, и содержалось указание для магистра права не использовать личные медицинские данные.
EvalHealth7_Ablation

Иллюстрация нашей схемы быстрой абляции.

Затем мы использовали автоматизированную систему оценки для выставления баллов за оба ответа, применяя шкалы Лайкерта и точные булевы шкалы. Более высокий показатель положительного расхождения (оценка неизмененного ответа минус оценка измененного ответа) указывает на то, что система оценки успешно выявила снижение качества.

Как показано ниже, структура Precise Boolean неизменно давала большой положительный показатель расхождения, что указывает на ее надежное обнаружение того, что измененные ответы были более низкого качества. В отличие от этого, показатель расхождения по шкале Ликерта был непоследовательным и меньшим по величине, не позволяя надежно выявлять ответы более низкого качества. Эти результаты демонстрируют, что структура Precise Boolean значительно более чувствительна к включению персональных данных, что делает ее более надежным инструментом для автоматизированных конвейеров оценки.

EvalHealth8_LikertEvalHealth9_Boolean

Оценка чувствительности автора к корректировкам с помощью шкал Ликерта и предложенных точных булевых шкал.

Заключение и дальнейшие направления

Наши результаты показывают, что использование адаптивных точных булевых критериев оценки :

  1. Значительно снижает межоценочную вариативность по сравнению со шкалами Ликерта.
  2. Время оценки сокращается вдвое как для экспертов, так и для неэкспертов.
  3. Обеспечивает соответствие автоматизированной оценки экспертной оценке человека.
  4. При интеграции с реальными данными, полученными с помощью носимых устройств, биомаркеров и контекстной информации, система более точно выявляет несоответствия качества.

Этот подход предлагает значительный прогресс в масштабировании и оптимизации оценки LLM в специализированных областях. Хотя LLM перспективны для применения в здравоохранении, в данной статье основное внимание уделяется критической необходимости надежных методологий оценки, и модели не представлены в качестве одобренных медицинских изделий.

Наша структура не привязана к конкретной предметной области и может применяться не только в сфере здравоохранения и персонализированной оценки. Использование контекста здоровья и благополучия для валидации носит исключительно иллюстративный и исследовательский характер. Данное исследование не привязано к какому-либо конкретному продукту или услуге. Обсуждаемые модели LLM используются в контролируемых исследовательских условиях, и любое реальное применение в здравоохранении будет подлежать собственной валидации и потенциальной проверке со стороны регулирующих органов. У этого подхода есть некоторые ограничения; в некоторых ситуациях может быть полезна тонкая оценка, предоставляемая шкалой Ликерта. В будущих исследованиях можно расширить наши результаты, включив более широкий спектр пользовательских профилей и областей здравоохранения. Кроме того, процесс создания исходных булевых вопросов на основе критериев Ликерта можно дополнительно автоматизировать, включив модели LLM, что повысит масштабируемость структуры с самого начала.

Благодарности

В этой работе приняли участие следующие исследователи: Нил Маллинар, А. Али Хейдари, Синь Лю, Энтони З. Фаранеш, Брент Уинслоу, Нова Хаммерквист, Бенджамин Греф, Кэти Спид*, Марк Малхотра, Шветак Патель, Хавьер Л. Прието*, Дэниел Макдафф и Ахмед А. Метвалли.

* Работа выполнена во время работы в Google.

    Источник: research.google

    ✅ Найденные теги: Здравоохранение, Масштабируемая, новости, Оценка, Платформа, Языковые Модели

    ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

    Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

    галерея

    Интерфейс управления командой агентов для исследования тем Reddit, веба и Twitter.
    Карта Эквадора на фоне Земли, проигрывается Radio Complice FM.
    Программное окно Dangerzone, выбор и сохранение безопасных PDF-документов.
    ideipro logotyp
    Интерфейс Sentry с описанием ошибок и деталями инцидента для macOS.
    Карта Германии с маршрутом, указателями и видом на сельскую местность рядом с Штраленом.
    Веб-дизайн с графиками и изображениями: апельсины, диаграммы, кот с бокалом.
    ideipro logotyp
    ideipro logotyp
    Image Not Found
    ideipro logotyp

    В Южной Корее разработали лёгкую роборуку с человеческой ловкостью

    Современные роботы обладают уже достаточно высоким уровнем интеллекта, засчёт ИИ или машинного обучения. Однако их руки по-прежнему ограничены в выполнении повседневных задач. Южнокорейская компания Tesollo стремится решить эту проблему как для дроидов так и для людей с…

    Апр 2, 2026
    Процессор AMD Ryzen 5 8400F, крупный план, марка, серийный номер, маркировка Made in Malaysia.

    Покупатель подержанного стокового кулера AMD получил в подарок Ryzen 5 8400F

    Просторы ресурса Reddit, судя по всему, бесконечны, ведь что ни день, то получается найти на них интересные моменты, так или иначе связанные с компьютерными комплектующими. Например, в одном из прошлых материалов рассказывалось о покупке комплекта оперативной памяти…

    Апр 1, 2026
    Процессор AMD Ryzen 5 8400F в руке, видна маркировка и детали корпуса.

    Подержанный стоковый кулер для платформы AMD AM4: удивительная подарковая история

    Просторы ресурса Reddit, судя по всему, бесконечны, ведь что ни день, то получается найти на них интересные моменты, так или иначе связанные с компьютерными комплектующими. Например, в одном из прошлых материалов рассказывалось о покупке комплекта оперативной памяти…

    Апр 1, 2026
    Печатная плата с сенсором, тепловизор, график люминесценции материалов.

    Светящиеся наночастицы помогут определять температуру работающих микрочипов

    Реализация метода люминесцентной термометрии в микроэлектронике © Ilya E. Kolesnikov et al / Applied Materials Today, 2026 Ученые разработали бесконтактный способ измерения температуры микроэлектронных устройств, основанный на способности «термометра» менять свое свечение при нагреве. Авторы использовали наночастицы,…

    Апр 1, 2026

    Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых