Диаграмма процесса создания таксономии и оценки производительности в здравоохранении.

Комплексная оценка больших языковых моделей для медицинских задач с помощью MedHELM.

Абстрактный

Хотя большие языковые модели (LLM) показывают почти идеальные результаты на экзаменах по лицензированию медицинских специалистов, эти оценки неадекватно отражают сложность и разнообразие реальной клинической практики. Здесь мы представляем MedHELM — расширяемую систему оценки, включающую три основных компонента. Во-первых, проверенную врачами таксономию, организующую приложения медицинского ИИ в пять категорий, отражающих реальные клинические задачи: поддержка принятия клинических решений (диагностические решения, планирование лечения), генерация клинических записей (документация посещений, отчеты о процедурах), общение с пациентами (образовательные материалы, инструкции по уходу), медицинские исследования (анализ литературы, анализ клинических данных) и администрирование (планирование, координация рабочих процессов). Эти категории включают 22 подкатегории и 121 конкретную задачу, отражающую повседневную медицинскую практику. Во-вторых, всеобъемлющий набор из 37 оценочных критериев, охватывающих все подкатегории. В-третьих, проведено систематическое сравнение девяти перспективных моделей LLM — Claude 3.5 Sonnet, Claude 3.7 Sonnet, DeepSeek R1, Gemini 1.5 Pro, Gemini 2.0 Flash, GPT-4o, GPT-4o mini, Llama 3.3 и o3-mini — с использованием автоматизированного метода оценки жюри LLM. Наше жюри LLM использует нескольких экспертов по искусственному интеллекту для оценки результатов работы моделей по критериям, определенным экспертами. Передовые модели рассуждений (DeepSeek R1, o3-mini) продемонстрировали превосходные результаты с показателем успеха в 66%, хотя Claude 3.5 Sonnet показала сопоставимые результаты при 15% меньших вычислительных затратах. Эти результаты не только подчеркивают текущие возможности моделей, но и демонстрируют, как MedHELM может обеспечить выбор медицинских систем искусственного интеллекта для применения в здравоохранении на основе фактических данных.

Доступ через ваше учебное заведение. Купить или оформить подписку.

Это предварительный просмотр контента по подписке, доступ к которому осуществляется через ваше учреждение.

Варианты доступа

Доступ через ваше учебное заведение.

Получите доступ к журналу Nature и еще 54 журналам из портфолио Nature.

Оформите подписку Nature+, нашу самую выгодную подписку на онлайн-доступ.

27,99 € / 30 дней

отменить в любое время

Узнать больше

Подпишитесь на этот журнал

Получите 12 печатных выпусков и доступ к онлайн-версии.

251,40 € в год

всего 20,95 € за выпуск

Узнать больше

Купить эту статью

39,95 €

К ценам могут применяться местные налоги, которые рассчитываются при оформлении заказа.

Дополнительные варианты доступа:

  • Авторизоваться
  • Узнайте о подписках для учреждений
  • Ознакомьтесь с нашими часто задаваемыми вопросами.
  • Обратитесь в службу поддержки клиентов.
Рис. 1: Общий обзор структуры MedHELM.
b3d0026dd44da996d9b4b4b80e3e3157
Рис. 2: Обзор таксономии MedHELM.
b10f41a68802793f2e0ef98c1fa6bcc4
Рис. 3: Производительность модели по различным тестам.
b097cdf4e2f503e355ab53b7436d648c
Рис. 4: Показатели эффективности модели по категориям MedHELM.
7e2ae53b1918a9b4fc10b5c104197381
Рис. 5: Зависимость производительности от вычислительных затрат.
90df4a90089acfd0ee7fb48e06efbdd9

Похожий контент просматривают другие пользователи.

51feab207ca8758b98c0e00ed38cbd34

Оценка эффективности работы крупных языковых моделей на корейском медицинском лицензионном экзамене: трехлетний сравнительный анализ.

Источник: www.nature.com

✅ Найденные теги: MedHELM, Комплексная, Медицинские Задачи, новости, Оценка, Языковые Модели

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Луна видна через иллюминатор космического корабля, окруженного проводами и оборудованием.
Лабораторное оборудование: пробирки, реагенты, пипетки в исследовательской лаборатории.
Цифровая передача данных: серверы, книги и документы на фоне технологий и интернета.
Солдаты Северной Кореи на параде, флаг на фоне, строевое развертывание.
Расширенные советы и рекомендации по использованию NotebookLM для опытных пользователей.
Мужчина работает на ноутбуке, редактируя изображение туманности в графическом редакторе.
Человек редактирует астрофотографию на ноутбуке с помощью специализированного ПО.
Три белых кассетных плеера Maxell на разноцветном фоне.
Упаковка MacBook Neo на сером фоне.
Image Not Found
Луна видна через иллюминатор космического корабля, окруженного проводами и оборудованием.

Как при проектировании космического корабля «Артемида II» учитывался (относительный) комфорт.

Как при проектировании космического корабля Artemis II учитывался (относительный) комфорт. Фрилансер Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего сайта. Все работы Джорджины Торбет (6…

Апр 10, 2026
Лабораторное оборудование: пробирки, реагенты, пипетки в исследовательской лаборатории.

Российские ученые сравнили адамантан и бороводородный кластер в борьбе с современными штаммами вируса гриппа А

© ИОНХ РАН Междисциплинарный коллектив исследователей из Института общей и неорганической химии им. Н.С. Курнакова РАН, Национального исследовательского центра эпидемиологии и микробиологии им. Н.Ф. Гамалеи, и МИРЭА – Российского технологического университета провел уникальное сравнительное исследование органических и…

Апр 10, 2026
Цифровая передача данных: серверы, книги и документы на фоне технологий и интернета.

Подготовка к получению степени магистра права: практическое руководство по применению RAG в корпоративных базах знаний

Четкая ментальная модель и практическая основа, на которой можно строить дальнейшее развитие. Делиться Каждый инженер-программист, занимающийся искусственным интеллектом, хорошо знаком с таким моментом. Вы только что запустили прототип. Демонстрация прошла блестяще. LLM бегло отвечал на вопросы, синтезировал…

Апр 10, 2026
Солдаты Северной Кореи на параде, флаг на фоне, строевое развертывание.

Вероятно, захват Северной Кореей одного из самых популярных в интернете проектов с открытым исходным кодом готовился несколько недель.

Источник изображения: Ким Вон-Джин / AFP / Getty Images Кибератака, осуществленная Северной Кореей в прошлый понедельник и ненадолго захватившая один из самых популярных проектов с открытым исходным кодом в интернете, заняла несколько недель и является частью длительной…

Апр 10, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых