Архив рубрики ~Лента новостей~

Комплексная оценка больших языковых моделей для медицинских задач с помощью MedHELM.

Комплексная оценка больших языковых моделей для медицинских задач с помощью MedHELM.
Диаграмма процесса создания таксономии и анализа производительности данных.

Абстрактный

Хотя большие языковые модели (LLM) показывают почти идеальные результаты на экзаменах по лицензированию медицинских специалистов, эти оценки неадекватно отражают сложность и разнообразие реальной клинической практики. Здесь мы представляем MedHELM — расширяемую систему оценки, включающую три основных компонента. Во-первых, проверенную врачами таксономию, организующую приложения медицинского ИИ в пять категорий, отражающих реальные клинические задачи: поддержка принятия клинических решений (диагностические решения, планирование лечения), генерация клинических записей (документация посещений, отчеты о процедурах), общение с пациентами (образовательные материалы, инструкции по уходу), медицинские исследования (анализ литературы, анализ клинических данных) и администрирование (планирование, координация рабочих процессов). Эти категории включают 22 подкатегории и 121 конкретную задачу, отражающую повседневную медицинскую практику. Во-вторых, всеобъемлющий набор из 37 оценочных критериев, охватывающих все подкатегории. В-третьих, проведено систематическое сравнение девяти перспективных моделей LLM — Claude 3.5 Sonnet, Claude 3.7 Sonnet, DeepSeek R1, Gemini 1.5 Pro, Gemini 2.0 Flash, GPT-4o, GPT-4o mini, Llama 3.3 и o3-mini — с использованием автоматизированного метода оценки жюри LLM. Наше жюри LLM использует нескольких экспертов по искусственному интеллекту для оценки результатов работы моделей по критериям, определенным экспертами. Передовые модели рассуждений (DeepSeek R1, o3-mini) продемонстрировали превосходные результаты с показателем успеха в 66%, хотя Claude 3.5 Sonnet показала сопоставимые результаты при 15% меньших вычислительных затратах. Эти результаты не только подчеркивают текущие возможности моделей, но и демонстрируют, как MedHELM может обеспечить выбор медицинских систем искусственного интеллекта для применения в здравоохранении на основе фактических данных.

Доступ через ваше учебное заведение. Купить или оформить подписку.

Это предварительный просмотр контента по подписке, доступ к которому осуществляется через ваше учреждение.

Варианты доступа

Доступ через ваше учебное заведение.

Получите доступ к журналу Nature и еще 54 журналам из портфолио Nature.

Оформите подписку Nature+, нашу самую выгодную подписку на онлайн-доступ.

27,99 € / 30 дней

отменить в любое время

Узнать больше

Подпишитесь на этот журнал

Получите 12 печатных выпусков и доступ к онлайн-версии.

251,40 € в год

всего 20,95 € за выпуск

Узнать больше

Купить эту статью

39,95 €

К ценам могут применяться местные налоги, которые рассчитываются при оформлении заказа.

Дополнительные варианты доступа:

  • Авторизоваться
  • Узнайте о подписках для учреждений
  • Ознакомьтесь с нашими часто задаваемыми вопросами.
  • Обратитесь в службу поддержки клиентов.
Рис. 1: Общий обзор структуры MedHELM.
Рис. 2: Обзор таксономии MedHELM.
ee43dd02c24991d3146c469f7770b179
Рис. 3: Производительность модели по различным тестам.
bd3361374d93040ddbc7fcfa60087d00
Рис. 4: Показатели эффективности модели по категориям MedHELM.
b2a8abd2bd045012c16c71aa54790e4e
Рис. 5: Зависимость производительности от вычислительных затрат.
d4c8c1690b60e9a413c6ad9f3b8a00c4

Похожий контент просматривают другие пользователи.

1be5e4fdc6e020076728ebf7717f72e9

Оценка эффективности работы крупных языковых моделей на корейском медицинском лицензионном экзамене: трехлетний сравнительный анализ.

Источник: www.nature.com

Оцените материал:

Читайте также
Архив рубрики ~Обо всем~ Я бы порекомендовал этот мини-телевизор TCL LED, который продается на 1000 долларов дешевле, чем премиальные модели Samsung и LG. Архив рубрики ~Обо всем~ Решение задачи о вероятности для последовательности 3Blue1Brown (без ИИ) Архив рубрики ~Обо всем~ Google подает в суд на китайских мошенников, использующих Gemini AI для совершения мошеннических действий. Архив рубрики ~Обо всем~ Rocket Report: Ракета «Нова» проходит испытательный цикл; IPO SpaceX состоится в пятницу. Архив рубрики ~Обо всем~ Я позволяю Siri видеть мою жизнь на Vision Pro, и это предзнаменование грядущих событий. Архив рубрики ~Обо всем~ Новая электронная книга Boox Go 6 поддерживает использование стилуса для ведения заметок. Новости робототехники Вера в немецких роботов вышла за пределы ЕС Архив рубрики ~Обо всем~ Инженеры, застрявшие внутри, говорят, что созданный всего несколько месяцев назад блок искусственного интеллекта компании Meta — это настоящий ГУЛАГ, где царит атмосфера отчаяния. Архив рубрики ~Коротко из Telegram~ Математики объявили войну ИИ-хайпу Более 150 ведущих мировых математиков опубликовали… Архив рубрики ~Коротко из Telegram~ Siri переезжает в Spotlight и получает доступ к файлам Apple… Архив рубрики ~Коротко из Telegram~ Скилл, который отучает ИИ делать одинаковые сайты Для агентного фронтенда… Архив рубрики ~Коротко из Telegram~ Собираем себе ИИ-офис из агентов Появился Agent Teams — инструмент,… Архив рубрики ~Коротко из Telegram~ Siri стала Siri AI — теперь это не просто ассистент,… Архив рубрики ~Коротко из Telegram~ ХАЛЯВА ОТ NVIDIA: они раздают доступ к 95 бесплатным API… Архив рубрики ~Обо всем~ Я бы порекомендовал этот мини-телевизор TCL LED, который продается на 1000 долларов дешевле, чем премиальные модели Samsung и LG. Архив рубрики ~Обо всем~ Решение задачи о вероятности для последовательности 3Blue1Brown (без ИИ) Архив рубрики ~Обо всем~ Google подает в суд на китайских мошенников, использующих Gemini AI для совершения мошеннических действий. Архив рубрики ~Обо всем~ Rocket Report: Ракета «Нова» проходит испытательный цикл; IPO SpaceX состоится в пятницу. Архив рубрики ~Обо всем~ Я позволяю Siri видеть мою жизнь на Vision Pro, и это предзнаменование грядущих событий. Архив рубрики ~Обо всем~ Новая электронная книга Boox Go 6 поддерживает использование стилуса для ведения заметок. Новости робототехники Вера в немецких роботов вышла за пределы ЕС Архив рубрики ~Обо всем~ Инженеры, застрявшие внутри, говорят, что созданный всего несколько месяцев назад блок искусственного интеллекта компании Meta — это настоящий ГУЛАГ, где царит атмосфера отчаяния. Архив рубрики ~Коротко из Telegram~ Математики объявили войну ИИ-хайпу Более 150 ведущих мировых математиков опубликовали… Архив рубрики ~Коротко из Telegram~ Siri переезжает в Spotlight и получает доступ к файлам Apple… Архив рубрики ~Коротко из Telegram~ Скилл, который отучает ИИ делать одинаковые сайты Для агентного фронтенда… Архив рубрики ~Коротко из Telegram~ Собираем себе ИИ-офис из агентов Появился Agent Teams — инструмент,… Архив рубрики ~Коротко из Telegram~ Siri стала Siri AI — теперь это не просто ассистент,… Архив рубрики ~Коротко из Telegram~ ХАЛЯВА ОТ NVIDIA: они раздают доступ к 95 бесплатным API…

Оставить комментарий