Тест на медицинскую сертификацию программного обеспечения прошел нормально, но его диагнозы не соответствуют действительности.

В ходе исследования, проведенного в 2022 году, ChatGPT смог пройти некоторые тесты на получение лицензии на медицинское обслуживание в Соединенных Штатах (USMLE). В этом году команда канадских медиков проверила, насколько это полезно для реального врачевания. И это не так.
ChatGPT против Medscape
“Нашим источником медицинских вопросов был банк вопросов Medscape”, — сказал Амрит Кирпалани, преподаватель медицины из Западного университета в Онтарио, Канада, который руководил новым исследованием эффективности ChatGPT в качестве диагностического инструмента. USMLE содержал в основном тестовые вопросы с несколькими вариантами ответов; в Medscape есть полные медицинские кейсы, основанные на реальных пациентах, с результатами физикального обследования, лабораторных анализов и так далее.
Идея, стоящая за этим, состоит в том, чтобы усложнить эти случаи для практикующих врачей из-за таких осложнений, как множественные сопутствующие заболевания, когда два или более заболевания присутствуют одновременно, и различных диагностических дилемм, которые делают правильные ответы менее очевидными. Команда Кирпалани превратила 150 таких случаев из Medscape в подсказки, которые ChatGPT смог понять и обработать.
Это было немного непросто, потому что у OpenAI, компании, создавшей ChatGPT, есть ограничения на использование его для медицинских консультаций, поэтому запрос на прямую диагностику случая не сработал. Однако это было легко обойти, сообщив ИИ, что диагнозы необходимы для академической исследовательской работы, которую писала команда. Затем команда предоставила ему различные варианты ответов, скопировала / вставила всю информацию о случае, доступную в Medscape, и попросила ChatGPT предоставить обоснование выбранных ответов.
Оказалось, что в 76 из 150 случаев ChatGPT ошибался. Но предполагалось, что чат-бот будет хорош в диагностике, не так ли?
Специальные инструменты
В начале 2024 года. Google опубликовала исследование, посвященное Articulate Medical Intelligence Explorer (AMIE), большой языковой модели, специально разработанной для диагностики заболеваний на основе бесед с пациентами. По данным New England Journal of Medicine и Clinicopathological Conferences, AMIE превзошла обычных врачей в диагностике 303 случаев. И AMIE — не исключение; за последний год не проходило и недели, чтобы не было опубликовано исследование, демонстрирующее поразительные результаты искусственного интеллекта в диагностике рака и диабета и даже в прогнозировании мужского бесплодия на основе результатов анализа крови.
Разница между такими специализированными медицинскими ИИ и ChatGPT, однако, заключается в данных, на которых они были обучены. “Такие ИИ, возможно, изучали тонны медицинской литературы и, возможно, даже были обучены аналогичным сложным случаям”, — объяснил Кирпалани. “Они могут быть адаптированы для понимания медицинской терминологии, интерпретации диагностических тестов и распознавания закономерностей в медицинских данных, относящихся к конкретным заболеваниям или состояниям. В отличие от этого, магистры общего профиля, такие как ChatGPT, обучены широкому кругу тем и не обладают глубокими знаниями в этой области, необходимыми для постановки медицинского диагноза”.



























