Интерпретация медицинских изображений нового поколения с помощью MedGemma 1.5 и преобразование медицинской речи в текст с помощью MedASR.

26.05.2026 ideipro.ru

Мы обновляем нашу открытую модель MedGemma, улучшая поддержку медицинской визуализации. Мы также описываем MedASR, нашу новую открытую модель преобразования медицинской речи в текст.

Быстрые ссылки

MedGemma 1.5 4B
Конкурс MedGemma Impact Challenge
MedASR
MedSigLIP
Делиться
- Скопировать ссылку ×

Внедрение искусственного интеллекта в здравоохранение стремительно ускоряется: темпы внедрения ИИ в отрасли вдвое превышают темпы развития экономики в целом. В поддержку этой трансформации в прошлом году Google опубликовал коллекцию открытых медицинских генеративных моделей ИИ MedGemma в рамках программы Health AI Developer Foundations (HAI-DEF). Модели HAI-DEF, такие как MedGemma, предназначены в качестве отправных точек для разработчиков, чтобы оценить и адаптировать их к своим медицинским задачам, и их можно легко масштабировать в Google Cloud с помощью Vertex AI. Реакция на выпуск MedGemma была невероятной: миллионы загрузок и сотни вариантов, созданных сообществом, опубликованы на Hugging Face.

Блок-схема, описывающая предполагаемое использование MedGemma в качестве инструмента для разработчиков.

Сегодня мы развиваем этот успех, выпуская MedGemma 1.5 4B и запуская хакатон MedGemma Impact Challenge на Kaggle. Руководствуясь непосредственными отзывами сообщества, это обновление модели позволяет разработчикам более эффективно адаптировать MedGemma для приложений, использующих несколько методов медицинской визуализации:

Многомерная медицинская визуализация: компьютерная томография (КТ), магнитно-резонансная томография (МРТ) и гистопатология.
Продольные исследования в медицинской визуализации: анализ временных рядов рентгеновских снимков грудной клетки.
Анатомическая локализация: определение местоположения анатомических особенностей на рентгеновских снимках грудной клетки.
Понимание медицинских документов: извлечение структурированных данных из отчетов медицинских лабораторных исследований.

MedGemma 1.5 4B также повышает точность основных функций обработки текста, медицинских записей и 2D-изображений по сравнению с MedGemma 1 4B. Сегодня мы публикуем обновленную модель 4B, чтобы предоставить разработчикам идеальную, эффективную с точки зрения вычислений отправную точку, достаточно малую для работы в автономном режиме, а разработчики могут продолжать использовать нашу модель MedGemma 1 27B с параметрами для более сложных текстовых приложений. Полная информация о модели MedGemma 1.5 4B и результаты тестов производительности представлены в карточке модели MedGemma 1.5.

Мы также недавно выпустили MedASR (на базе Hugging Face и Vertex AI), новую открытую модель автоматического распознавания речи (ASR), доработанную для медицинской диктовки. Первоначальная версия MedASR позволяет разработчикам преобразовывать медицинскую речь в текст и легко интегрируется с MedGemma для решения сложных задач логического мышления.

MedGemma 1.5, MedASR и все другие модели HAI-DEF, такие как кодировщик изображений MedSigLIP, остаются бесплатными для исследовательского и коммерческого использования и могут быть загружены с сайта Hugging Face или обучены и адаптированы для масштабируемых приложений в облаке на платформе Vertex AI.

Краткое описание коллекции моделей MedGemma и их возможностей.

Конкурс MedGemma Impact Challenge

Мы хотим побудить разработчиков исследовать дополнительные креативные и эффективные способы применения моделей MedGemma для преобразования здравоохранения. В связи с этим мы рады объявить о проведении MedGemma Impact Challenge — хакатона на платформе Kaggle с призовым фондом в 100 000 долларов. Этот хакатон открыт для всех разработчиков и предоставляет возможность развивать MedGemma и HAI-DEF, чтобы продемонстрировать потенциал ИИ в здравоохранении и медико-биологических науках. Мы с нетерпением ждём ваших разработок!

Улучшена производительность в сценариях использования медицинской визуализации.

MedGemma была разработана с нуля как мультимодальная модель, отражающая мультимодальную природу медицины. MedGemma 1 включала поддержку интерпретации двухмерных медицинских изображений, включая рентгеновские снимки грудной клетки, дерматологические изображения, изображения глазного дна и гистопатологические фрагменты.

В MedGemma 1.5 мы расширяем поддержку многомерной медицинской визуализации, начиная с трехмерных объемных представлений КТ и МРТ, а также гистопатологических изображений целых срезов. Разработчики могут создавать приложения, в которых в качестве входных данных предоставляются несколько срезов (для КТ или МРТ) или несколько фрагментов (для гистопатологии) вместе с подсказкой, описывающей задачу.

В ходе внутренних сравнительных тестов базовая абсолютная точность MedGemma 1.5 улучшилась на 3% по сравнению с MedGemma 1 (61% против 58%) при классификации КТ-признаков, связанных с заболеванием, и на 14% (65% против 51%) при классификации МРТ-признаков, связанных с заболеванием, в среднем по всем признакам. Кроме того, в ходе внутреннего сравнительного теста, включающего гистопатологические препараты и связанные с ними признаки, точность прогнозов MedGemma 1.5, основанная на показателе ROUGE-L для случаев с одним гистопатологическим препаратом, улучшилась на 0,47 по сравнению с MedGemma 1 (0,49 против 0,02), что соответствует показателю 0,498, достигнутому специализированной моделью PolyPath.

Эта новая поддержка многомерных данных является естественным развитием CT Foundation, нашего предыдущего инструмента на основе API для генерации КТ-встраиваний. Насколько нам известно, MedGemma 1.5 — это первый публичный релиз открытой многомодальной большой языковой модели, которая может интерпретировать многомерные медицинские данные, сохраняя при этом возможность интерпретации общих 2D-данных и текста. Хотя эти возможности находятся на ранней стадии развития и остаются несовершенными, разработчики смогут добиться улучшенных результатов, дорабатывая модели MedGemma на своих собственных данных, и мы надеемся постоянно улучшать модели MedGemma с течением времени. Мы выпустили обучающие блокноты, иллюстрирующие использование этой возможности работы с многомерными изображениями для КТ (Hugging Face, Model Garden) и гистопатологии (Hugging Face, Model Garden).

Пример, демонстрирующий, как MedGemma 1.5 4B может использоваться для интерпретации КТ-снимка с комментариями сертифицированного торакального радиолога о качестве полученных данных. Обратите внимание, что MedGemma не предназначена для использования без соответствующей проверки, адаптации и/или внесения существенных изменений разработчиками для конкретного случая.

Базовые показатели MedGemma 1.5 4B также значительно превосходят показатели MedGemma 1 4B по нескольким другим методам интерпретации медицинских изображений:

Анатомическая локализация: Локализация анатомических особенностей на рентгеновских снимках грудной клетки; улучшение точности пересечения на 35% по сравнению с объединением на эталонном наборе данных Chest ImaGenome (38% против 3%). См. наш учебный блокнот по анатомической локализации.
Продольная медицинская визуализация: анализ временных рядов рентгеновских снимков грудной клетки; улучшение макроточности на 5% по сравнению с эталонным показателем MS-CXR-T (66% против 61%). См. пример ниже и наш учебный блокнот по продольной медицинской визуализации.
Интерпретация медицинских изображений: Наши внутренние эталонные показатели для отдельных изображений в рентгенографии грудной клетки, дерматологии, гистопатологии и офтальмологии: улучшение на 3% (62% против 59%).
Извлечение данных из отчетов лабораторных анализов: Извлечение структурированных данных из отчетов медицинских лабораторных исследований (тип анализа, значение, единицы измерения); улучшение макроса F1 на 18% по сравнению с внутренним эталонным набором отчетов лабораторных анализов (78% против 60%).

MedGemma 1.5 4B улучшает поддержку медицинской визуализации, превосходя по производительности MedGemma 1 4B в интерпретации многомерных изображений, локализации анатомических структур и продольной оценке заболеваний на рентгеновских снимках грудной клетки, общей интерпретации медицинских изображений и извлечении информации из отчетов медицинских лабораторий.

Пример, демонстрирующий, как MedGemma 1.5 4B может использоваться для интерпретации пары продольных рентгеновских снимков грудной клетки с комментариями сертифицированного торакального радиолога о качестве полученных результатов. Обратите внимание, что MedGemma не предназначена для использования без соответствующей проверки, адаптации и/или внесения существенных изменений разработчиками для конкретного случая.

Кроме того, приложения MedGemma, развернутые в Google Cloud, теперь включают полную поддержку DICOM, что еще больше упрощает адаптацию MedGemma для приложений медицинской визуализации.

Улучшения в работе с текстом.

Помимо улучшенной поддержки медицинских изображений, мы усердно работали над улучшением базовой функциональности MedGemma в работе с медицинским текстом. Благодаря добавлению новых обучающих наборов данных и методов обучения, MedGemma 1.5 4B превосходит MedGemma 1 4B на 5% в MedQA (69% против 64%) и на 22% в ответах на текстовые вопросы в электронных медицинских картах с помощью EHRQA (90% против 68%).

MedGemma 1.5 4B превосходит MedGemma 1 4B в задачах, основанных на тексте, в том числе в задачах медицинского анализа (MedQA) и поиска информации в электронных медицинских картах (EHRQA).

MedASR: Открытая модель для автоматического распознавания речи в медицине.

Хотя в настоящее время текст является основным интерфейсом для больших языковых моделей, устная коммуникация остается крайне важной во многих аспектах здравоохранения, включая медицинскую диктовку и живые беседы между пациентами и врачами. Речь также обеспечивает более естественный способ взаимодействия с языковой моделью.

Для поддержки сценариев использования, требующих от модели знания специализированной медицинской лексики, мы разработали модель преобразования речи в текст MedASR для транскрипции речи из медицинской области. MedASR можно использовать как для транскрипции медицинской диктовки, так и в качестве естественного метода генерации подсказок для MedGemma. Мы сравнили производительность MedASR с Whisper large-v3, универсальной моделью распознавания речи, и обнаружили, что MedASR допустила на 58% меньше ошибок при диктовке рентгеновских снимков грудной клетки (5,2% против 12,5% ошибок в словах, WER) и на 82% меньше ошибок во внутреннем эталонном тесте медицинской диктовки с участием специалистов разных областей и говорящих (5,2% против 28,2% WER). Мы выпустили набор обучающих блокнотов, чтобы помочь разработчикам создавать и адаптировать собственные системы, которые сочетают в себе понимание звука MedASR с клиническим мышлением MedGemma 1.5. Подробнее см. в карточке модели MedASR.

MedASR можно использовать либо для расшифровки медицинской диктовки ( вверху ), либо для диктовки подсказок для MedGemma ( внизу ).

Как разработчики используют MedGemma

Мы видим, как стартапы и разработчики в сфере медицинских технологий по всему миру используют MedGemma для ускорения своих исследований и разработки продуктов в самых разных областях применения и условиях.

Например, компания Qmed Asia адаптировала MedGemma для использования в askCPG, разговорном интерфейсе, интегрирующемся в более чем 150 клинических рекомендаций Малайзии. По данным Министерства здравоохранения Малайзии, разговорный интерфейс сделал навигацию по малазийским клиническим рекомендациям более удобной для принятия повседневных клинических решений, а расширение возможностей работы с мультимодальными медицинскими изображениями с помощью MedGemma было особенно хорошо принято в ходе пилотных внедрений.

Кроме того, Национальное управление медицинского страхования Тайваня использовало MedGemma для оценки предоперационных обследований пациентов с раком легких. Извлекая ключевые данные из более чем 30 000 патологоанатомических заключений и неструктурированных данных с помощью MedGemma, они провели статистический анализ для оценки предоперационного состояния здоровья пациентов. Цель этой работы — помочь в принятии политических решений, улучшающих процесс выбора хирургического вмешательства, с целью повышения эффективности лечения пациентов.

С момента своего выпуска в начале этого года MedGemma также широко цитируется в научных статьях, посвященных медицинскому искусственному интеллекту, и демонстрирует хорошие результаты по сравнению с другими моделями в качестве базовой модели для понимания медицинского текста, принятия решений междисциплинарными командами, составления отчетов по маммографии и других клинических сценариев.

Начать

Все варианты MedGemma доступны через коллекцию Hugging Face или Vertex AI в Google Cloud. MedASR в настоящее время доступен в Hugging Face и Vertex AI. Чтобы продемонстрировать свои идеи для следующего поколения медицинских приложений на основе ИИ, ознакомьтесь с конкурсом MedGemma Impact Challenge.

Посетите наш репозиторий MedGemma на GitHub, чтобы ознакомиться с расширенной коллекцией обучающих материалов. В неё входят как уже существующие руководства по выполнению вывода и контролируемой тонкой настройке на основе LoRA, так и новое руководство по обучению с подкреплением — методу настройки, особенно эффективному для решения сложных задач без ущерба для существующих возможностей модели.

Посетите сайт HAI-DEF, чтобы ознакомиться с ресурсами по MedGemma 1.5 и другим моделям Health AI Developer Foundations. Чтобы быть в курсе последних новостей, подпишитесь на нашу рассылку. Для получения технической поддержки используйте форум HAI-DEF.

Мы очень рады тому, что сообщество сможет создать с помощью этих новых моделей, и будем рады вашим отзывам.

В этой таблице приведены основные характеристики моделей, которые помогут вам понять, какая модель идеально подходит для ваших задач.

Примечание к наборам данных

Модели обучались и оценивались на сочетании общедоступных и частных обезличенных наборов данных. Google и его партнеры используют наборы данных, которые были тщательно анонимизированы или обезличены, чтобы обеспечить защиту отдельных участников исследования и конфиденциальность пациентов.

Отказ от ответственности

Модели HAI-DEF, включая MedGemma и MedASR, предназначены для использования в качестве отправной точки, позволяющей эффективно разрабатывать последующие приложения в сфере здравоохранения, использующие медицинский текст и изображения. Использование моделей HAI-DEF без соответствующей проверки, адаптации и/или внесения существенных изменений разработчиками для конкретного случая не рекомендуется. Результаты, полученные с помощью этих моделей, не предназначены для непосредственного информирования о клинической диагностике, решениях по ведению пациентов, рекомендациях по лечению или любых других приложениях, непосредственно связанных с клинической практикой. Приведенные здесь показатели производительности отражают базовые возможности и не подразумевают, что MedGemma безопасна для использования в каком-либо конкретном медицинском приложении. Возможны неточные результаты работы модели, выходящие за рамки показанных здесь. Все результаты работы модели следует рассматривать как предварительные и требуют независимой проверки, клинической корреляции и дальнейшего исследования с использованием установленных методологий исследований и разработок. Для получения более подробной информации см. условия использования и политику в отношении запрещенного использования.

Благодарности

MedGemma, MedGemma Impact Challenge и MedASR — это результаты сотрудничества команд Google. Мы благодарим многих людей, внесших свой вклад в эту работу, включая инженеров и специалистов из разных подразделений команд Health AI, Gemma и Kaggle, а также наших спонсоров из Google Research и Google DeepMind.

Источник: research.google

Оцените материал:

Оставить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Интерпретация медицинских изображений нового поколения с помощью MedGemma 1.5 и преобразование медицинской речи в текст с помощью MedASR.

Быстрые ссылки

Конкурс MedGemma Impact Challenge

Улучшена производительность в сценариях использования медицинской визуализации.

Улучшения в работе с текстом.

MedASR: Открытая модель для автоматического распознавания речи в медицине.

Как разработчики используют MedGemma

Начать

Примечание к наборам данных

Отказ от ответственности

Благодарности

Оставить комментарий Отменить ответ

🤖 Нельсон AI

Гайды и руководства по ИИ

Быстрые ссылки

Конкурс MedGemma Impact Challenge

Улучшена производительность в сценариях использования медицинской визуализации.

Улучшения в работе с текстом.

MedASR: Открытая модель для автоматического распознавания речи в медицине.

Как разработчики используют MedGemma

Начать

Примечание к наборам данных

Отказ от ответственности

Благодарности

Похожие записи

Похожие записи

Радиация в доме: чем опасны винтажные новогодние украшения

Сеть супермаркетов в Японии использует ИИ для оценки отношения сотрудников к клиентам

Создаем мощного ИИ-агента с долговременной памятью, используя LangGraph, RAG и веб-скрапер

Оставить комментарий Отменить ответ

Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email

🤖 Нельсон AI