Image

Встречайте OpenTSLM: семейство моделей языка временных рядов (TSLM), для анализа медицинских временных рядов

Значительное событие готово трансформировать ИИ в здравоохранении. Исследователи из Stanford University, совместно с ETH Zurich и технологическими лидерами, включая Google Research и Amazon, представили OpenTSLM — новое семейство моделей языка временных рядов (Time-Series Language Models, TSLMs).
Это прорыв, который решает ключевую проблему существующих LLM (large language models) — способность интерпретировать и рассуждать о сложных, непрерывных медицинских временных рядах, таких как ЭКГ, ЭЭГ и потоки данных носимых датчиков, где даже передовые модели вроде GPT‑4o сталкивались с трудностями.

Критическая слепая зона: ограничения LLM в анализе временных рядов

Медицина по своей природе временная. Точная диагностика во многом зависит от отслеживания того, как жизненные показатели, биомаркеры и сложные сигналы меняются во времени. Несмотря на распространение цифровых технологий в здравоохранении, современные модели ИИ часто не справляются с обработкой таких «сырых», непрерывных данных.
Ключевая проблема — «модальность-разрыв» (modality gap) — разница между непрерывными сигналами (например, удар сердца) и дискретными текстовыми токенами, которые понимают LLM. Предыдущие попытки преодолеть этот разрыв путём преобразования сигналов в текст оказались неэффективными и плохо масштабируемыми.

Почему модели «визуального + язык» (VLM) не справляются с данными временных рядов

Распространённый обходной путь заключается в преобразовании временных рядов в статические изображения (линейные графики) и подаче их на вход продвинутым моделям зрение-язык (Vision-Language Models, VLM). Однако исследование OpenTSLM показывает: этот подход удивительно неэффективен для точного анализа медицинских данных.

VLM в основном обучены на естественных фотографиях; они распознают объекты и сцены, а не плотную последовательную динамику визуализаций данных. Когда сигналы высокой частоты, такие как ЭКГ, преобразуются в пикселы, теряется критически важная информация о тонких временных зависимостях и высокочастотных изменениях — жизненно важная для выявления аритмий или конкретных стадий сна.
Исследование подтверждает: VLM заметно хуже справляются с такими графиками, подчёркивая, что временные ряды должны рассматриваться как отдельная модальность, а не просто как изображение.

Представляем OpenTSLM: подход к модальности «временной ряд»

OpenTSLM интегрирует временные ряды как нативную модальность напрямую в предобученные LLM (например, Llama и Gemma), позволяя задавать запросы на естественном языке и рассуждать над сложными медицинскими данными.
Исследовательская команда изучила две различные архитектуры:

d950ea61ef320aa06bde92c434b41cea

1. OpenTSLM-SoftPrompt (неявное моделирование)

В этом подходе данные временных рядов кодируются в обучаемые токены, которые затем комбинируются с текстовыми токенами (soft-prompting). Хотя это эффективно для коротких фрагментов данных, масштабируется плохо: для более длинных последовательностей требуется экспоненциально больше памяти, что делает метод непрактичным для анализа в полном объёме.

0bb8ecf983789de6e4508299753121ca

2. OpenTSLM-Flamingo (явное моделирование)

Вдохновленный архитектурой Flamingo, этот подход — прорывное решение для масштабируемости. Он явно моделирует временные ряды как отдельную модальность. Используется специализированный энкодер и Perceiver Resampler для создания представления фиксированного размера, независимо от длины входных данных, и затем это представление объединяется с текстом с помощью контролируемого кросс-внимания (gated cross-attention).
OpenTSLM-Flamingo сохраняет стабильные требования к памяти даже при обширных потоках данных. Например: при обучении на сложных данных ЭКГ вариант Flamingo потребовал лишь около 40 ГБ VRAM, по сравнению с 110 ГБ у варианта SoftPrompt при том же LLM-базе.

67bb2a6b5de9ca9689768bcdc2d201eb

Прорывные результаты: превзошли GPT-4o

Результаты демонстрируют явное превосходство специализированного подхода TSLM. Для оценки производительности команда создала три новых датасета Chain-of-Thought (CoT), ориентированных на медицинское рассуждение: HAR-CoT (распознавание активности), Sleep-CoT (стадирование сна по ЭЭГ), и ECG-QA-CoT (вопросы-ответы по ЭКГ).

  • Стадирование сна: OpenTSLM достиг F1 = 69,9 %, значительно обойдя лучший текст-только базовый вариант (9,05 %).

  • Распознавание активности: OpenTSLM достиг F1 = 65,4 %.
    Примечательно: даже модели OpenTSLM малого масштаба (1 миллиард параметров) значительно превзошли GPT-4o. При обработке данных как текстовых токенов (где GPT-4o набрал только 15,47 % на Sleep-CoT) или как изображения — передовая модель не смогла сравниться со специализированными TSLM.
    Этот вывод подчёркивает: специализированные, адаптированные под домен архитектуры ИИ могут достигать выдающихся результатов без массивного масштаба, что открывает путь к эффективному медицинскому ИИ даже на устройствах.

cacdb8822be28e1b965406ea5022f5c2
5bde9a20b63df0238d343d2839e19db9

Клиническая валидация в госпитале Стэнфорда: обеспечение доверия и прозрачности

Ключевой элемент медицинского ИИ — доверие. В отличие от традиционных моделей, выдающих лишь классификацию, OpenTSLM генерирует рациональные цепочки рассуждений (Chain-of-Thought), читаемые человеком, объясняющие свои прогнозы. Такая прозрачность ИИ жизненна в клинических условиях.
Для оценки качества этих рассуждений был проведён экспертный обзор с участием пяти кардиологов из Стэнфордского госпиталя. Они оценивали рассуждения, сгенерированные моделью OpenTSLM-Flamingo при интерпретации ЭКГ.
Оценка показала: модель предоставила правильную или частично правильную интерпретацию ЭКГ в впечатляющих 92,9 % случаев. Модель продемонстрировала исключительную силу в интеграции клинического контекста — 85,1 % положительных оценок, подтверждая сложную способность рассуждать над сырыми данными датчиков.

Будущее мультимодального машинного обучения

Введение OpenTSLM знаменует значительное продвижение в мультимодальном машинном обучении. Эффективно преодолев разрыв между LLM и данными временных рядов, это исследование заложило фундамент для универсальных TSLM, способных обрабатывать различные продольные данные не только в здравоохранении, но также в финансах, промышленном мониторинге и других сферах.
Для ускорения инноваций в этой области команды Стэнфорда и ETH Цюриха открыли исходный код, наборы данных и веса предобученных моделей.

Создано при поддержке канала Слайдер Данные

Источник: habr.com

✅ Найденные теги: Встречайте, новости

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Твердотельный аккумулятор Donut на выставке, показывает замещающий литий-ион стоимость.
Человек рядом с изображением двойной спирали ДНК на фоне природы.
Залитый солнцем лес с деревьями и болотистой водой, покрытой зелёной растительностью.
Пленка NeoFilm 100 на деревянном столе в окружении упаковок.
Деревянный минималистичный сундук с подсветкой в интерьере.
Обложка отчета о преодолении разрыва в операционном ИИ от MIT Technology Review.
Твит о разработке в 2026: выполнение сложных задач до пробуждения США, чтобы избежать проблем с ИИ.
Прозрачный раствор в бутылочке с черной крышкой, химическая формула на этикетке.
Диаграмма ложной идентичности: реальность и самозванец, высокие и низкие частоты.
Image Not Found
Твердотельный аккумулятор Donut на выставке, показывает замещающий литий-ион стоимость.

Согласно результатам испытаний, твердотельная батарея Donut Lab способна выдерживать (экстремальные) температуры.

Разработанная финским стартапом батарея не только выдержала экстремальные условия высокой температуры, но и фактически увеличила свою емкость. Эндрю Дж. Хокинс, редактор раздела «Транспорт». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в…

Мар 5, 2026
Пленка NeoFilm 100 на деревянном столе в окружении упаковок.

Цифровая камера OPT NeoFilm 100 в формате плёнки

Компактная камера OPT NeoFilm 100 выполнена в виде классической 35-мм плёнки, но внутри скрывается не аналоговый механизм, а цифровая «начинка», способная снимать фото и видео.  Камера оснащена 1-мегапиксельным сенсором, который позволяет получать изображения с разрешением до 3…

Мар 5, 2026
Деревянный минималистичный сундук с подсветкой в интерьере.

«Умная» кровать-трансформер Roll

Хорватский дизайнер Лука Булян разработал проект складной кровати Roll, которая по нажатию кнопки сворачивается в аккуратный деревянный шкаф. Главная идея строится на принципе ежедневного скручивания матраса без потери его свойств. Конструкция оснащена тихим электродвигателем и плавным механизмом…

Мар 5, 2026
Обложка отчета о преодолении разрыва в операционном ИИ от MIT Technology Review.

Преодоление разрыва в операционном применении ИИ

Интеграция в масштабах всего предприятия используется для распространения современных автоматизированных процессов на завтрашние рабочие процессы, осуществляемые агентами. Трансформационный потенциал ИИ уже хорошо известен. Примеры его применения в корпоративной среде набирают обороты, и организации переходят от пилотных проектов…

Мар 5, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых