Врач использует искусственный интеллект, держит стетоскоп; инфографика и чек-лист на планшете.

Повышение способности моделей ИИ объяснять свои прогнозы.

Новый подход может помочь пользователям понять, можно ли доверять прогнозам модели в критически важных с точки зрения безопасности приложениях, таких как здравоохранение и автономное вождение. Врач держит стетоскоп с надписью «AI», которая связана со встроенным планшетом для записей с галочками. Новая методика преобразует любую модель компьютерного зрения в модель, способную объяснять свои предсказания с помощью набора понятий, доступных человеку. Изображение: MIT News; iStock

В таких ответственных областях, как медицинская диагностика, пользователи часто хотят знать, что побудило модель компьютерного зрения сделать тот или иной прогноз, чтобы определить, можно ли доверять ее результатам.

Моделирование «бутылочного горла» концепций — один из методов, позволяющих системам искусственного интеллекта объяснять процесс принятия решений. Эти методы заставляют модель глубокого обучения использовать набор концепций, понятных человеку, для прогнозирования. В новом исследовании ученые из Массачусетского технологического института разработали метод, который позволяет модели достигать большей точности и давать более ясные и лаконичные объяснения.

Концепции, используемые моделью, обычно определяются заранее экспертами. Например, врач может предложить использовать такие понятия, как «скопления коричневых точек» и «разнообразная пигментация», чтобы предсказать, что на медицинском изображении видна меланома.

Однако ранее определенные концепции могут быть нерелевантными или недостаточно подробными для конкретной задачи, что снижает точность модели. Новый метод извлекает концепции, которые модель уже усвоила в процессе обучения для выполнения данной задачи, и заставляет модель использовать именно их, что позволяет получать более качественные объяснения, чем стандартные модели с «узким местом» в концепциях.

Данный подход использует пару специализированных моделей машинного обучения, которые автоматически извлекают знания из целевой модели и переводят их в понятные для простого языка концепции. В конечном итоге, их метод позволяет преобразовать любую предварительно обученную модель компьютерного зрения в модель, способную использовать концепции для объяснения своих рассуждений.

«В некотором смысле, мы хотим уметь читать мысли этих моделей компьютерного зрения. Модель «бутылочного горла» концепций — это один из способов для пользователей понять, о чем думает модель и почему она сделала тот или иной прогноз. Поскольку наш метод использует более совершенные концепции, он может привести к большей точности и, в конечном итоге, повысить подотчетность моделей ИИ типа «черный ящик», — говорит ведущий автор Антонио Де Сантис, аспирант Миланского политехнического университета, который провел это исследование во время стажировки в Лаборатории компьютерных наук и искусственного интеллекта (CSAIL) в Массачусетском технологическом институте.

Вместе с ним в работе над статьей приняли участие Шразинг Тонг, выпускник магистратуры 2020 года и доктор философии 2026 года; Марко Брамбилла, профессор компьютерных наук и инженерии Миланского политехнического университета; и старший автор Лалана Кагал, ведущий научный сотрудник CSAIL. Результаты исследования будут представлены на Международной конференции по обучению представлениям.

Создание более эффективного узкого места

Модели «бутылочного горла концепций» (CBM) — популярный подход к повышению объяснимости искусственного интеллекта. Эти методы добавляют промежуточный этап, заставляя модель компьютерного зрения предсказывать концепции, присутствующие на изображении, а затем использовать эти концепции для окончательного прогноза.

Этот промежуточный этап, или «узкое место», помогает пользователям понять логику работы модели.

Например, модель, определяющая виды птиц, могла бы выбрать такие понятия, как «жёлтые ноги» и «синие крылья», прежде чем предсказать появление деревенской ласточки.

Однако, поскольку эти концепции часто генерируются заранее людьми или большими языковыми моделями (БЯМ), они могут не подходить для конкретной задачи. Кроме того, даже если модели предоставлен набор заранее определенных концепций, она иногда все равно использует нежелательную полученную информацию, что является проблемой, известной как утечка информации.

«Эти модели обучаются для достижения максимальной производительности, поэтому модель может тайно использовать концепции, о которых мы не знаем», — объясняет Де Сантис.

У исследователей из Массачусетского технологического института была другая идея: поскольку модель была обучена на огромном объеме данных, она, возможно, усвоила концепции, необходимые для генерации точных прогнозов для конкретной задачи. Они стремились создать модель на основе когнитивных моделей, извлекая эти существующие знания и преобразуя их в текст, понятный человеку.

На первом этапе их метода специализированная модель глубокого обучения, называемая разреженным автокодировщиком, избирательно берет наиболее релевантные признаки, изученные моделью, и преобразует их в несколько концепций. Затем многомодальная модель LLM описывает каждую концепцию простым языком.

Эта мультимодальная LLM-система также аннотирует изображения в наборе данных, определяя, какие концепции присутствуют, а какие отсутствуют на каждом изображении. Исследователи используют этот аннотированный набор данных для обучения модуля распознавания концепций.

Они интегрируют этот модуль в целевую модель, заставляя ее делать прогнозы, используя только тот набор изученных концепций, который извлекли исследователи.

Контроль над понятиями

В процессе разработки этого метода они преодолели множество трудностей, от обеспечения правильной аннотации концепций с помощью LLM до определения того, идентифицировал ли разреженный автокодировщик концепции, понятные человеку.

Чтобы предотвратить использование моделью неизвестных или нежелательных концепций, её ограничивают пятью концепциями для каждого прогноза. Это также заставляет модель выбирать наиболее релевантные концепции и делает объяснения более понятными.

При сравнении своего подхода с передовыми моделями когнитивных машин на таких задачах, как прогнозирование видов птиц и идентификация поражений кожи на медицинских изображениях, их метод показал наивысшую точность, предоставляя при этом более точные объяснения.

Их подход также позволил разработать концепции, которые оказались более применимыми к изображениям в наборе данных.

«Мы показали, что извлечение концепций из исходной модели может превосходить другие модели на основе когнитивных моделей, но всё ещё существует компромисс между интерпретируемостью и точностью, который необходимо учитывать. Модели типа «чёрный ящик», которые не поддаются интерпретации, всё ещё превосходят нашу», — говорит Де Сантис.

В будущем исследователи планируют изучить потенциальные решения проблемы утечки информации, возможно, путем добавления дополнительных модулей, ограничивающих распространение концепций, чтобы предотвратить утечку нежелательных концепций. Они также планируют масштабировать свой метод, используя более крупную многомодальную LLM-модель для аннотирования большего обучающего набора данных, что может повысить производительность.

«Меня очень воодушевляет эта работа, потому что она направляет интерпретируемый ИИ в очень перспективное русло и создает естественный мост к символическому ИИ и графам знаний», — говорит Андреас Хото, профессор и руководитель кафедры науки о данных в Вюрцбургском университете, который не принимал участия в этой работе. «Выводя концептуальные «узкие места» из собственных внутренних механизмов модели, а не только из понятий, определенных человеком, она открывает путь к объяснениям, которые более точно соответствуют модели, и предоставляет множество возможностей для дальнейшей работы со структурированными знаниями».

Данное исследование было поддержано докторской стипендией Progetto Rocca, Министерством университетов и исследований Италии в рамках Национального плана восстановления и повышения устойчивости, компанией Thales Alenia Space и Европейским союзом в рамках проекта NextGenerationEU.

Источник: news.mit.edu

✅ Найденные теги: ИИ, Модели, новости, Объяснение, Повышение, Прогнозы, Способность

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

ideipro logotyp
Мужчина в галерее с крупными яркими абстрактными картинами на стене.
Диаграмма продаж: очки, зонты, лимонад, солнцезащитный крем, с общим разделителем.
ideipro logotyp
Компания Anthropic отключает возможность использования подписок Claude с OpenClaw и сторонними агентами искусственного интеллекта.
Компания Anthropic отключает возможность использования подписок Claude с OpenClaw и сторонними агентами искусственного интеллекта.
Космический аппарат на фоне Луны в фазе полумесяца в открытом космосе.
ideipro logotyp
Астронавт на Луне с камерой, отражение Земли в шлеме. Космос, исследование.
Image Not Found
ideipro logotyp

Созвездия собственных конусов на ранжированных сферах

arXiv:2604.03554v2 Тип объявления: replace-cross Аннотация: Мы представляем констелляции собственных конусов — иерархическую структуру для встраивания пространственных графов с ограниченной степенью вершин в концентрические сферические оболочки и разделения каждой оболочки на спектрально взвешенные сферические звездообразные территории. Для заданного…

Апр 8, 2026
Мужчина в галерее с крупными яркими абстрактными картинами на стене.

3 вопроса: Создание прогностических моделей для характеристики прогрессирования опухоли.

Доцент Мэтью Джонс занимается расшифровкой молекулярных процессов на генетическом, эпигенетическом уровнях и уровне микроокружения, чтобы предсказать, как и когда опухоли эволюционируют, становясь устойчивыми к лечению. Мэтью Джонс использует экспериментальные технологии и вычислительные методы для расшифровки молекулярных процессов,…

Апр 8, 2026
Диаграмма продаж: очки, зонты, лимонад, солнцезащитный крем, с общим разделителем.

Базовые модели временных рядов могут обучаться на небольшом количестве примеров.

Мы представляем новый подход к прогнозированию временных рядов, который использует непрерывное предварительное обучение для того, чтобы научить базовую модель временных рядов адаптироваться к контекстным примерам во время вывода. Быстрые ссылки Бумага Делиться Скопировать ссылку × Прогнозирование временных…

Апр 8, 2026
ideipro logotyp

Представляем план обеспечения безопасности детей | OpenAI

Система мер по борьбе с сексуальной эксплуатацией детей с использованием искусственного интеллекта и ее предотвращению. Прочитайте документ (откроется в новом окне) Сексуальная эксплуатация детей — одна из самых актуальных проблем цифровой эпохи. Искусственный интеллект быстро меняет как…

Апр 8, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых