Нейронные сети известны своей непостижимостью: компьютер может дать хороший ответ, но не сможет объяснить, что привело к такому выводу. Бин Ким разрабатывает «переводчик для людей», чтобы мы могли понять, когда искусственный интеллект даёт сбой. Комментарий Сохранить статью Прочитать позже

Бин Ким, научный сотрудник Google Brain, разрабатывает способ спросить систему машинного обучения, насколько конкретная, высокоуровневая концепция повлияла на процесс принятия решений.
Введение
Если врач скажет вам, что вам нужна операция, вы захотите узнать, почему, и будете ожидать, что объяснение будет для вас понятным, даже если вы никогда не учились в медицинском вузе. Бин Ким, исследователь из Google Brain, считает, что от искусственного интеллекта не стоит ожидать ничего меньшего. Будучи специалистом по «интерпретируемому» машинному обучению, она хочет создать программное обеспечение для искусственного интеллекта, которое сможет объяснить себя любому.
С момента своего расцвета примерно десять лет назад технология нейронных сетей, лежащая в основе искусственного интеллекта, преобразила все: от электронной почты до открытия лекарств благодаря своей все более мощной способности учиться и выявлять закономерности в данных. Но эта сила имела странную оговорку: та самая сложность, которая позволяет современным сетям глубокого обучения успешно обучаться вождению автомобилей и выявлять мошенничество со страховками, также делает их внутреннюю работу практически невозможной для понимания даже экспертами по ИИ. Если нейронную сеть обучить выявлять пациентов с риском таких заболеваний, как рак печени и шизофрения — как это было с системой под названием «Deep Patient» в 2015 году в больнице Маунт-Синай в Нью-Йорке — нет никакого способа определить, на какие именно особенности данных сеть обращает внимание. Эти «знания» размазаны по многим слоям искусственных нейронов, каждый из которых имеет сотни или тысячи связей.
По мере того, как всё больше отраслей пытаются автоматизировать или улучшить процесс принятия решений с помощью ИИ, эта так называемая проблема «чёрного ящика» кажется скорее фундаментальным недостатком, чем технологической странностью. Проект DARPA «XAI» (что означает «объяснимый ИИ») активно исследует эту проблему, и интерпретируемость переместилась с периферии исследований в области машинного обучения в центр этой области. «ИИ находится в критическом моменте, когда человечество пытается решить, подходит ли нам эта технология или нет», — говорит Ким. «Если мы не решим проблему интерпретируемости, я не думаю, что мы сможем двигаться дальше с этой технологией. Мы можем просто отказаться от неё».
Ким и её коллеги из Google Brain недавно разработали систему под названием «Тестирование с помощью векторов активации концепций» (TCAV), которую она описывает как «переводчик для людей». Она позволяет пользователю спрашивать у искусственного интеллекта, работающего по принципу «чёрного ящика», насколько конкретная высокоуровневая концепция повлияла на его рассуждения. Например, если система машинного обучения обучена распознавать зебр на изображениях, пользователь может использовать TCAV, чтобы определить, какое значение система придаёт понятию «полоски» при принятии решения.
Изначально TCAV тестировался на моделях машинного обучения, обученных распознавать изображения, но он также работает с моделями, обученными распознавать текст и определённые виды визуализации данных, например, формы ЭЭГ. «Это универсальный и простой подход — его можно использовать во множестве различных моделей», — говорит Ким.
Журнал Quanta Magazine поговорил с Ким о том, что такое интерпретируемость, для кого она нужна и почему она важна. Ниже представлена отредактированная и сокращённая версия интервью.
Вы сосредоточили свою карьеру на «интерпретируемости» машинного обучения. Но что именно означает этот термин?
Существует два аспекта интерпретируемости. Один из них — это интерпретируемость для науки: если рассматривать нейронную сеть как объект исследования, то можно проводить научные эксперименты, чтобы по-настоящему понять все детали модели, её реакции и тому подобное.
Вторая область интерпретируемости, на которой я в основном сосредоточился, — это интерпретируемость для ответственного ИИ. Вам не обязательно понимать каждую деталь модели. Но если вы понимаете достаточно, чтобы безопасно использовать инструмент, то это и есть наша цель.
Но как можно доверять системе, принципы работы которой вы не понимаете до конца?
Приведу аналогию. Допустим, у меня на заднем дворе есть дерево, которое я хочу спилить. Возможно, у меня есть бензопила. Я не до конца понимаю, как она работает. Но в инструкции написано: «Вот с чем нужно быть осторожным, чтобы не порезать палец». Итак, следуя этой инструкции, я бы предпочёл использовать бензопилу, а не ручную пилу, которая понятнее, но с ней я потрачу пять часов на спиливание дерева.
Вы понимаете, что такое «резка», даже если не знаете наверняка, как именно этот механизм это делает.
Да. Цель второй ветви интерпретируемости: можем ли мы понять инструмент настолько, чтобы безопасно его использовать? И мы можем сформировать такое понимание, подтвердив, что полезные человеческие знания отражены в инструменте.
Каким образом «отражение человеческих знаний» делает нечто вроде черного ящика ИИ более понятным?
Вот ещё один пример. Если врач использует модель машинного обучения для диагностики рака, ему нужно убедиться, что модель не выявляет случайные корреляции в данных, которые нам не нужны. Один из способов убедиться в этом — убедиться, что модель машинного обучения выполняет действия, которые врач выполнял бы сам. Другими словами, показать, что собственные диагностические знания врача отражены в модели.
Итак, если бы врачи изучали образец клеток для диагностики рака, они могли бы искать в нём так называемые «сращенные железы». Они также могли бы учитывать возраст пациента и прохождение им химиотерапии в прошлом. Эти факторы или концепции важны для врачей, пытающихся диагностировать рак. Если мы сможем показать, что модель машинного обучения также учитывает эти факторы, модель станет более понятной, поскольку она отражает человеческие знания врачей.
Нажимая кнопку просмотра этого видео, вы соглашаетесь с нашей политикой конфиденциальности.Видео : Бин Ким из Google Brain разрабатывает способы, которые позволят нам подвергать сомнению решения, принимаемые системами машинного обучения.
Это ли то, чем занимается TCAV — выявляет, какие высокоуровневые концепции модель машинного обучения использует для принятия решений?
Да. До этого методы интерпретируемости объясняли работу нейронных сетей только в терминах «входных признаков». Что я имею в виду? Если у вас есть изображение, каждый пиксель является входным признаком. Фактически, Янн Лекун [один из первых пионеров глубокого обучения и в настоящее время директор по исследованиям ИИ в Facebook] сказал, что, по его мнению, эти модели уже являются суперинтерпретируемыми, потому что вы можете посмотреть на каждый отдельный узел нейронной сети и увидеть числовые значения для каждого из этих входных признаков. Это нормально для компьютеров, но люди так не думают. Я не говорю вам: «О, посмотрите на пиксели с 100 по 200, значения RGB равны 0,2 и 0,3». Я говорю: «Вот фотография собаки с очень пушистой шерстью». Именно так люди общаются — с помощью понятий.
Каким образом TCAV выполняет этот перевод между входными характеристиками и концепциями?
Вернёмся к примеру врача, использующего модель машинного обучения, которая уже обучена классифицировать изображения образцов клеток как потенциально раковые. Вам, как врачу, может быть интересно узнать, насколько концепция «сращенных желез» повлияла на модель при формировании положительных прогнозов рака. Сначала вы собираете несколько изображений, например, 20, на которых есть примеры сращенных желез. Затем вы добавляете эти помеченные примеры в модель.
Затем то, что TCAV делает внутри, называется «тестированием чувствительности». Когда мы добавляем эти маркированные изображения сращенных желез, насколько увеличивается вероятность положительного прогноза рака? Вы можете вывести это числом от нуля до единицы. Вот и всё. Это ваш показатель TCAV. Если вероятность увеличивалась, это было важным понятием для модели. Если нет, это не важное понятие.
«Концепция» — расплывчатый термин. Есть ли такие, которые не будут работать с TCAV?
Если вы не можете выразить свою концепцию, используя какое-либо подмножество носителя вашего [набора данных], то это не сработает. Если ваша модель машинного обучения обучена на изображениях, то концепция должна быть визуально выразимой. Допустим, я хочу визуально выразить концепцию «любви». Это действительно сложно.
Мы также тщательно проверяем концепцию. У нас есть процедура статистического тестирования, которая отклоняет вектор концепции, если он оказывает на модель такое же влияние, как случайный вектор. Если ваша концепция не проходит этот тест, TCAV скажет: «Не знаю. Эта концепция не похожа на что-то важное для модели».

Является ли TCAV по сути созданием доверия к ИИ, а не его подлинным пониманием?
Это не так, и я объясню почему: это очень тонкое различие.
Многочисленные исследования в области когнитивной науки и психологии показывают, что люди очень доверчивы. Это означает, что обманом заставить человека чему-либо поверить довольно легко. Цель интерпретируемости в машинном обучении противоположна этому. Она заключается в том, чтобы сообщать вам, является ли система небезопасной для использования. Речь идёт о раскрытии истины. Поэтому «доверие» — не совсем верное слово.
То есть смысл интерпретируемости заключается в выявлении потенциальных изъянов в рассуждениях ИИ?
Да, именно так.
Как это может выявить недостатки?
Вы можете использовать TCAV, чтобы задать обученной модели вопросы о нерелевантных понятиях. Возвращаясь к примеру с врачами, использующими ИИ для прогнозирования рака, врачи могут внезапно подумать: «Похоже, машина даёт положительные прогнозы о раке для множества изображений с синим артефактом. Мы не думаем, что этот фактор следует учитывать». Таким образом, если они получают высокий балл TCAV для «синего», они только что обнаружили проблему в своей модели машинного обучения.
Система TCAV предназначена для интеграции с существующими системами искусственного интеллекта, которые невозможно интерпретировать. Почему бы не сделать системы интерпретируемыми с самого начала, а не просто «чёрными ящиками»?
Существует раздел исследований интерпретируемости, который фокусируется на построении изначально интерпретируемых моделей, отражающих ход рассуждений человека. Но моё мнение таково: прямо сейчас повсюду уже существуют модели ИИ, которые уже построены и используются для важных целей, без учёта интерпретируемости с самого начала. Это просто правда. У нас в Google их много! Можно сказать: «Интерпретируемость так полезна, давайте я построю вам ещё одну модель, чтобы заменить ту, что у вас уже есть». Что ж, удачи вам в этом.
Итак, что же делать? Нам ещё предстоит пережить этот критический момент, решая, подходит ли нам эта технология или нет. Именно поэтому я работаю с методами интерпретации после «обучения». Если у вас есть модель, которую вам кто-то предоставил, и которую вы не можете изменить, как вы сформулируете объяснения её поведения, чтобы можно было безопасно её использовать? Именно в этом и заключается суть работы TCAV.

TCAV позволяет людям спрашивать ИИ, важны ли для него определённые концепции. Но что, если мы не знаем, что спрашивать, — а что, если мы хотим, чтобы система ИИ сама всё объяснила?
Мы сейчас пишем работу, которая позволит автоматически находить для вас концепции. Мы называем её DTCAV — Discovery TCAV. Но я на самом деле считаю, что именно участие людей в процессе и обеспечение диалога между машинами и людьми — это основа интерпретируемости.
Зачастую в приложениях с высокими ставками у экспертов в предметной области уже есть список интересующих их концепций. Мы постоянно видим это в наших медицинских приложениях в Google Brain. Им не нужен набор концепций — они хотят сообщить модели, какие именно концепции им интересны. Мы работали с врачом, который лечит диабетическую ретинопатию, заболевание глаз, и когда мы рассказали ей о TCAV, она была в восторге, потому что у неё уже было множество гипотез о том, что может делать эта модель, и теперь она может проверить именно эти вопросы. На самом деле, это огромный плюс и очень ориентированный на пользователя способ совместного машинного обучения.
Вы считаете, что без интерпретируемости человечество может просто отказаться от технологий искусственного интеллекта. Учитывая их мощь, вы действительно считаете это реалистичным?
Да, я так считаю. Именно это и произошло с экспертными системами. [В 1980-х] мы установили, что они обходятся дешевле, чем операторы-люди, для выполнения определённых задач. Но кто сейчас использует экспертные системы? Никто. И после этого мы вступили в эпоху ИИ.
Сейчас это кажется маловероятным из-за всей шумихи и денег, связанных с ИИ. Но в долгосрочной перспективе, я думаю, человечество может решить — возможно, из-за страха, возможно, из-за отсутствия доказательств, — что эта технология не для нас. Это возможно.
Источник: www.quantamagazine.org



























