Глубокие нейронные сети, которые часто критикуют как «черные ящики», помогают нейробиологам понять организацию живого мозга. Комментарий Сохранить статью Прочитать позже

Специалисты в области вычислительной нейробиологии обнаруживают, что нейронные сети глубокого обучения могут служить хорошими объяснительными моделями для функциональной организации живого мозга.
Введение
Зимой 2011 года Дэниел Яминс, научный сотрудник Массачусетского технологического института, занимающийся вычислительной нейробиологией, порой допоздна работал над своим проектом в области машинного зрения. Он кропотливо проектировал систему, способную распознавать объекты на изображениях независимо от их размера, положения и других свойств — то, что люди делают с легкостью. Система представляла собой глубокую нейронную сеть, тип вычислительного устройства, вдохновленный нейронными связями живого мозга.
«Я очень хорошо помню тот момент, когда мы нашли нейронную сеть, которая действительно решила задачу», — сказал он. Было 2 часа ночи, немного рановато, чтобы будить его научного руководителя Джеймса ДиКарло или других коллег, поэтому взволнованный Яминс отправился на прогулку по холодному кембриджскому воздуху. «Я был действительно полон энтузиазма», — сказал он.
Это уже само по себе можно было бы считать значительным достижением в области искусственного интеллекта, одним из многих, которые сделали бы нейронные сети фаворитами в сфере ИИ в ближайшие несколько лет. Но это не было главной целью для Яминса и его коллег. Для них и других нейробиологов это был поворотный момент в развитии вычислительных моделей функций мозга.
ДиКарло и Яминс, который сейчас руководит собственной лабораторией в Стэнфордском университете, входят в группу нейробиологов, использующих глубокие нейронные сети для понимания архитектуры мозга. В частности, ученые пытались понять причины специализации мозга на выполнении различных задач. Их интересовало не только то, почему разные части мозга выполняют разные функции, но и почему эти различия могут быть настолько специфическими: почему, например, в мозге есть область для распознавания объектов в целом, но также и для распознавания лиц в частности? Глубокие нейронные сети показывают, что такая специализация может быть наиболее эффективным способом решения проблем.
Аналогичным образом исследователи продемонстрировали, что глубокие нейронные сети, наиболее эффективно классифицирующие речь, музыку и имитированные запахи, имеют архитектуру, которая, по-видимому, параллельна слуховой и обонятельной системам мозга. Подобные параллели также наблюдаются в глубоких сетях, способных анализировать двухмерную сцену и определять основные свойства трехмерных объектов в ней, что помогает объяснить, как биологическое восприятие может быть одновременно быстрым и невероятно богатым. Все эти результаты указывают на то, что структуры живых нейронных систем воплощают определенные оптимальные решения задач, которые они выполняют.
Эти успехи тем более неожиданны, учитывая, что нейробиологи долгое время скептически относились к сравнениям между мозгом и глубокими нейронными сетями, работа которых может быть непонятной. «Честно говоря, никто в моей лаборатории [до недавнего времени] ничего не делал с глубокими сетями», — сказала нейробиолог из Массачусетского технологического института Нэнси Канвишер. «Теперь большинство из них регулярно их обучают».
Глубокие сети и зрение
Искусственные нейронные сети строятся с использованием взаимосвязанных компонентов, называемых перцептронами, которые представляют собой упрощенные цифровые модели биологических нейронов. Сети имеют как минимум два слоя перцептронов: один для входа и один для выхода. Если между входом и выходом поместить один или несколько «скрытых» слоев, получится «глубокая» нейронная сеть; чем больше скрытых слоев, тем глубже сеть.
Глубокие нейронные сети можно обучить выявлять закономерности в данных, например, закономерности, представляющие изображения кошек или собак. Обучение включает в себя использование алгоритма для итеративной корректировки силы связей между перцептронами, чтобы сеть научилась связывать заданный входной сигнал (пиксели изображения) с правильной меткой (кошка или собака). После обучения глубокая нейронная сеть в идеале должна уметь классифицировать входные данные, которые она ранее не видела.
В своей общей структуре и функциях глубокие нейронные сети стремятся приблизительно имитировать работу мозга, в котором скорректированная сила связей между нейронами отражает усвоенные ассоциации. Нейробиологи часто указывали на важные ограничения в этом сравнении: например, отдельные нейроны могут обрабатывать информацию более интенсивно, чем «неинтеллектуальные» перцептроны, и глубокие сети часто зависят от типа коммуникации между перцептронами, называемого обратным распространением ошибки, который, по-видимому, не происходит в нервной системе. Тем не менее, для нейробиологов, занимающихся вычислительными методами, глубокие сети иногда казались наилучшим доступным вариантом для моделирования частей мозга.
Исследователи, разрабатывающие вычислительные модели зрительной системы, находятся под влиянием знаний о зрительной системе приматов, в частности, о пути, отвечающем за распознавание людей, мест и предметов, называемом вентральным зрительным потоком. (В значительной степени отдельный путь, дорсальный зрительный поток, обрабатывает информацию для восприятия движения и положения предметов.) У человека этот вентральный путь начинается в глазах и идет к латеральному коленчатому ядру таламуса, своего рода релейной станции для сенсорной информации. Латеральное коленчатое ядро соединяется с областью, называемой V1, в первичной зрительной коре, ниже которой расположены области V2 и V4, которые в конечном итоге ведут к нижней височной коре. (Мозг нечеловеческих приматов имеет гомологичные структуры.)
Ключевое нейробиологическое открытие заключается в том, что обработка визуальной информации носит иерархический характер и происходит поэтапно: на ранних этапах обрабатываются низкоуровневые признаки в поле зрения (такие как края, контуры, цвета и формы), тогда как сложные представления, такие как целые объекты и лица, появляются только позже в нижней височной коре.
Эти идеи легли в основу разработки глубокой нейронной сети Яминсом и его коллегами. Их глубокая сеть имела скрытые слои, некоторые из которых выполняли «свертку», применяя один и тот же фильтр ко всем частям изображения. Каждая свертка захватывала различные существенные особенности изображения, такие как края. Более простые особенности захватывались на ранних этапах сети, а более сложные — на более глубоких этапах, как в зрительной системе приматов. Когда такая сверточная нейронная сеть (CNN) обучается классификации изображений, она начинает с произвольно инициализированных значений для своих фильтров и обучается правильным значениям, необходимым для решения поставленной задачи.
Разработанная командой четырехслойная сверточная нейронная сеть смогла распознать восемь категорий объектов (животные, лодки, автомобили, стулья, лица, фрукты, самолеты и столы), изображенных на 5760 фотореалистичных 3D-изображениях. Изображенные объекты сильно различались по положению, ориентации и масштабу. Тем не менее, глубокая сеть показала результаты, сопоставимые с человеческими, которые чрезвычайно хорошо распознают объекты, несмотря на их вариативность.
Яминс и не подозревал, что назревающая в мире компьютерного зрения революция независимо подтвердит правильность выбранного им и его коллегами подхода. Вскоре после завершения создания своей сверточной нейронной сети (CNN) другая CNN, AlexNet, прославилась на ежегодном конкурсе по распознаванию изображений. AlexNet также была основана на иерархической архитектуре обработки, которая на ранних этапах улавливала основные визуальные признаки, а на более высоких — более сложные; она была обучена на 1,2 миллионах размеченных изображений, представляющих тысячу категорий объектов. На конкурсе 2012 года AlexNet превзошла все остальные протестированные алгоритмы: по результатам конкурса, частота ошибок AlexNet составила всего 15,3%, по сравнению с 26,2% у ближайшего конкурента. Благодаря победе AlexNet глубокие нейронные сети стали серьезными претендентами в области искусственного интеллекта и машинного обучения.
Однако Яминс и другие члены команды ДиКарло стремились к нейробиологическому результату. Они задались вопросом: если их сверточная нейронная сеть имитирует зрительную систему, сможет ли она предсказать нейронные реакции на новое изображение? Чтобы это выяснить, они сначала установили, как активность в группах искусственных нейронов в их сверточной нейронной сети соответствует активности почти в 300 участках вентрального зрительного потока двух макак-резусов.
Затем они использовали сверточную нейронную сеть (CNN) для прогнозирования реакции этих участков мозга на изображения, не входившие в обучающий набор данных. «Мы получили не только хорошие прогнозы… но и своего рода анатомическую согласованность», — сказал Яминс: ранний, промежуточный и поздний слои CNN предсказывали поведение ранних, промежуточных и высших областей мозга соответственно. Форма следовала за функцией.
Канвишер вспоминает, что была впечатлена результатом, когда он был опубликован в 2014 году. «В нем не говорится, что отдельные элементы глубокой нейронной сети ведут себя биофизически как нейроны, — сказала она. — Тем не менее, наблюдается поразительная специфичность функционального соответствия».
Специализация на звуке
После публикации результатов исследований Яминса и ДиКарло начались поиски других, более совершенных моделей мозга на основе глубоких нейронных сетей, особенно для областей, менее изученных, чем зрительная система приматов. Например, «у нас до сих пор нет достаточного понимания слуховой коры, особенно у людей», — сказал Джош Макдермотт, нейробиолог из Массачусетского технологического института. Может ли глубокое обучение помочь в выдвижении гипотез о том, как мозг обрабатывает звуки?
Это и есть цель Макдермотта. Его команда, в которую входили Александр Келл и Яминс, начала разрабатывать глубокие нейронные сети для классификации двух типов звуков: речи и музыки. Сначала они жестко запрограммировали модель улитки — органа, преобразующего звук во внутреннем ухе, работа которого хорошо изучена, — для обработки аудио и сортировки звуков по различным частотным каналам в качестве входных данных для сверточной нейронной сети. Сверточная нейронная сеть была обучена как распознавать слова в аудиоклипах речи, так и распознавать жанры музыкальных клипов, смешанных с фоновым шумом. Команда искала архитектуру глубокой нейронной сети, которая могла бы точно выполнять эти задачи, не требуя больших ресурсов.
Возможны три варианта архитектуры. Две задачи глубокой нейронной сети могли бы использовать общий входной слой, а затем разделиться на две отдельные сети. В другом крайнем случае задачи могли бы использовать одну и ту же сеть на протяжении всей обработки и разделиться только на этапе вывода. Или же это мог быть один из десятков промежуточных вариантов, где некоторые этапы сети были общими, а другие — отдельными.
Неудивительно, что сети, имевшие выделенные пути после входного слоя, превзошли сети с полностью общими путями. Однако гибридная сеть — с семью общими слоями после входного слоя и двумя отдельными сетями по пять слоев каждая — показала почти такие же результаты, как и полностью раздельная сеть. Макдермотт и его коллеги выбрали гибридную сеть как ту, которая лучше всего работала с наименьшими вычислительными ресурсами.
Когда эту гибридную нейронную сеть сравнили с результатами людей в этих задачах, результаты оказались весьма удовлетворительными. Они также совпали с более ранними результатами ряда исследователей, которые предполагали, что непервичная слуховая кора имеет отдельные области для обработки музыки и речи. А в ключевом тесте, опубликованном в 2018 году, модель предсказала активность мозга у испытуемых: промежуточные слои модели предсказывали реакции первичной слуховой коры, а более глубокие слои — более высокие области слуховой коры. Эти предсказания были значительно лучше, чем у моделей, не основанных на глубоком обучении.
«Цель этой науки — уметь предсказывать, что будут делать системы, — сказал Макдермотт. — Эти искусственные нейронные сети приближают нас к этой цели в нейробиологии».
Канвишер, изначально скептически относившаяся к полезности глубокого обучения для собственных исследований, вдохновилась моделями Макдермотта. Канвишер наиболее известна своей работой середины-конца 1990-х годов, показавшей, что область нижней височной коры, называемая веретенообразной лицевой областью (FFA), специализируется на идентификации лиц. FFA значительно активнее, когда испытуемые смотрят на изображения лиц, чем когда они смотрят на изображения объектов, таких как дома. Почему мозг разделяет обработку лиц и других объектов?
Традиционно ответы на подобные вопросы «почему» были сложной задачей для нейронауки. Поэтому Канвишер, вместе со своей постдокторанткой Катариной Добс и другими коллегами, обратились за помощью к глубоким нейронным сетям. Они использовали преемника AlexNet в области компьютерного зрения — гораздо более глубокую сверточную нейронную сеть под названием VGG — и обучили две отдельные глубокие сети для решения конкретных задач: распознавания лиц и распознавания объектов.
Команда обнаружила, что глубокая нейронная сеть, обученная распознавать лица, плохо распознавала объекты, и наоборот, что говорит о том, что эти сети по-разному представляют лица и объекты. Затем команда обучила одну и ту же сеть для решения обеих задач. Они обнаружили, что сеть внутренне организовалась таким образом, чтобы разделять обработку лиц и объектов на более поздних этапах работы. «VGG спонтанно разделяет обработку на более поздних этапах», — сказал Канвишер. «Ей не обязательно разделять обработку на более ранних этапах».
Это согласуется с тем, как организована зрительная система человека: ветвление происходит только после общих более ранних этапов вентрального зрительного пути (латеральное коленчатое ядро и области V1 и V2). «Мы обнаружили, что функциональная специализация обработки лиц и объектов спонтанно возникает в глубоких нейронных сетях, обученных на обеих задачах, как это происходит в человеческом мозге», — сказал Добс, который сейчас работает в Университете Юстуса Либига в Гиссене, Германия.
«Больше всего меня радует то, что, как мне кажется, теперь у нас есть способ ответить на вопросы о том, почему мозг устроен именно так», — сказал Канвишер.
Слои ароматов
Всё больше подобных доказательств появляется в исследованиях, посвященных восприятию запахов. В прошлом году нейробиолог-вычислитель Роберт Янг и его коллеги из Колумбийского университета разработали глубокую нейронную сеть для моделирования обонятельной системы плодовой мухи, которая была детально изучена нейробиологами.
Первый уровень обработки запахов включает обонятельные сенсорные нейроны, каждый из которых экспрессирует только один из примерно 50 типов обонятельных рецепторов. Все сенсорные нейроны одного типа, в среднем около 10, связаны с одним нервным кластером на следующем уровне иерархии обработки. Поскольку на каждом конце мозга в этом слое находится около 50 таких нервных кластеров, устанавливается однозначное соответствие между типами сенсорных нейронов и соответствующими нервными кластерами. Нервные кластеры имеют множество случайных связей с нейронами на следующем уровне, называемом слоем Кеньона, который содержит около 2500 нейронов, каждый из которых получает около семи входных сигналов. Считается, что слой Кеньона участвует в высокоуровневом представлении запахов. Последний слой, состоящий примерно из 20 нейронов, обеспечивает выходные сигналы, которые муха использует для управления своими действиями, связанными с запахами (Янг предупреждает, что никто не знает, можно ли считать эти выходные сигналы классификацией запахов).
Чтобы проверить, можно ли разработать вычислительную модель, имитирующую этот процесс, Ян и его коллеги сначала создали набор данных, имитирующий запахи, которые не активируют нейроны так же, как изображения. Если наложить два изображения кошек, складывая их пиксель за пикселем, полученное изображение может совсем не походить на кошку. Однако, если смешать запах двух яблок, он, скорее всего, все равно будет пахнуть яблоком. «Это критически важное открытие, которое мы использовали при разработке нашей задачи на обоняние», — сказал Ян.
Они построили свою глубокую нейронную сеть с четырьмя слоями: тремя, моделирующими обрабатывающие слои в мозге плодовой мухи, и выходным слоем. Когда Ян и его коллеги обучили эту сеть классификации смоделированных запахов, они обнаружили, что сеть сходится к той же связности, что и в мозге плодовой мухи: однозначное соответствие от слоя 1 ко слою 2, а затем разреженное и случайное (7 к 1) соответствие от слоя 2 ко слою 3.
Это сходство предполагает, что и эволюция, и глубокие нейронные сети достигли оптимального решения. Но Ян по-прежнему с опаской относится к их результатам. «Возможно, нам просто повезло, и, возможно, это не применимо ко всем», — сказал он.
Следующим этапом тестирования станет разработка глубоких нейронных сетей, способных предсказывать взаимосвязь в обонятельной системе какого-либо еще не изученного животного, что затем может быть подтверждено нейробиологами. «Это обеспечит гораздо более строгую проверку нашей теории», — сказал Ян, который переедет в Массачусетский технологический институт в июле 2021 года.
Не просто чёрные ящики
Глубокие нейронные сети часто критикуют за неспособность обобщать данные, слишком сильно отличающиеся от обучающего набора данных. Они также печально известны своей «черной коробкой». Невозможно объяснить решения глубокой нейронной сети, изучив миллионы или даже миллиарды параметров, формирующих её работу. Разве модель глубокой нейронной сети, моделирующая какую-либо часть мозга, не является просто заменой одного «черного ящика» другим?
По мнению Янга, не совсем так. «Изучать его все еще проще, чем мозг», — сказал он.
В прошлом году команда ДиКарло опубликовала результаты, которые затронули как проблему непрозрачности глубоких нейронных сетей, так и их предполагаемую неспособность к обобщению. Исследователи использовали версию AlexNet для моделирования вентрального зрительного потока макак и определили соответствия между искусственными нейронными единицами и нейронными участками в области V4 мозга обезьян. Затем, используя вычислительную модель, они синтезировали изображения, которые, по их прогнозам, должны были вызывать неестественно высокий уровень активности в нейронах обезьян. В одном эксперименте, когда обезьянам показывали эти «неестественные» изображения, они повышали активность 68% нейронных участков выше их обычного уровня; в другом эксперименте изображения повышали активность одного нейрона, подавляя ее в соседних нейронах. Оба результата были предсказаны моделью нейронной сети.
По мнению исследователей, эти результаты свидетельствуют о том, что глубокие нейронные сети действительно применимы к мозгу и не являются совершенно непостижимыми. «Однако мы признаем, что… многие другие понятия „понимания“ еще предстоит изучить, чтобы понять, приносят ли эти модели пользу и каким образом», — написали они.
Сходство в структуре и производительности глубоких нейронных сетей и нейронов мозга не обязательно означает, что они работают одинаково; существуют явные различия. Но, возможно, сходств достаточно, чтобы оба типа систем следовали одним и тем же общим принципам управления.
Ограничения моделей
Макдермотт видит потенциальную терапевтическую ценность в этих исследованиях с использованием глубоких нейронных сетей. Сегодня потеря слуха обычно происходит из-за изменений в ухе. Слуховая система мозга должна справляться с нарушенным слуховым восприятием. «Поэтому, если бы у нас были хорошие модели того, что делает остальная часть слуховой системы, мы бы лучше понимали, что нужно делать, чтобы действительно помочь людям лучше слышать», — сказал Макдермотт.
Тем не менее, Макдермотт с осторожностью оценивает возможности глубоких нейронных сетей. «Мы прилагаем значительные усилия, чтобы понять ограничения нейронных сетей как моделей», — сказал он.
В одной из ярких демонстраций этих ограничений аспирантка Дженелль Фезер и другие сотрудники лаборатории Макдермотта сосредоточились на метамерах — физически различных входных сигналах, которые, тем не менее, дают одинаковое представление в системе. Например, два аудиометамера имеют разные формы волны, но звучат одинаково для человека. Используя модель слуховой системы на основе глубокой нейронной сети, команда разработала метамеры естественных аудиосигналов; эти метамеры активировали разные этапы нейронной сети так же, как и аудиоклипы. Если нейронная сеть точно моделирует слуховую систему человека, то метамеры тоже должны звучать одинаково.
Но этого не произошло. Люди распознавали метамеры, которые вызывали ту же активацию, что и соответствующие аудиоклипы на ранних этапах работы нейронной сети. Однако это не относилось к метамерам с совпадающими активациями на более глубоких этапах сети: эти метамеры звучали для людей как шум. «Таким образом, хотя при определенных обстоятельствах подобные модели очень хорошо воспроизводят поведение человека, в них есть что-то очень неправильное», — сказал Макдермотт.
В Стэнфорде Яминс исследует способы, которыми эти модели пока не являются репрезентативными для мозга. Например, многим из этих моделей для обучения требуется огромное количество размеченных данных, в то время как наш мозг может без труда учиться, используя всего один пример. Ведутся работы по разработке неконтролируемых глубоких нейронных сетей, способных обучаться столь же эффективно. Глубокие сети также обучаются с помощью алгоритма обратного распространения ошибки, который, по мнению большинства нейробиологов, не может работать в реальной нервной ткани, поскольку в ней отсутствуют соответствующие связи. «Достигнут значительный прогресс в плане разработки более биологически правдоподобных правил обучения, которые действительно работают», — сказал Яминс.
Джош Тенебаум, когнитивный нейробиолог из Массачусетского технологического института, сказал, что, хотя все эти модели глубоких нейронных сетей являются «реальными шагами вперед», они в основном выполняют задачи классификации или категоризации. Однако наш мозг делает гораздо больше, чем просто классифицирует то, что находится вокруг. Наша система зрения может понимать геометрию поверхностей и трехмерную структуру сцены, а также рассуждать о лежащих в основе причинно-следственных факторах — например, она может в режиме реального времени сделать вывод, что дерево исчезло только потому, что перед ним проехала машина.
Чтобы понять эту способность мозга, Илкер Йылдырым, ранее работавший в Массачусетском технологическом институте, а теперь в Йельском университете, вместе с Тенебаумом и его коллегами разработал так называемую эффективную обратную графическую модель. Она начинается с параметров, описывающих лицо, которое необходимо отобразить на фоне, таких как его форма, текстура, направление освещения, положение головы и так далее. Программа компьютерной графики, называемая генеративной моделью, создает 3D-сцену на основе этих параметров; затем, после различных этапов обработки, она создает 2D-изображение этой сцены, как она выглядит с определенной позиции. Используя 3D и 2D данные из генеративной модели, исследователи обучили модифицированную версию AlexNet предсказывать вероятные параметры 3D-сцены на основе незнакомого 2D-изображения. «Система учится двигаться в обратном направлении от следствия к причине, от 2D-изображения к 3D-сцене, которая его создала», — сказал Тенебаум.
Команда протестировала свою модель, проверив её предсказания об активности в нижней височной коре головного мозга макак-резусов. Они показали макакам 175 изображений, демонстрирующих 25 особей в семи позах, и записали нейронные сигналы из «лицевых участков» — областей обработки визуальной информации, специализирующихся на распознавании лиц. Они также показали изображения своей глубокой нейронной сети. В сети активация искусственных нейронов в первом слое представляет собой 2D-изображение, а активация в последнем слое — 3D-параметры. «По пути происходит множество преобразований, которые, по сути, переводят вас из 2D в 3D», — сказал Тенебаум. Они обнаружили, что последние три слоя сети удивительно хорошо соответствуют последним трём слоям сети обработки лиц у макак.
Это говорит о том, что мозг использует комбинации генеративных моделей и моделей распознавания не только для распознавания и характеристики объектов, но и для мгновенного вывода причинно-следственных структур, присущих сценам. Тенебаум признает, что их модель не доказывает, что мозг работает именно так. «Но она открывает возможность задавать эти вопросы более детально, с механистической точки зрения», — сказал он. «Это должно… мотивировать нас к дальнейшему изучению».
Примечание редактора: Дэниел Яминс и Джеймс ДиКарло получают финансирование на исследования от Simons Collaboration on the Global Brain, которая является частью Simons Foundation, организации, которая также финансирует этот независимый от редакции журнал. Решения Simons Foundation о финансировании не влияют на публикации Quanta. Подробнее см. на этой странице.
Данная статья была перепечатана на Wired.com и на итальянском языке на сайте le Scienze.
Источник: www.quantamagazine.org



























