Исследователи CSAIL обнаружили, что даже «необучаемые» нейронные сети могут эффективно обучаться, если ими руководят встроенные смещения другой сети, используя их собственный метод управления.
Исследователи из Массачусетского технологического института обнаружили, что многие так называемые «неэффективные» сети могут просто начинать работу с неидеальных исходных условий, и что краткосрочное руководство может повысить их эффективность. Изображение: Алекс Шиппс/MIT CSAIL
Даже сети, долгое время считавшиеся «необучаемыми», могут эффективно обучаться с небольшой помощью. Исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) показали, что кратковременное согласование между нейронными сетями, метод, который они называют «наведением», может значительно улучшить производительность архитектур, ранее считавшихся непригодными для современных задач.
Результаты их исследований показывают, что многие так называемые «неэффективные» сети могут просто начинать свою деятельность с не самых идеальных исходных условий, и что краткосрочное руководство может вывести их в такое положение, которое облегчит процесс обучения для всей сети.
Разработанный командой метод управления работает за счет побуждения целевой сети к сопоставлению с внутренними представлениями сети-наставника во время обучения. В отличие от традиционных методов, таких как дистилляция знаний, которые фокусируются на имитации результатов работы обучающей сети, управление передает структурные знания непосредственно из одной сети в другую. Это означает, что целевая сеть учится тому, как сеть-наставник организует информацию внутри каждого слоя, а не просто копирует ее поведение. Примечательно, что даже необученные сети содержат архитектурные особенности, которые могут быть перенесены, в то время как обученные сети-наставники дополнительно передают усвоенные закономерности.
«Эти результаты нас довольно сильно удивили», — говорит Вигнеш Субраманиам, выпускник 2023 года, магистр технических наук 2024 года, аспирант кафедры электротехники и компьютерных наук Массачусетского технологического института (ITES) и исследователь CSAIL, ведущий автор статьи, представляющей эти результаты. «Впечатляет, что мы смогли использовать сходство представлений, чтобы заставить эти традиционно «плохие» сети действительно работать».
Ангел-хранитель
Ключевым вопросом было, должно ли руководство продолжаться на протяжении всего обучения, или его основная функция заключается в обеспечении лучшей инициализации. Чтобы исследовать это, исследователи провели эксперимент с глубокими полносвязанными нейронными сетями (FCN). Перед обучением на реальной задаче сеть несколько шагов тренировалась с другой сетью, используя случайный шум, подобно растяжке перед тренировкой. Результаты были поразительными: сети, которые обычно переобучаются, сразу же оставались стабильными, достигали меньших потерь при обучении и избегали классического снижения производительности, наблюдаемого в так называемых стандартных FCN. Это согласование действовало как полезная разминка для сети, показывая, что даже короткая тренировочная сессия может иметь долгосрочные преимущества без необходимости постоянного руководства.
В исследовании также сравнивали метод руководства с методом дистилляции знаний — популярным подходом, при котором нейронная сеть-ученик пытается имитировать результаты работы учителя. Когда нейронная сеть-учитель не была обучена, дистилляция полностью провалилась, поскольку результаты не содержали осмысленного сигнала. Метод руководства, напротив, все же показал значительные улучшения, поскольку он использует внутренние представления, а не окончательные прогнозы. Этот результат подчеркивает ключевой вывод: необученные сети уже содержат ценные архитектурные предубеждения, которые могут направлять другие сети к эффективному обучению.
Помимо экспериментальных результатов, полученные данные имеют широкие последствия для понимания архитектуры нейронных сетей. Исследователи предполагают, что успех — или неудача — часто зависит не столько от данных, специфичных для конкретной задачи, сколько от положения сети в пространстве параметров. Благодаря использованию направляющей сети, можно отделить вклад архитектурных искажений от вклада усвоенных знаний. Это позволяет ученым определить, какие особенности конструкции сети способствуют эффективному обучению, а какие проблемы возникают просто из-за плохой инициализации.
Метод управления также открывает новые возможности для изучения взаимосвязей между архитектурами. Измеряя, насколько легко одна сеть может управлять другой, исследователи могут исследовать различия между функциональными проектами и пересмотреть теории оптимизации нейронных сетей. Поскольку метод основан на сходстве представлений, он может выявить ранее скрытые структуры в проектировании сети, помогая определить, какие компоненты вносят наибольший вклад в обучение, а какие — нет.
Спасение отчаявшихся
В конечном итоге, работа показывает, что так называемые «необучаемые» сети не обречены на провал. С помощью рекомендаций можно устранить режимы отказов, избежать переобучения и привести ранее неэффективные архитектуры в соответствие с современными стандартами производительности. Команда CSAIL планирует изучить, какие архитектурные элементы в наибольшей степени ответственны за эти улучшения и как эти знания могут повлиять на проектирование будущих сетей. Раскрывая скрытый потенциал даже самых упрямых сетей, рекомендации предоставляют мощный новый инструмент для понимания — и, будем надеяться, формирования — основ машинного обучения.
«Как правило, считается, что разные архитектуры нейронных сетей обладают определенными сильными и слабыми сторонами», — говорит Лейла Исик, доцент кафедры когнитивных наук Университета Джонса Хопкинса, которая не принимала участия в исследовании. «Это захватывающее исследование показывает, что один тип сети может унаследовать преимущества другой архитектуры, не теряя при этом своих первоначальных возможностей. Примечательно, что авторы показывают, что это можно сделать, используя небольшие, необученные «направляющие» сети. В этой статье представлен новый и конкретный способ добавления различных индуктивных смещений в нейронные сети, что имеет решающее значение для разработки более эффективного и ориентированного на человека ИИ».
Субраманиам написал статью совместно с коллегами из CSAIL: научным сотрудником Брайаном Ченгом; аспирантом Дэвидом Мэйо (выпуск 2018 г., магистр инженерных наук, 2019 г.); научным сотрудником Колином Конвеллом; главными исследователями Борисом Кацем, ведущим научным сотрудником CSAIL, и Томасо Поджио, профессором MIT в области нейронаук и когнитивных наук; а также бывшим научным сотрудником CSAIL Андреем Барбу. Их работа частично финансировалась Центром изучения мозга, разума и машин, Национальным научным фондом, Инициативой MIT CSAIL по применению машинного обучения, лабораторией MIT-IBM Watson AI, Агентством перспективных оборонных исследований США (DARPA), Ускорителем искусственного интеллекта Министерства ВВС США и Управлением научных исследований ВВС США.
Результаты их работы недавно были представлены на конференции и семинаре по системам обработки нейронной информации (NeurIPS).
Источник: news.mit.edu























