Исследователи искусственного интеллекта используют методы, вдохновлённые нейронаукой, чтобы изучить работу языковых моделей и понять, насколько они могут быть запутанными. Сохранить статью Прочитать позже

Обычно невозможно построить машину, не понимая, как она работает. Но для исследователей искусственного интеллекта, создающих большие языковые модели, понимание — это, пожалуй, единственное, чего им не удалось достичь. Более того, иногда их работа больше похожа на садоводство, чем на инженерное дело.
«Посадите семя томата в землю, и вырастет куст томата», — сказал Мартин Ваттенберг, исследователь языковой модели из Гарвардского университета. «Вы полили его, пропалывали вокруг, но как же, чёрт возьми, растёт этот куст томата?»
Некоторые учёные изучают языковые модели, наблюдая за их реакцией на различные подсказки — подход, родственный поведенческой психологии. Исследователи в развивающейся области механистической интерпретируемости, вдохновлённые нейронаукой, вместо этого пытаются понять модели, вскрывая их и исследуя их. Их первые работы уже помогли объяснить, как языковые модели представляют концепции и как они выполняют некоторые простые задачи. Они также обнаружили несколько сюрпризов, демонстрирующих, насколько сложно может быть по-настоящему понять ИИ.
Большие языковые модели строятся вокруг математических объектов, в общих чертах основанных на структуре человеческого мозга. Известные как искусственные нейронные сети, они объединяют множество простых математических операций, обрабатывая строки чисел, представляющих слова. Отвечает ли языковая модель на подсказки бессвязно или с поразительной беглостью, зависит от другого набора чисел, называемых параметрами, которые описывают связи внутри её нейронной сети. Большие языковые модели могут иметь миллиарды или даже триллионы параметров, и исследователи понятия не имеют, как заранее выбрать подходящий набор значений. Вместо этого они начинают со случайных значений, затем предоставляют модели массу данных и простую задачу: предсказать следующее слово, используя любой фрагмент текста из этого набора данных.
Модель повторяет эту задачу по предсказанию слов триллионы раз. После каждой попытки отдельный алгоритм корректирует параметры модели, немного повышая вероятность правильного ответа. Этот процесс называется обучением, но это название не совсем верное. Запустив его, исследователи участвуют в разработке модели примерно так же, как садовник наблюдает за ростом томата.
Теоретически исследователи могут заглянуть внутрь полностью обученной языковой модели и считать значения всех её параметров. Они также могут измерить реакцию модели на любую конкретную подсказку, регистрируя выходной сигнал, или «активацию», каждого из её внутренних компонентов. В совокупности это даёт обилие данных, которому позавидовал бы любой нейробиолог — аналогично идеальной карте мозга человека с отдельными электродами для отслеживания активности каждого нейрона. Но все эти цифры не дают объяснения. Удачи вам в их использовании для прогнозирования реакции модели на новые подсказки.
К счастью, исследователи интерпретируемости могут не только считывать значения параметров и активаций, но и изменять их. Редактирование параметров подобно сверхточной операции на мозге — скальпелю, способному изменять отдельные нейроны. Редактирование активаций позволяет исследователям временно изменять реакцию конкретного компонента на любой заданный стимул, чтобы увидеть, как это влияет на выходные данные модели.
Редактирование активации также позволяет исследователям делать что-то вроде копирования и вставки ментальных состояний: они дают модели одну подсказку, регистрируют активацию определённых компонентов, а затем вставляют эти активации в ответ модели на вторую подсказку. Исследователи использовали этот метод, чтобы точно определить, где в языковой модели хранятся определённые факты. Но такие результаты не всегда однозначны. Даже при наличии веских доказательств того, что понятие хранится в одной части модели, иногда можно изменить её знание об этом понятии, внося изменения в другую часть. Это один из многих случаев, когда внутренняя работа нейронных сетей бросает вызов человеческой интуиции.
«Есть так много вещей, которые кажутся определённо правдой, но если присмотреться, то окажется, что это не так», — говорит Асма Гандехариун, исследователь интерпретируемости в Google DeepMind.
Исследователи также добились прогресса в определении процедур, которые языковые модели используют для выполнения таких задач, как извлечение соответствующих слов из более ранних частей предложения, определение грамматической функции определенных слов или выполнение простых арифметических действий. Они заметили, что иногда модели следуют разным процедурам для вариаций одной и той же задачи способами, которые кажутся произвольными. Это как проверять погоду перед тем, как почистить зубы, потому что если идет дождь, вы всегда используете ярко-розовую зубную щетку. В других случаях исследователи обнаружили, что модели содержат множество независимых кластеров компонентов, выполняющих одно и то же действие, что может затруднить усилия по разделению эффектов различных компонентов. Они даже наблюдали явление «внезапного самовосстановления», когда деактивация части модели заставляла другие компоненты менять свое поведение и брать на себя функции отключенной части.
Несмотря на эти трудности, многие исследователи интерпретируемости сохраняют осторожный оптимизм в отношении перспектив этой области. «Прогресс возможен», — сказал Ваттенберг. «Мы значительно опережаем ситуацию пятилетней давности».

Источник: www.quantamagazine.org



























