Наоми Сафра считает, что большинство исследований языковых моделей слишком сосредоточены на конечном продукте. Она изучает историю их обучения, чтобы понять, почему эти системы работают именно так. Комментарий Сохранить статью Прочитать позже

«Если вы не понимаете истоков модели, — говорит Наоми Сафра, научный сотрудник Института Кемпнера Гарвардского университета, — то вы не понимаете, почему что-либо работает».
Введение
В наши дни крупные языковые модели, такие как ChatGPT, повсеместно распространены. Однако их внутренние механизмы остаются глубоко загадочными. Наоми Сафру такое положение дел не удовлетворяет. «Мы не знаем, как работает языковая модель», — сказала она. «Если эти модели есть у нас повсюду, мы должны понимать, что они делают».
Сафра, научный сотрудник Института Кемпнера Гарвардского университета, которая в 2026 году начнёт преподавательскую работу в Бостонском университете, уже более десяти лет работает в развивающейся области интерпретируемости, где исследователи изучают языковые модели, чтобы раскрыть механизмы их работы. Хотя многие её коллеги, занимающиеся интерпретируемостью, черпают вдохновение в нейронауке, Сафра предпочитает другую аналогию. По её мнению, интерпретируемость должна опираться на эволюционную биологию.
«Есть очень известная цитата [генетика Феодосия] Добжанского: „В биологии ничто не имеет смысла, кроме как в свете эволюции“», — сказала она. «В ИИ ничто не имеет смысла, кроме как в свете стохастического градиентного спуска», классического алгоритма, играющего центральную роль в процессе обучения, посредством которого большие языковые модели учатся генерировать связный текст.
Языковые модели основаны на нейронных сетях — математических структурах, обрабатывающих данные с помощью связей между искусственными «нейронами». Сила каждой связи поначалу случайна, но в процессе обучения она корректируется, поскольку модель многократно пытается предсказать следующее слово в предложениях из обширного набора текстовых данных. Каким-то образом, благодаря триллионам крошечных изменений, модель развивает внутренние структуры, позволяющие ей «обобщать», то есть быстро реагировать на незнакомые входные данные.
Большинство исследований интерпретируемости сосредоточено на понимании этих структур в языковых моделях после процесса обучения. Сафра — видный сторонник альтернативного подхода, фокусирующегося на самом процессе обучения. Она утверждает, что подобно тому, как биологи должны понимать эволюционную историю организма, чтобы полностью его понять, исследователи интерпретируемости должны уделять больше внимания тому, что происходит во время обучения. «Если вы не понимаете происхождения модели, вы не понимаете, почему что-либо работает», — сказала она.

Кажущиеся важными структуры в языковых моделях могут на самом деле оказаться рудиментарными, которые больше не используются. «Процесс обучения гораздо сложнее, чем нам хотелось бы», — сказала Сафра.
Quanta поговорила с Сафрой о том, почему сложно понимать языковые модели, как эволюционный подход может помочь, и о трудностях, которые повлияли на её собственную эволюцию как исследователя. Интервью сокращено и отредактировано для ясности.
Как вы заинтересовались процессом обучения?
Будучи студентом, я начал обучать нейронные сети на текстах в социальных сетях для исследовательского проекта. Я столкнулся с проблемами, поскольку текст был крайне неформальным и имел множество вариаций. В этой ситуации естественным подходом было бы начать обучение на чём-то более структурированном, например, на Wall Street Journal, а затем перейти к неформальному тексту, как только модель освоит эту структуру. Но оказалось, что простая задача на ранних этапах обучения может стать проблемой при масштабировании.
Потому что модель зацикливается только на изучении простых решений?
Именно. Модель уже хочет изучить что-то простое. Ваша задача — не дать ей сразу же это изучить, чтобы она не начала запоминать исключения. Это может затруднить обобщение на новые входные данные в будущем.

Сафра беседует с коллегой из Института Кемпнера Гарвардского университета.
То есть этот опыт помог вам осознать, что то, что происходит на раннем этапе, может иметь огромное значение?
Иногда это очень важно; иногда ожидаешь, что это будет иметь большое значение, но на самом деле это не так. Это заставило меня осознать, что процесс обучения гораздо сложнее, чем нам хотелось бы. Я начал вникать в это и с тех пор иду по этому пути.
Что затрудняет эту работу?
Одно из самых больших препятствий — сложность доступа к внутренним компонентам проприетарных моделей. Даже компании, предоставляющие доступ к внутренним компонентам, редко предоставляют доступ к промежуточным контрольным точкам процесса обучения. А в случае с большими моделями ещё реже предоставляется возможность просмотреть более одного тренировочного прогона.
Почему это важно?
Начальные условия действительно важны. На ранних этапах обучения могут произойти незначительные изменения, которые могут сильно повлиять на модель, и она не сможет восстановиться. Многие исследования исходят из того, что случайных колебаний между тренировочными циклами не существует. Это проблема, поскольку эти колебания влияют на обобщение моделей, а также потому, что случайные колебания — действительно полезный инструмент.

Сафра использовала случайные вариации в процессе обучения как инструмент для изучения связи между структурой и поведением в языковых моделях.
Как же так?
В одной из недавних работ мы использовали случайные вариации между различными тренировочными прогонами для поиска корреляций между внутренней структурой моделей и их обобщенным поведением. Если структура и поведение коррелируют в серии случайных инициализаций при учёте всех остальных факторов, то, вероятно, они действительно связаны. Вы можете сделать гораздо более обоснованное заключение о работе моделей, чем просто взглянув на одну модель в конце обучения.
Говоря о влиянии начальных условий, стоит отметить, что в начале своей карьеры вы столкнулись с некоторыми необычными трудностями. Как это повлияло на ваши исследования?
Когда я начал работать над докторской диссертацией, у меня развилось неврологическое заболевание, из-за которого я утратил способность печатать или писать от руки. Это, конечно, серьёзное ограничение для аспиранта в области компьютерных наук. Мне пришлось научиться диктовать код, и я полагался на такие удобства, как наличие личного кабинета, где я мог бы диктовать.
Это изменило множество мелочей в моих исследованиях. Во время работы над докторской диссертацией я понимал, что никогда не смогу обогнать человека, способного печатать в гонке за трофеи. Поэтому я в итоге сосредоточился на этой странной теме, которая в то время никого не интересовала: динамике обучения нейронных языковых моделей. И всё же это решение привело меня к поистине фантастической области исследований.
Работа в более медленном темпе имеет свои преимущества. Вы не поддаётесь ажиотажу. Можно взять выходные и всё равно опубликовать что-то оригинальное.
В наши дни многие интересуются интерпретируемостью. Чем ваш подход отличается от их подхода?
Большая часть работы заключается в попытках понять, как работает модель, в то время как я пытаюсь понять, почему она работает именно так. Чтобы ответить на вопрос «как», люди обычно просто заглядывают внутрь модели в конце обучения. Вы пытаетесь найти эффективный способ описания того, что происходит внутри модели, а затем накладываете свои объяснения поверх этого. Вы можете обнаружить, что нейрон номер 3 000 004 активируется, когда модель готова выдать ответ на французский язык. Вы даже можете сказать, что если уровень активации нейрона немного выше, это приводит к увеличению ответов на французский язык. Но это не объясняет, почему модель работает именно так. И это действительно важный вопрос, если мы хотим предсказать, как модель будет себя вести в будущем.
Каким образом стандартный подход может ввести вас в заблуждение?
Одним из примеров является селективность нейронов в нейронных сетях для классификации изображений. Это явление, при котором отдельные нейроны очень сильно активируются только для изображений определённого класса, например, для изображений кошек. Взглянув на это, можно сказать: «Что ж, очевидно, именно это и нужно модели для хороших прогнозов». Но оказывается, что если вмешаться в процесс обучения и не дать модели развить эти высокоселективные нейроны, её эффективность на самом деле улучшается.
Итак, вы можете подумать, что этим моделям нужно делать что-то конкретное, раз уж они именно это и делают. Но это может быть рудиментарным свойством, которое развилось на ранних этапах обучения, но на самом деле не имеет значения для того, как модель будет работать в конечном итоге. Возможно, это даже сдерживает её развитие. Нужно мыслить как эволюционный биолог и задаться вопросом: «Действительно ли это связано причинно-следственно?»

Будучи аспиранткой, Сафра столкнулась с проблемой, из-за которой она не могла печатать, поэтому она решила работать над узкоспециализированной темой, где ей не нужно было бы спешить с публикацией статей. «Это решение открыло мне поистине фантастическую область исследований», — сказала она.
Итак, давайте поговорим о причинно-следственной связи. Многие работы по интерпретируемости исследуют модели только после обучения, а не только на основе отдельных наблюдений. Они изучают влияние редактирования активации нейронов для установления причинно-следственных связей. Почему этого недостаточно?
Если вы просто проведёте причинно-следственный анализ в конце обучения, то, возможно, обнаружите, что какой-то конкретный нейрон действительно важен, и его отключение снижает эффективность модели при выполнении какой-то задачи. Вы можете сказать: «Хорошо, модель начинает плохо учить французский, когда я нажимаю эту кнопку». Но, возможно, у этого нейрона просто есть другие сильные взаимодействия с остальной частью модели. Вмешательство в его работу, вероятно, окажет какое-то влияние, но не обязательно такое, какое вы себе представляете.
Одно из преимуществ наблюдения за процессом обучения заключается в возможности более точного анализа: если структура модели отвечает за определённую функцию модели, можно ожидать, что эта структура и эта функция будут возникать одновременно. Мы наблюдали нечто подобное в определённом типе языковой модели, называемой маскированной языковой моделью. Сначала сформировалась определённая внутренняя структура, и сразу после этого модель начала очень быстро совершенствоваться в определённых сложных грамматических концепциях.
В конечном счете, независимо от того, рассматриваете ли вы динамику обучения или любой другой способ описания поведения модели, вопрос номер один звучит так: «Можете ли вы точно указать, что означают используемые вами слова?» Исследования интерпретируемости должны быть интерпретируемыми.
Источник: www.quantamagazine.org





















