Image

Чтобы понять ИИ, посмотрите, как он развивается

Наоми Сафра считает, что большинство исследований языковых моделей слишком сосредоточены на конечном продукте. Она изучает историю их обучения, чтобы понять, почему эти системы работают именно так. Комментарий Сохранить статью Прочитать позже

e5387102b084f435b7d68c627fe81fd6

«Если вы не понимаете истоков модели, — говорит Наоми Сафра, научный сотрудник Института Кемпнера Гарвардского университета, — то вы не понимаете, почему что-либо работает».

Введение

В наши дни крупные языковые модели, такие как ChatGPT, повсеместно распространены. Однако их внутренние механизмы остаются глубоко загадочными. Наоми Сафру такое положение дел не удовлетворяет. «Мы не знаем, как работает языковая модель», — сказала она. «Если эти модели есть у нас повсюду, мы должны понимать, что они делают».

Сафра, научный сотрудник Института Кемпнера Гарвардского университета, которая в 2026 году начнёт преподавательскую работу в Бостонском университете, уже более десяти лет работает в развивающейся области интерпретируемости, где исследователи изучают языковые модели, чтобы раскрыть механизмы их работы. Хотя многие её коллеги, занимающиеся интерпретируемостью, черпают вдохновение в нейронауке, Сафра предпочитает другую аналогию. По её мнению, интерпретируемость должна опираться на эволюционную биологию.

«Есть очень известная цитата [генетика Феодосия] Добжанского: „В биологии ничто не имеет смысла, кроме как в свете эволюции“», — сказала она. «В ИИ ничто не имеет смысла, кроме как в свете стохастического градиентного спуска», классического алгоритма, играющего центральную роль в процессе обучения, посредством которого большие языковые модели учатся генерировать связный текст.

Языковые модели основаны на нейронных сетях — математических структурах, обрабатывающих данные с помощью связей между искусственными «нейронами». Сила каждой связи поначалу случайна, но в процессе обучения она корректируется, поскольку модель многократно пытается предсказать следующее слово в предложениях из обширного набора текстовых данных. Каким-то образом, благодаря триллионам крошечных изменений, модель развивает внутренние структуры, позволяющие ей «обобщать», то есть быстро реагировать на незнакомые входные данные.

Большинство исследований интерпретируемости сосредоточено на понимании этих структур в языковых моделях после процесса обучения. Сафра — видный сторонник альтернативного подхода, фокусирующегося на самом процессе обучения. Она утверждает, что подобно тому, как биологи должны понимать эволюционную историю организма, чтобы полностью его понять, исследователи интерпретируемости должны уделять больше внимания тому, что происходит во время обучения. «Если вы не понимаете происхождения модели, вы не понимаете, почему что-либо работает», — сказала она.

aae7fbf01087e3c867aad8f7e5952477

Кажущиеся важными структуры в языковых моделях могут на самом деле оказаться рудиментарными, которые больше не используются. «Процесс обучения гораздо сложнее, чем нам хотелось бы», — сказала Сафра.

Quanta поговорила с Сафрой о том, почему сложно понимать языковые модели, как эволюционный подход может помочь, и о трудностях, которые повлияли на её собственную эволюцию как исследователя. Интервью сокращено и отредактировано для ясности.

Как вы заинтересовались процессом обучения?

Будучи студентом, я начал обучать нейронные сети на текстах в социальных сетях для исследовательского проекта. Я столкнулся с проблемами, поскольку текст был крайне неформальным и имел множество вариаций. В этой ситуации естественным подходом было бы начать обучение на чём-то более структурированном, например, на Wall Street Journal, а затем перейти к неформальному тексту, как только модель освоит эту структуру. Но оказалось, что простая задача на ранних этапах обучения может стать проблемой при масштабировании.

Потому что модель зацикливается только на изучении простых решений?

Именно. Модель уже хочет изучить что-то простое. Ваша задача — не дать ей сразу же это изучить, чтобы она не начала запоминать исключения. Это может затруднить обобщение на новые входные данные в будущем.

b216df7b9de514734cd80d3249c11226

Сафра беседует с коллегой из Института Кемпнера Гарвардского университета.

То есть этот опыт помог вам осознать, что то, что происходит на раннем этапе, может иметь огромное значение?

Иногда это очень важно; иногда ожидаешь, что это будет иметь большое значение, но на самом деле это не так. Это заставило меня осознать, что процесс обучения гораздо сложнее, чем нам хотелось бы. Я начал вникать в это и с тех пор иду по этому пути.

Что затрудняет эту работу?

Одно из самых больших препятствий — сложность доступа к внутренним компонентам проприетарных моделей. Даже компании, предоставляющие доступ к внутренним компонентам, редко предоставляют доступ к промежуточным контрольным точкам процесса обучения. А в случае с большими моделями ещё реже предоставляется возможность просмотреть более одного тренировочного прогона.

Почему это важно?

Начальные условия действительно важны. На ранних этапах обучения могут произойти незначительные изменения, которые могут сильно повлиять на модель, и она не сможет восстановиться. Многие исследования исходят из того, что случайных колебаний между тренировочными циклами не существует. Это проблема, поскольку эти колебания влияют на обобщение моделей, а также потому, что случайные колебания — действительно полезный инструмент.

c2c30b3fa53496b2b86dfc0d9fc7965d

Сафра использовала случайные вариации в процессе обучения как инструмент для изучения связи между структурой и поведением в языковых моделях.

Как же так?

В одной из недавних работ мы использовали случайные вариации между различными тренировочными прогонами для поиска корреляций между внутренней структурой моделей и их обобщенным поведением. Если структура и поведение коррелируют в серии случайных инициализаций при учёте всех остальных факторов, то, вероятно, они действительно связаны. Вы можете сделать гораздо более обоснованное заключение о работе моделей, чем просто взглянув на одну модель в конце обучения.

Говоря о влиянии начальных условий, стоит отметить, что в начале своей карьеры вы столкнулись с некоторыми необычными трудностями. Как это повлияло на ваши исследования?

Когда я начал работать над докторской диссертацией, у меня развилось неврологическое заболевание, из-за которого я утратил способность печатать или писать от руки. Это, конечно, серьёзное ограничение для аспиранта в области компьютерных наук. Мне пришлось научиться диктовать код, и я полагался на такие удобства, как наличие личного кабинета, где я мог бы диктовать.

Это изменило множество мелочей в моих исследованиях. Во время работы над докторской диссертацией я понимал, что никогда не смогу обогнать человека, способного печатать в гонке за трофеи. Поэтому я в итоге сосредоточился на этой странной теме, которая в то время никого не интересовала: динамике обучения нейронных языковых моделей. И всё же это решение привело меня к поистине фантастической области исследований.

Работа в более медленном темпе имеет свои преимущества. Вы не поддаётесь ажиотажу. Можно взять выходные и всё равно опубликовать что-то оригинальное.

В наши дни многие интересуются интерпретируемостью. Чем ваш подход отличается от их подхода?

Большая часть работы заключается в попытках понять, как работает модель, в то время как я пытаюсь понять, почему она работает именно так. Чтобы ответить на вопрос «как», люди обычно просто заглядывают внутрь модели в конце обучения. Вы пытаетесь найти эффективный способ описания того, что происходит внутри модели, а затем накладываете свои объяснения поверх этого. Вы можете обнаружить, что нейрон номер 3 000 004 активируется, когда модель готова выдать ответ на французский язык. Вы даже можете сказать, что если уровень активации нейрона немного выше, это приводит к увеличению ответов на французский язык. Но это не объясняет, почему модель работает именно так. И это действительно важный вопрос, если мы хотим предсказать, как модель будет себя вести в будущем.

Каким образом стандартный подход может ввести вас в заблуждение?

Одним из примеров является селективность нейронов в нейронных сетях для классификации изображений. Это явление, при котором отдельные нейроны очень сильно активируются только для изображений определённого класса, например, для изображений кошек. Взглянув на это, можно сказать: «Что ж, очевидно, именно это и нужно модели для хороших прогнозов». Но оказывается, что если вмешаться в процесс обучения и не дать модели развить эти высокоселективные нейроны, её эффективность на самом деле улучшается.

Итак, вы можете подумать, что этим моделям нужно делать что-то конкретное, раз уж они именно это и делают. Но это может быть рудиментарным свойством, которое развилось на ранних этапах обучения, но на самом деле не имеет значения для того, как модель будет работать в конечном итоге. Возможно, это даже сдерживает её развитие. Нужно мыслить как эволюционный биолог и задаться вопросом: «Действительно ли это связано причинно-следственно?»

030b3cfb2e9a46a3a77681ac78b7a4ce

Будучи аспиранткой, Сафра столкнулась с проблемой, из-за которой она не могла печатать, поэтому она решила работать над узкоспециализированной темой, где ей не нужно было бы спешить с публикацией статей. «Это решение открыло мне поистине фантастическую область исследований», — сказала она.

Итак, давайте поговорим о причинно-следственной связи. Многие работы по интерпретируемости исследуют модели только после обучения, а не только на основе отдельных наблюдений. Они изучают влияние редактирования активации нейронов для установления причинно-следственных связей. Почему этого недостаточно?

Если вы просто проведёте причинно-следственный анализ в конце обучения, то, возможно, обнаружите, что какой-то конкретный нейрон действительно важен, и его отключение снижает эффективность модели при выполнении какой-то задачи. Вы можете сказать: «Хорошо, модель начинает плохо учить французский, когда я нажимаю эту кнопку». Но, возможно, у этого нейрона просто есть другие сильные взаимодействия с остальной частью модели. Вмешательство в его работу, вероятно, окажет какое-то влияние, но не обязательно такое, какое вы себе представляете.

Одно из преимуществ наблюдения за процессом обучения заключается в возможности более точного анализа: если структура модели отвечает за определённую функцию модели, можно ожидать, что эта структура и эта функция будут возникать одновременно. Мы наблюдали нечто подобное в определённом типе языковой модели, называемой маскированной языковой моделью. Сначала сформировалась определённая внутренняя структура, и сразу после этого модель начала очень быстро совершенствоваться в определённых сложных грамматических концепциях.

В конечном счете, независимо от того, рассматриваете ли вы динамику обучения или любой другой способ описания поведения модели, вопрос номер один звучит так: «Можете ли вы точно указать, что означают используемые вами слова?» Исследования интерпретируемости должны быть интерпретируемыми.

Источник: www.quantamagazine.org

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.
dummy-img
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
dummy-img
dummy-img
Взаимодействие человека и машины погружается под воду.
Взаимодействие человека и машины погружается под воду.
Дифференциально приватное машинное обучение в масштабе с использованием JAX-Privacy
Image Not Found
Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Вкратце Опубликовано: Изображение предоставлено: Thos Robinson/Getty Images для The New York Times (откроется в новом окне) Джули Борт Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.…

Апр 21, 2026
dummy-img

Как почистить виниловые пластинки (2026): пылесос, ультразвук, чистящий раствор, щетка.

Эти щелчки и треск недопустимы. Приведите свою музыку в порядок с помощью этого удобного руководства. Источник: www.wired.com

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых