Image

Почему языковые модели так трудно понять

Исследователи искусственного интеллекта используют методы, вдохновлённые нейронаукой, чтобы изучить работу языковых моделей и понять, насколько они могут быть запутанными. Сохранить статью Прочитать позже

ec4a532a2f39f079a739a793835c5f23

Обычно невозможно построить машину, не понимая, как она работает. Но для исследователей искусственного интеллекта, создающих большие языковые модели, понимание — это, пожалуй, единственное, чего им не удалось достичь. Более того, иногда их работа больше похожа на садоводство, чем на инженерное дело.

«Посадите семя томата в землю, и вырастет куст томата», — сказал Мартин Ваттенберг, исследователь языковой модели из Гарвардского университета. «Вы полили его, пропалывали вокруг, но как же, чёрт возьми, растёт этот куст томата?»

Некоторые учёные изучают языковые модели, наблюдая за их реакцией на различные подсказки — подход, родственный поведенческой психологии. Исследователи в развивающейся области механистической интерпретируемости, вдохновлённые нейронаукой, вместо этого пытаются понять модели, вскрывая их и исследуя их. Их первые работы уже помогли объяснить, как языковые модели представляют концепции и как они выполняют некоторые простые задачи. Они также обнаружили несколько сюрпризов, демонстрирующих, насколько сложно может быть по-настоящему понять ИИ.

Большие языковые модели строятся вокруг математических объектов, в общих чертах основанных на структуре человеческого мозга. Известные как искусственные нейронные сети, они объединяют множество простых математических операций, обрабатывая строки чисел, представляющих слова. Отвечает ли языковая модель на подсказки бессвязно или с поразительной беглостью, зависит от другого набора чисел, называемых параметрами, которые описывают связи внутри её нейронной сети. Большие языковые модели могут иметь миллиарды или даже триллионы параметров, и исследователи понятия не имеют, как заранее выбрать подходящий набор значений. Вместо этого они начинают со случайных значений, затем предоставляют модели массу данных и простую задачу: предсказать следующее слово, используя любой фрагмент текста из этого набора данных.

Модель повторяет эту задачу по предсказанию слов триллионы раз. После каждой попытки отдельный алгоритм корректирует параметры модели, немного повышая вероятность правильного ответа. Этот процесс называется обучением, но это название не совсем верное. Запустив его, исследователи участвуют в разработке модели примерно так же, как садовник наблюдает за ростом томата.

Теоретически исследователи могут заглянуть внутрь полностью обученной языковой модели и считать значения всех её параметров. Они также могут измерить реакцию модели на любую конкретную подсказку, регистрируя выходной сигнал, или «активацию», каждого из её внутренних компонентов. В совокупности это даёт обилие данных, которому позавидовал бы любой нейробиолог — аналогично идеальной карте мозга человека с отдельными электродами для отслеживания активности каждого нейрона. Но все эти цифры не дают объяснения. Удачи вам в их использовании для прогнозирования реакции модели на новые подсказки.

К счастью, исследователи интерпретируемости могут не только считывать значения параметров и активаций, но и изменять их. Редактирование параметров подобно сверхточной операции на мозге — скальпелю, способному изменять отдельные нейроны. Редактирование активаций позволяет исследователям временно изменять реакцию конкретного компонента на любой заданный стимул, чтобы увидеть, как это влияет на выходные данные модели.

Редактирование активации также позволяет исследователям делать что-то вроде копирования и вставки ментальных состояний: они дают модели одну подсказку, регистрируют активацию определённых компонентов, а затем вставляют эти активации в ответ модели на вторую подсказку. Исследователи использовали этот метод, чтобы точно определить, где в языковой модели хранятся определённые факты. Но такие результаты не всегда однозначны. Даже при наличии веских доказательств того, что понятие хранится в одной части модели, иногда можно изменить её знание об этом понятии, внося изменения в другую часть. Это один из многих случаев, когда внутренняя работа нейронных сетей бросает вызов человеческой интуиции.

«Есть так много вещей, которые кажутся определённо правдой, но если присмотреться, то окажется, что это не так», — говорит Асма Гандехариун, исследователь интерпретируемости в Google DeepMind.

Исследователи также добились прогресса в определении процедур, которые языковые модели используют для выполнения таких задач, как извлечение соответствующих слов из более ранних частей предложения, определение грамматической функции определенных слов или выполнение простых арифметических действий. Они заметили, что иногда модели следуют разным процедурам для вариаций одной и той же задачи способами, которые кажутся произвольными. Это как проверять погоду перед тем, как почистить зубы, потому что если идет дождь, вы всегда используете ярко-розовую зубную щетку. В других случаях исследователи обнаружили, что модели содержат множество независимых кластеров компонентов, выполняющих одно и то же действие, что может затруднить усилия по разделению эффектов различных компонентов. Они даже наблюдали явление «внезапного самовосстановления», когда деактивация части модели заставляла другие компоненты менять свое поведение и брать на себя функции отключенной части.

Несмотря на эти трудности, многие исследователи интерпретируемости сохраняют осторожный оптимизм в отношении перспектив этой области. «Прогресс возможен», — сказал Ваттенберг. «Мы значительно опережаем ситуацию пятилетней давности».

Рекламная карточка с надписью «Наука, перспективы и опасности в эпоху искусственного интеллекта. СЛЕДУЮЩИЙ В СЕРИИ»

Источник: www.quantamagazine.org

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.
dummy-img
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
dummy-img
dummy-img
Взаимодействие человека и машины погружается под воду.
Взаимодействие человека и машины погружается под воду.
Дифференциально приватное машинное обучение в масштабе с использованием JAX-Privacy
Image Not Found
Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Вкратце Опубликовано: Изображение предоставлено: Thos Robinson/Getty Images для The New York Times (откроется в новом окне) Джули Борт Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.…

Апр 21, 2026
dummy-img

Как почистить виниловые пластинки (2026): пылесос, ультразвук, чистящий раствор, щетка.

Эти щелчки и треск недопустимы. Приведите свою музыку в порядок с помощью этого удобного руководства. Источник: www.wired.com

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых