Image

Почему языковые модели так трудно понять

Исследователи искусственного интеллекта используют методы, вдохновлённые нейронаукой, чтобы изучить работу языковых моделей и понять, насколько они могут быть запутанными. Сохранить статью Прочитать позже

ec4a532a2f39f079a739a793835c5f23

Обычно невозможно построить машину, не понимая, как она работает. Но для исследователей искусственного интеллекта, создающих большие языковые модели, понимание — это, пожалуй, единственное, чего им не удалось достичь. Более того, иногда их работа больше похожа на садоводство, чем на инженерное дело.

«Посадите семя томата в землю, и вырастет куст томата», — сказал Мартин Ваттенберг, исследователь языковой модели из Гарвардского университета. «Вы полили его, пропалывали вокруг, но как же, чёрт возьми, растёт этот куст томата?»

Некоторые учёные изучают языковые модели, наблюдая за их реакцией на различные подсказки — подход, родственный поведенческой психологии. Исследователи в развивающейся области механистической интерпретируемости, вдохновлённые нейронаукой, вместо этого пытаются понять модели, вскрывая их и исследуя их. Их первые работы уже помогли объяснить, как языковые модели представляют концепции и как они выполняют некоторые простые задачи. Они также обнаружили несколько сюрпризов, демонстрирующих, насколько сложно может быть по-настоящему понять ИИ.

Большие языковые модели строятся вокруг математических объектов, в общих чертах основанных на структуре человеческого мозга. Известные как искусственные нейронные сети, они объединяют множество простых математических операций, обрабатывая строки чисел, представляющих слова. Отвечает ли языковая модель на подсказки бессвязно или с поразительной беглостью, зависит от другого набора чисел, называемых параметрами, которые описывают связи внутри её нейронной сети. Большие языковые модели могут иметь миллиарды или даже триллионы параметров, и исследователи понятия не имеют, как заранее выбрать подходящий набор значений. Вместо этого они начинают со случайных значений, затем предоставляют модели массу данных и простую задачу: предсказать следующее слово, используя любой фрагмент текста из этого набора данных.

Модель повторяет эту задачу по предсказанию слов триллионы раз. После каждой попытки отдельный алгоритм корректирует параметры модели, немного повышая вероятность правильного ответа. Этот процесс называется обучением, но это название не совсем верное. Запустив его, исследователи участвуют в разработке модели примерно так же, как садовник наблюдает за ростом томата.

Теоретически исследователи могут заглянуть внутрь полностью обученной языковой модели и считать значения всех её параметров. Они также могут измерить реакцию модели на любую конкретную подсказку, регистрируя выходной сигнал, или «активацию», каждого из её внутренних компонентов. В совокупности это даёт обилие данных, которому позавидовал бы любой нейробиолог — аналогично идеальной карте мозга человека с отдельными электродами для отслеживания активности каждого нейрона. Но все эти цифры не дают объяснения. Удачи вам в их использовании для прогнозирования реакции модели на новые подсказки.

К счастью, исследователи интерпретируемости могут не только считывать значения параметров и активаций, но и изменять их. Редактирование параметров подобно сверхточной операции на мозге — скальпелю, способному изменять отдельные нейроны. Редактирование активаций позволяет исследователям временно изменять реакцию конкретного компонента на любой заданный стимул, чтобы увидеть, как это влияет на выходные данные модели.

Редактирование активации также позволяет исследователям делать что-то вроде копирования и вставки ментальных состояний: они дают модели одну подсказку, регистрируют активацию определённых компонентов, а затем вставляют эти активации в ответ модели на вторую подсказку. Исследователи использовали этот метод, чтобы точно определить, где в языковой модели хранятся определённые факты. Но такие результаты не всегда однозначны. Даже при наличии веских доказательств того, что понятие хранится в одной части модели, иногда можно изменить её знание об этом понятии, внося изменения в другую часть. Это один из многих случаев, когда внутренняя работа нейронных сетей бросает вызов человеческой интуиции.

«Есть так много вещей, которые кажутся определённо правдой, но если присмотреться, то окажется, что это не так», — говорит Асма Гандехариун, исследователь интерпретируемости в Google DeepMind.

Исследователи также добились прогресса в определении процедур, которые языковые модели используют для выполнения таких задач, как извлечение соответствующих слов из более ранних частей предложения, определение грамматической функции определенных слов или выполнение простых арифметических действий. Они заметили, что иногда модели следуют разным процедурам для вариаций одной и той же задачи способами, которые кажутся произвольными. Это как проверять погоду перед тем, как почистить зубы, потому что если идет дождь, вы всегда используете ярко-розовую зубную щетку. В других случаях исследователи обнаружили, что модели содержат множество независимых кластеров компонентов, выполняющих одно и то же действие, что может затруднить усилия по разделению эффектов различных компонентов. Они даже наблюдали явление «внезапного самовосстановления», когда деактивация части модели заставляла другие компоненты менять свое поведение и брать на себя функции отключенной части.

Несмотря на эти трудности, многие исследователи интерпретируемости сохраняют осторожный оптимизм в отношении перспектив этой области. «Прогресс возможен», — сказал Ваттенберг. «Мы значительно опережаем ситуацию пятилетней давности».

Рекламная карточка с надписью «Наука, перспективы и опасности в эпоху искусственного интеллекта. СЛЕДУЮЩИЙ В СЕРИИ»

Источник: www.quantamagazine.org

✅ Найденные теги: новости, Почему
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых