Крупные языковые модели, такие как ChatGPT, уже достаточно развиты, чтобы демонстрировать поразительное и непредсказуемое поведение. Комментарий Сохранить статью Прочитать позже
Введение
Какой фильм описывают эти эмодзи?

Эта подсказка была одной из 204 заданий, выбранных в прошлом году для проверки возможностей различных больших языковых моделей (LLM) — вычислительных движков, лежащих в основе чат-ботов на основе искусственного интеллекта, таких как ChatGPT. Самые простые LLM давали сюрреалистичные ответы. «Этот фильм — фильм о мужчине, который на самом деле мужчина», — начал один из них. Модели средней сложности подошли ближе, угадав «Эмоджи фильм». Но самая сложная модель справилась с первой попытки: «В поисках Немо».
«Хотя я и ожидал сюрпризов, я удивлён тем, на что способны эти модели», — сказал Итан Дайер, специалист по информатике из Google Research, помогавший организовать тест. Это удивительно, ведь у этих моделей, предположительно, есть одна директива: принимать строку текста в качестве входных данных и предсказывать, что будет дальше, снова и снова, основываясь исключительно на статистике. Специалисты по информатике предполагали, что масштабирование повысит производительность известных задач, но они не ожидали, что модели внезапно начнут справляться со столь большим количеством новых, непредсказуемых задач.
Недавние исследования, подобные тому, над которым работал Дайер, показали, что LLM могут генерировать сотни «неожиданных» способностей — задач, которые большие модели могут выполнять, но не могут меньшие, многие из которых, по-видимому, имеют мало общего с анализом текста. Они варьируются от умножения до генерации исполняемого компьютерного кода и, по-видимому, декодирования фильмов на основе эмодзи. Новые исследования показывают, что для некоторых задач и некоторых моделей существует порог сложности, за которым функциональность модели резко возрастает. (Они также указывают на обратную сторону медали: по мере повышения сложности некоторые модели обнаруживают новые предубеждения и неточности в своих ответах.)
«То, что языковые модели способны на подобные вещи, никогда не обсуждалось ни в одной известной мне литературе», — сказал Риши Боммасани, специалист по информатике из Стэнфордского университета. В прошлом году он помог составить список десятков эмерджентных поведений, включая несколько, выявленных в проекте Дайера. Этот список продолжает расти.
Теперь исследователи стремятся не только выявить дополнительные эмерджентные способности, но и выяснить, почему и как они вообще возникают — по сути, пытаясь предсказать непредсказуемость. Понимание эмерджентности может дать ответы на глубокие вопросы, связанные с искусственным интеллектом и машинным обучением в целом, например, действительно ли сложные модели делают что-то новое или просто становятся действительно хороши в статистике. Это также может помочь исследователям использовать потенциальные преимущества и снизить эмерджентные риски.
«Мы не знаем, как определить, в каком типе приложения возникнет вероятность причинения вреда — плавно или непредсказуемо», — говорит Дип Гангули, специалист по информатике из стартапа Anthropic, занимающегося разработкой ИИ.
Возникновение возникновения
Биологи, физики, экологи и другие учёные используют термин «эмерджентный» для описания самоорганизующегося коллективного поведения, которое возникает, когда большая группа объектов действует как единое целое. Сочетания безжизненных атомов дают начало живым клеткам; молекулы воды создают волны; стрекотание скворцов проносится по небу, создавая изменчивые, но узнаваемые узоры; клетки заставляют мышцы двигаться, а сердца биться. Важно отметить, что эмерджентные способности проявляются в системах, состоящих из множества отдельных частей. Однако исследователям лишь недавно удалось задокументировать эти способности в программах магистратуры права, поскольку эти модели выросли до огромных размеров.
Языковые модели существуют уже несколько десятилетий. Примерно пять лет назад самые мощные из них основывались на так называемых рекуррентных нейронных сетях. Они, по сути, берут строку текста и предсказывают следующее слово. Рекуррентность модели заключается в том, что она обучается на собственных результатах: её предсказания передаются обратно в сеть для улучшения её производительности в будущем.
В 2017 году исследователи из Google Brain представили новый тип архитектуры, называемый трансформером. Рекуррентная сеть анализирует предложение слово за словом, а трансформер обрабатывает все слова одновременно. Это означает, что трансформеры могут обрабатывать большие объёмы текста параллельно.
Трансформеры позволили быстро масштабировать сложность языковых моделей за счёт увеличения количества параметров в модели, а также других факторов. Параметры можно рассматривать как связи между словами, и модели совершенствуются, корректируя эти связи по мере обработки текста в процессе обучения. Чем больше параметров в модели, тем точнее она устанавливает связи и тем ближе она к адекватной имитации человеческого языка. Как и ожидалось, анализ, проведённый исследователями OpenAI в 2020 году, показал, что точность и возможности моделей повышаются по мере масштабирования.
Но дебют LLM принёс и нечто поистине неожиданное. Много чего-то. С появлением таких моделей, как GPT-3, имеющая 175 миллиардов параметров, или PaLM от Google, масштабируемая до 540 миллиардов, пользователи начали описывать всё больше и больше нестандартных моделей поведения. Один инженер DeepMind даже сообщил, что ему удалось убедить ChatGPT в том, что это Linux-терминал, и заставить его запустить простой математический код для вычисления первых 10 простых чисел. Примечательно, что он смог выполнить эту задачу быстрее, чем тот же код, запущенный на реальной Linux-машине.
Как и в случае с задачей с эмодзи из фильма, у исследователей не было оснований полагать, что языковая модель, построенная для предсказания текста, будет убедительно имитировать компьютерный терминал. Многие из этих возникающих моделей поведения иллюстрируют обучение с «нулевым шансом» или «несколькими шансами», которое описывает способность магистра права решать задачи, с которыми он никогда — или редко — не сталкивался ранее. По словам Гангули, это давняя цель исследований в области искусственного интеллекта. Демонстрация того, что GPT-3 может решать задачи без явных обучающих данных в условиях нулевого шанса, по его словам, «побудила меня бросить то, чем я занимался, и заняться чем-то более серьёзным».
Он был не один. Целая группа исследователей, обнаружив первые признаки того, что LLM могут выйти за рамки ограничений своих обучающих данных, стремится лучше понять, как выглядит эмерджентность и как она происходит. Первым шагом было тщательное её документирование.

Итан Дайер помог исследовать, на какие неожиданные способности способны большие языковые модели, и что может их вызывать.
За пределами имитации
В 2020 году Дайер и другие сотрудники Google Research предсказали, что степень магистра права (LLM) будет иметь преобразующий эффект, но каким именно он будет, оставалось открытым вопросом. Поэтому они попросили исследовательское сообщество предоставить примеры сложных и разнообразных задач, чтобы обозначить пределы возможностей LLM. Этот проект получил название «Beyond the Imitation Game Benchmark» (BIG-bench), отсылая к названию «имитационной игры» Алана Тьюринга — теста на способность компьютера отвечать на вопросы убедительно, как человек. (Позже это стало известно как тест Тьюринга.) Группу особенно интересовали примеры, когда LLM внезапно обретали новые способности, которые ранее полностью отсутствовали.
«Как мы понимаем эти резкие переходы — большой исследовательский вопрос», — сказал Дайер.
Как и следовало ожидать, в некоторых задачах производительность модели плавно и предсказуемо росла по мере увеличения сложности. В других задачах увеличение количества параметров не приводило к каким-либо улучшениям. Однако примерно для 5% задач исследователи обнаружили то, что они назвали «прорывами» — резкие, резкие скачки производительности при достижении определённого порогового значения. Этот порог варьировался в зависимости от задачи и модели.
Например, модели с относительно небольшим количеством параметров — всего несколько миллионов — не могли успешно решать задачи на сложение трёхзначных чисел или умножение двузначных, но при десятках миллиардов параметров точность некоторых моделей резко возрастала. Аналогичные скачки наблюдались и в других задачах, включая декодирование международного фонетического алфавита, расшифровку букв в словах, выявление оскорбительного содержания в абзацах на хинглише (смесь хинди и английского) и создание аналогичного английского эквивалента пословиц на суахили.
Но исследователи быстро поняли, что сложность модели — не единственный определяющий фактор. Некоторые неожиданные способности можно было получить из меньших моделей с меньшим количеством параметров — или обучить на меньших наборах данных — если данные были достаточно высокого качества. Кроме того, на точность ответа модели влияла формулировка запроса. Например, когда Дайер и его коллеги ставили задачу с эмодзи из фильма, используя формат множественного выбора, улучшение точности было не резким скачком, а скорее постепенным ростом с увеличением сложности. А в прошлом году, в докладе, представленном на NeurIPS, флагманской конференции в этой области, исследователи из Google Brain показали, как модель, подсказываемая себе объяснить себя (способность, называемая цепочкой рассуждений), может правильно решить математическую текстовую задачу, в то время как та же модель без такой подсказки не могла.
И Тай, учёный из Google Brain, работавший над систематическим исследованием прорывов, указывает на недавнюю работу, предполагающую, что подсказки в виде цепочки мыслей изменяют кривые масштабирования и, следовательно, точку возникновения. В своей статье NeurIPS исследователи из Google показали, что использование подсказок в виде цепочки мыслей может вызывать эмерджентное поведение, не выявленное в исследовании BIG-bench. Такие подсказки, требующие от модели объяснения её рассуждений, могут помочь исследователям начать изучать причины возникновения эмерджентного поведения.
Подобные недавние открытия предполагают как минимум два объяснения причин возникновения эмерджентности, считает Элли Павлик, специалист по информатике из Университета Брауна, изучающая вычислительные модели языка. Одна из них заключается в том, что, как показывает сравнение с биологическими системами, более крупные модели действительно спонтанно приобретают новые способности. «Вполне возможно, что модель научилась чему-то принципиально новому и иному, чего у неё не было в меньшем размере», — сказала она. «Именно на это мы все и надеемся: при увеличении масштаба моделей происходит некий фундаментальный сдвиг».
Другая, менее сенсационная возможность, по её словам, заключается в том, что то, что кажется эмерджентным, может быть кульминацией внутреннего процесса, основанного на статистике и работающего по принципу цепочки рассуждений. Крупные LLM-степени могут просто осваивать эвристики, недоступные тем, у кого меньше параметров или данные низкого качества.
Но, по её словам, определение того, какое из этих объяснений более вероятно, зависит от лучшего понимания того, как вообще работают магистратуры права. «Поскольку мы не знаем, как они работают изнутри, мы не можем сказать, что именно происходит».
Непредсказуемые силы и ловушки
Проблема с требованием к этим моделям объясниться очевидна: они — отъявленные лжецы. «Мы всё больше полагаемся на эти модели для выполнения базовой работы, — сказал Гангули, — но я не просто доверяю им. Я проверяю их работу». В качестве одного из множества забавных примеров можно привести представленный в феврале чат-бот на основе искусственного интеллекта Bard. В сообщении в блоге, анонсирующем новый инструмент, Бард допускает фактическую ошибку.
Эмерджентность приводит к непредсказуемости, а непредсказуемость, которая, по-видимому, увеличивается с масштабированием, затрудняет для исследователей прогнозирование последствий широкомасштабного использования.
«Трудно заранее предсказать, как эти модели будут использоваться или применяться», — сказал Гангули. «А чтобы изучать возникающие явления, нужно иметь в виду конкретный случай, и пока не изучишь влияние масштаба, не узнаешь, какие возможности или ограничения могут возникнуть».
В анализе LLM, опубликованном в июне прошлого года, исследователи из Anthropic проверили, будут ли модели демонстрировать определённые типы расовых или социальных предубеждений, схожие с теми, которые ранее были выявлены в алгоритмах, не основанных на LLM, используемых для прогнозирования вероятности совершения бывшими преступниками новых преступлений. Это исследование было вдохновлено очевидным парадоксом, непосредственно связанным с эмерджентностью: по мере того, как модели улучшают свою эффективность при масштабировании, они также могут увеличивать вероятность непредсказуемых явлений, в том числе тех, которые потенциально могут привести к предвзятости или причинению вреда.
«В некоторых моделях определённые вредоносные модели поведения возникают внезапно», — сказал Гангули. Он ссылается на недавний анализ LLM, известный как BBQ Benchmark, который показал, что социальная предвзятость возникает при огромном количестве параметров. «Более крупные модели резко становятся более предвзятыми». По его словам, неспособность устранить этот риск может поставить под угрозу объекты этих моделей.
Но он предлагает противоположное: когда исследователи просто просили модель не полагаться на стереотипы или социальные предубеждения — буквально вводя эти инструкции, — модель становилась менее предвзятой в своих прогнозах и ответах. Это предполагает, что некоторые эмерджентные свойства также могут быть использованы для снижения предвзятости. В статье, опубликованной в феврале, команда Anthropic сообщила о новом режиме «моральной самокоррекции», в котором пользователь побуждает программу быть полезной, честной и безвредной.
По словам Гангули, эмерджентность открывает как удивительный потенциал, так и непредсказуемый риск. Области применения этих крупных магистерских программ уже ширятся, поэтому более глубокое понимание этого взаимодействия поможет использовать разнообразие возможностей языковых моделей.
«Мы изучаем, как люди на самом деле используют эти системы», — сказал Гангули. Но эти пользователи также постоянно что-то меняют. «Мы проводим много времени, просто общаясь с нашими моделями, — сказал он, — и именно так у вас начинает складываться хорошее интуитивное представление о доверии — или его отсутствии».
Источник: www.quantamagazine.org



























