Определенные грамматические правила никогда не встречаются ни в одном известном языке. Создавая искусственные языки, которые имеют эти правила, лингвисты могут использовать нейронные сети для изучения того, как люди учатся. Комментарий Сохранить статью Прочитать позже

Введение
Изучение языка не может быть таким уж сложным — каждый ребенок в мире справляется с этим за несколько лет. Выяснить, как работает этот процесс, — это уже другая история. Лингвисты разработали сложные теории, чтобы объяснить это, но недавние достижения в области машинного обучения добавили новую загвоздку. Когда ученые-компьютерщики начали создавать языковые модели, на которых работают современные чат-боты, такие как ChatGPT, они отложили десятилетия исследований в области лингвистики, и их ставка, казалось, окупилась. Но действительно ли их творения обучаются?
«Даже если они делают что-то похожее на то, что делает человек, они могут делать это по совершенно другим причинам», — говорит Тал Линзен, специалист по вычислительной лингвистике из Нью-Йоркского университета.
Речь идет не только о придирках к определениям. Если языковые модели действительно изучают язык, исследователям могут понадобиться новые теории, чтобы объяснить, как они это делают. Но если модели делают что-то более поверхностное, то, возможно, машинное обучение не может предложить лингвистике никаких идей.
Ноам Хомский, титан в области лингвистики, публично отстаивал последнюю точку зрения. В уничтожающей статье New York Times 2023 года он и два соавтора изложили множество аргументов против языковых моделей, включая тот, который на первый взгляд кажется противоречивым: языковые модели не имеют отношения к лингвистике, потому что они слишком хорошо обучаются. В частности, авторы утверждали, что модели могут осваивать «невозможные» языки — те, которые управляются правилами, отличными от правил любого известного человеческого языка — так же легко, как и возможные.
Недавно пять специалистов по вычислительной лингвистике проверили утверждение Хомского. Они модифицировали базу данных английских текстов, чтобы сгенерировать дюжину невозможных языков, и обнаружили, что языковые модели испытывают больше трудностей при изучении этих языков, чем обычный английский. Их статья под названием «Миссия: невыполнимая языковая модель» была удостоена награды за лучшую статью на конференции Ассоциации вычислительной лингвистики 2024 года.
«Это замечательная работа», — сказала Адель Голдберг, лингвист из Принстонского университета. «Она абсолютно своевременна и важна». Результаты показывают, что языковые модели могут быть полезными инструментами для исследователей, стремящихся понять лепет младенцев.
Языковые барьеры
В первой половине 20 века большинство лингвистов были озабочены каталогизацией языков мира. Затем, в конце 1950-х годов, Хомский возглавил альтернативный подход. Он опирался на идеи теоретической информатики и математической логики в амбициозной попытке раскрыть универсальную структуру, лежащую в основе всех языков.
Хомский утверждал, что у людей должен быть врожденный ментальный механизм, специально предназначенный для обработки языка. Это объяснило бы многие большие загадки в лингвистике, включая наблюдение, что некоторые простые грамматические правила никогда не появляются ни в одном известном языке.
Если бы изучение языка работало так же, как и другие виды обучения, рассуждал Хомский, оно не отдавало бы предпочтение одним грамматическим правилам перед другими. Но если язык действительно особенный, то это именно то, чего можно было бы ожидать: любая специализированная система обработки языка обязательно предрасполагала бы людей к определенным языкам, делая другие невозможными.
«Не имеет смысла говорить, что люди запрограммированы на изучение определенных вещей, не говоря о том, что они также запрограммированы не изучать другие вещи», — сказал Тим Хантер, лингвист из Калифорнийского университета в Лос-Анджелесе.
Подход Хомского быстро стал доминирующим направлением теоретических лингвистических исследований. Он оставался таковым в течение полувека. Затем наступила революция машинного обучения.
Восстание машин
Языковые модели основаны на математических структурах, называемых нейронными сетями, которые обрабатывают данные в соответствии со связями между входящими в их состав нейронами. Сила каждой связи количественно определяется числом, называемым ее весом. Чтобы построить языковую модель, исследователи сначала выбирают определенный тип нейронной сети, затем случайным образом назначают веса связям. В результате языковая модель сначала изрыгает бессмыслицу. Затем исследователи обучают модель предсказывать, по одному слову за раз, как будут продолжаться предложения. Они делают это, скармливая модели большие объемы текста. Каждый раз, когда модель видит блок текста, она выдает прогноз для следующего слова, затем сравнивает этот вывод с фактическим текстом и подстраивает связи между нейронами, чтобы улучшить свои прогнозы. После достаточного количества крошечных подстроек она учится генерировать пугающе плавные предложения.
Языковые модели и люди отличаются очевидным образом. Возьмем лишь один пример: современные модели должны быть обучены на триллионах слов, гораздо больше, чем любой человек видит за всю свою жизнь. Тем не менее, языковые модели могут предоставить новый тестовый случай для изучения языка — тот, который обходит этические ограничения экспериментов с человеческими младенцами.
«Не существует модели языка на основе животных», — сказала Изабель Пападимитриу, компьютерный лингвист из Гарвардского университета и соавтор новой статьи. «Модели языка — это первое, с чем мы можем экспериментировать любым интервенционным способом».
Тот факт, что языковые модели вообще работают, является доказательством того, что нечто похожее на изучение языка может происходить без какой-либо специализированной машины, предложенной Хомским. Системы, основанные на нейронных сетях, были чрезвычайно успешны во многих задачах, которые совершенно не связаны с обработкой языка, а их процедура обучения игнорирует все, что лингвисты узнали о сложной структуре предложений.
«Вы просто говорите: «Я видел эти слова. Что будет дальше?» — это очень линейный способ мышления о языке», — говорит Джефф Митчелл, компьютерный лингвист из Университета Сассекса.

В 2020 году Джефф Митчелл изучил, насколько хорошо один вид нейронной сети может изучать невозможные языки.
В 2020 году Митчелл и Джеффри Бауэрс, психолог из Бристольского университета, решили изучить, как необычный способ обучения языковых моделей повлияет на их способность осваивать невозможные языки. Изобретение нового языка с нуля привело бы к появлению слишком большого количества неконтролируемых переменных: если модель лучше или хуже обучалась искусственному языку, было бы трудно определить, почему. Вместо этого Митчелл и Бауэрс разработали контрольную точку для своего эксперимента, манипулируя набором данных английского текста разными способами, чтобы создать три уникальных искусственных языка, управляемых странными правилами. Например, чтобы построить один язык, они разделили каждое английское предложение на две части в случайной позиции и поменяли порядок слов во второй части.
Митчелл и Боуэрс начали с четырех идентичных копий необученной языковой модели. Затем они обучили каждую из них на разных наборах данных — трех невозможных языках и немодифицированном английском. Наконец, они дали каждой модели грамматический тест, включающий новые предложения из языка, на котором она была обучена.
Модели, обученные на невозможных языках, не смутились извилистой грамматикой. Они были почти такими же точными, как и обученные на английском.
Языковые модели, казалось, могли сделать невозможное. Хомский и его соавторы привели эти результаты в своей статье 2023 года, утверждая, что языковые модели изначально неспособны различать возможные языки и даже самые карикатурно невозможные. Вот и все. Дело закрыто, верно?
Сюжет закручивается
Джули Каллини не была так уверена. Это был август 2023 года, и она только что поступила в аспирантуру по информатике в Стэнфордском университете. Критика Хомским языковых моделей часто всплывала в неформальных обсуждениях среди ее однокурсников. Но когда Каллини заглянула в литературу, она поняла, что не было никаких эмпирических работ по невозможным языкам со времени статьи Митчелла и Боуэрса тремя годами ранее. Она нашла статью увлекательной, но считала, что широкомасштабное утверждение Хомского требует дополнительных доказательств. Предполагалось, что оно применимо ко всем языковым моделям, но Митчелл и Боуэрс протестировали только старый тип нейронной сети, который сегодня менее популярен. Для Каллини миссия была очевидна: проверить утверждение Хомского с помощью современных моделей.
Каллини встретилась со своим научным руководителем Кристофером Поттсом и предложила провести тщательное исследование невозможного усвоения языка в так называемых сетях-трансформаторах, которые лежат в основе ведущих современных языковых моделей. Поттс изначально считала, что это звучит слишком амбициозно для первого проекта Каллини в качестве аспиранта, но она убедила его, что это стоит того.
«Джули была совершенно неумолима», — сказал он.

Джули Каллини (слева) и Кристофер Поттс изучали невозможное изучение языка с помощью современных нейронных сетей.
Каллини и Поттс договорились, что она возьмет на себя обучение моделей. Но сначала им нужно было решить, какие именно модели трансформаторов тестировать и какие языки изучать. Для этого они привлекли Пападимитриу и двух других специалистов по вычислительной лингвистике — Ричарда Футрелла из Калифорнийского университета в Ирвайне и Кайла Маховальда из Техасского университета в Остине. Команда решила использовать относительно небольшие сети трансформаторов, смоделированные на основе GPT-2, предшественника языковой модели 2019 года, на которой работает ChatGPT. Меньшим сетям нужно меньше обучающих данных, поэтому они немного больше похожи на людей; возможно, они также будут напоминать людей, отдавая предпочтение возможным языкам перед невозможными?
Каллини вскоре узнала, что так думали не все. Ее коллеги из Стэнфордского отделения компьютерных наук вряд ли были скептиками машинного обучения, но многие все же встали на сторону Хомского в дебатах о невозможном языке.
«Многие делали ставку на то, что трансформер может научиться чему угодно», — сказала она.

Слева направо: Кайл Маховальд, Изабель Пападимитриу и Ричард Футрелл объединились с Каллини и Поттсом, чтобы разработать невозможные языки для тестирования.
Команда сконструировала дюжину невозможных языков, большинство из которых основаны на различных процедурах перетасовки слов в каждом предложении обычного набора данных на английском языке. В одном экстремальном случае перетасовка была случайной, но во всех остальных она следовала простой схеме — например, разделяя каждое предложение на группы по три соседних слова и меняя местами вторые и третьи слова в каждой группе. Они также включили «частично обратный» язык, который изучали Митчелл и Боуэрс, а также «полностью обратный» язык, который они сгенерировали, перевернув каждое предложение в обучающих данных. Их последний язык, названный «word hop», был ближе всего к обычному английскому. Он отличался только тем, как определить, был ли глагол единственным или множественным: вместо использования суффикса, например «s» в «runs», он использовал специальный символ, помещенный через четыре слова после глагола. Команде было особенно любопытно посмотреть, как модели справятся с этим языком, поскольку он был вдохновлен классическими примерами из лингвистической литературы.
«Не похоже, чтобы было что-то особенно сложное в том, чтобы сказать: «Поместите эту [вещь] на четыре слова ниже по течению от этой», — сказал Хантер. «И все же ни один человеческий язык, похоже, не следует подобной схеме».
Все невозможные языки в разной степени нарушили лингвистическую структуру английского языка, но, за исключением случайной перетасовки, все они передавали одну и ту же информацию (в определенном теоретическом смысле). «В принципе, всемогущий предсказатель не будет испытывать больших трудностей с невозможными языками, чем с возможным», — сказал Футрелл.
Каллини и ее коллеги начали с нескольких копий сети трансформаторов и обучили каждую из них на разных языках, периодически останавливая процедуру обучения, чтобы проверить способности каждой модели предсказывать слова. Все они со временем стали лучше. Даже в экстремальном случае случайного перемешивания модель все равно могла понять, что «the» — более распространенное слово, чем «impossible». Но модель, обученная на неизмененном английском тексте, училась намного быстрее и в конце показала себя лучше, чем все остальные, за одним исключением: модель, обученная на скачке слов, которая заменяет определенные глагольные суффиксы специальными символами на расстоянии четырех слов, показала примерно такие же результаты.
Это неудивительно — в конце концов, тонкое различие между этим языком и обычным английским не имеет значения для большинства предсказаний слов. Но когда они сравнили модели, обученные на этих двух языках, с тестом, разработанным для выявления различия, они увидели четкую разницу. И снова невозможный язык оказался для него гораздо сложнее в освоении.
Это был классический поворот сюжета — языковые модели оказались не такими уж всемогущими.
Миссия выполнена?
Результаты показывают, что языковые модели, как и люди, предпочитают изучать одни языковые модели другим. Их предпочтения имеют некоторое сходство с человеческими предпочтениями, но они не обязательно идентичны, и все еще возможно, что аспекты теорий Хомского играют роль в том, как люди учатся. Человеческий мозг и нейронные сети настолько сложны, что понимание того, чем они отличаются — особенно когда речь идет о такой тонкой задаче, как изучение языка — может показаться безнадежным. Название статьи «Миссия: невыполнимая языковая модель» подходит более чем в одном смысле.
Но, как и герои боевиков, исследователи имеют привычку принимать, казалось бы, невыполнимые миссии и находить творческие способы достижения прогресса. Каллини и ее соавторы выявили простой принцип, называемый «локальностью информации», который объясняет, почему их модели находили некоторые невозможные языки сложнее других. Этот принцип также может иметь отношение к усвоению человеческого языка. Их результаты уже побудили несколько конкретных предложений для последующих исследований.
«Вот что мне действительно нравится в этой статье», — сказал Райан Нефдт, философ когнитивной науки из Университета Кейптауна в Южной Африке. «Она открывает так много разных путей и вопросов».
Один из перспективных подходов заключается в изучении того, как невозможное изучение языка зависит от деталей дизайна нейронной сети. Отрицательные результаты более ранних экспериментов Митчелла и Боуэрса уже указывают на то, что разные типы сетей могут иметь совершенно разное поведение. Исследователи языковых моделей обычно совершенствуют свои модели, настраивая базовые сети и наблюдая, какие настройки делают модели лучше для изучения обычных языков. Вместо этого может быть плодотворным поиск настроек, которые делают модели еще хуже для изучения невозможных языков.
«Это захватывающий проект», — сказал Поттс. «Это то, что мы делаем для «Миссии невыполнима 2».
Как и во многих сиквелах, во второй миссии также будет сюжетная линия, вдохновленная реакцией на результаты команды Хантера. Он предложил сравнить скачок слов с новым искусственным языком, который, как он подозревает, создаст больше проблем для сетей, хотя он больше похож на настоящие языки. Хантер по-прежнему больше симпатизирует хомскианскому подходу к лингвистике, но он рад, что утверждения об изучении языка в нейронных сетях проверяются напрямую. «Я бы хотел увидеть больше исследований, пытающихся провести именно такие эксперименты», — сказал он.
Каллини и ее коллеги надеются, что их результаты также вдохновят других исследователей на изучение невозможных языков. Это богатая область, с достаточным количеством материала для многих других миссий.
«У этого есть потенциал стать исследовательской программой, которой занимаются многие люди», — сказал Футрелл. «Это должен быть жанр, а не франшиза».
Источник: www.quantamagazine.org























