Машины работают со словами, встраивая их взаимосвязи с другими словами в последовательность чисел. Комментарий Сохранить статью Прочитать позже

Введение
Картинка может стоить тысячи слов, но сколько чисел стоит слово? Вопрос может показаться глупым, но именно он лежит в основе больших языковых моделей (ЛЯМ) — и, через них, многих современных приложений искусственного интеллекта.
Для каждой модели LLM существует свой ответ. В открытой модели Llama 3 от Meta каждое слово содержит 4096 чисел; для GPT-3 — 12288. В отдельности эти длинные числовые списки — известные как эмбеддинги — представляют собой просто непостижимые цепочки цифр. Но вместе они кодируют математические связи между словами, которые могут удивительно походить на смысл.
Основная идея векторных представлений слов существует уже несколько десятилетий. Чтобы смоделировать язык на компьютере, начните с того, что возьмите каждое слово из словаря и составьте список его основных характеристик — сколько именно, решать вам, главное, чтобы они были одинаковыми для каждого слова. «Это можно почти представить как игру «20 вопросов», — говорит Элли Павлицк, специалист по компьютерным моделям из Университета Брауна и Google DeepMind. — Животные, растения, предметы — характеристики могут быть любыми, которые люди считают полезными для различения понятий». Затем присвойте каждой характеристике в списке числовое значение. Например, слово «собака» получит высокий балл по признаку «пушистый», но низкий по признаку «металлический». В результате семантические ассоциации каждого слова и его связь с другими словами будут представлены в виде уникальной последовательности чисел.
Раньше исследователи задавали эти векторные представления вручную, но теперь они генерируются автоматически. Например, нейронные сети можно обучить группировать слова (или, технически, фрагменты текста, называемые токенами) в соответствии с признаками, которые сеть определяет сама. «Возможно, один признак очень хорошо разделяет существительные и глаголы, а другой разделяет слова, которые обычно встречаются после точки, от слов, которые не встречаются после точки», — сказал Павлицк.
Недостаток этих машинных эмбеддингов заключается в том, что, в отличие от игры «20 вопросов», многие описания, закодированные в каждом списке чисел, не могут быть интерпретированы человеком. «Похоже, это какая-то мешанина из разных вещей», — сказал Павлицк. «Нейронная сеть может просто придумывать признаки любым удобным для себя способом».
Но когда нейронная сеть обучается на конкретной задаче, называемой языковым моделированием — предсказании следующего слова в последовательности, — полученные ею векторные представления отнюдь не произвольны. Подобно железным опилкам, выстраивающимся в ряд под действием магнитного поля, значения устанавливаются таким образом, что слова со схожими ассоциациями имеют математически схожие векторные представления. Например, векторные представления для слов «собака» и «кошка» будут более похожими, чем для слов «собака» и «стул».
Это явление может придать векторным представлениям загадочность и даже магическую природу: нейронная сеть каким-то образом преобразует исходные числа в лингвистический смысл, «словно превращая солому в золото», — сказал Павлицк. Известные примеры «словесной арифметики» — «король» минус «мужчина» плюс «женщина» примерно равно «королева» — только усилили ореол таинственности вокруг векторных представлений. Они, кажется, выступают в качестве богатого, гибкого хранилища того, что «знает» магистр права.
Но это предполагаемое знание совсем не похоже на то, что мы находим в словаре. Скорее, это карта. Если представить каждое векторное представление как набор координат на многомерной карте, общей для других векторных представлений, то можно увидеть определенные закономерности. Определенные слова будут группироваться вместе, как пригороды, примыкающие к большому городу. И опять же, у слов «собака» и «кошка» будет больше похожих координат, чем у слов «собака» и «стул».
Но в отличие от точек на карте, эти координаты относятся только друг к другу, а не к какой-либо территории, подобно тому как широта и долгота указывают на конкретные точки на Земле. Вместо этого, обозначения «собака» или «кошка» больше похожи на координаты в межзвездном пространстве: бессмысленные, за исключением того, насколько близко они находятся к другим известным точкам.
Так почему же векторные представления слов «собака» и «кошка» так похожи? Потому что они используют то, что лингвисты знают уже десятилетия: слова, используемые в схожих контекстах, как правило, имеют схожие значения. В последовательности «Я нанял няню для животных, чтобы покормить моего ____» следующее слово может быть «собака» или «кошка», но это, вероятно, не «стул». Для этого не нужен словарь, достаточно статистики.
Эмбеддинги — контекстные координаты, основанные на этих статистических данных, — позволяют LLM найти подходящую отправную точку для прогнозирования следующего слова, не прибегая к кодированию смысла.
В определённых контекстах некоторые слова сочетаются лучше, чем другие, иногда настолько точно, что буквально никакие другие слова не подойдут. (Представьте, что вы заканчиваете предложение: «Нынешнего президента Франции зовут ____».) По мнению многих лингвистов, во многом именно благодаря тому, что люди так тонко различают это чувство соответствия, мы не просто связываем слова друг с другом — мы действительно знаем, на что они указывают, как на территорию на карте. Языковые модели этого не могут, потому что векторные представления работают иначе.
Тем не менее, в качестве заменителя семантического значения векторные представления оказались на удивление эффективными. Это одна из причин, почему большие языковые модели быстро вышли на передний план искусственного интеллекта. Когда эти математические объекты сочетаются друг с другом так, как это соответствует нашим ожиданиям, это похоже на интеллект; когда нет, мы называем это «галлюцинацией». Однако для больших языковых моделей разницы нет. Это просто списки чисел, затерянные в пространстве.
Источник: www.quantamagazine.org



























