Робот выбирает карточку с надписью "GRASS" среди слов на фоне.

Как «встраивания» кодируют значение слов — в некотором роде

Машины работают со словами, встраивая их взаимосвязи с другими словами в последовательность чисел. Комментарий Сохранить статью Прочитать позже

Робот выбирает слова из стопки.

Введение

Картинка может стоить тысячи слов, но сколько чисел стоит слово? Вопрос может показаться глупым, но именно он лежит в основе больших языковых моделей (ЛЯМ) — и, через них, многих современных приложений искусственного интеллекта.

Для каждой модели LLM существует свой ответ. В открытой модели Llama 3 от Meta каждое слово содержит 4096 чисел; для GPT-3 — 12288. В отдельности эти длинные числовые списки — известные как эмбеддинги — представляют собой просто непостижимые цепочки цифр. Но вместе они кодируют математические связи между словами, которые могут удивительно походить на смысл.

Основная идея векторных представлений слов существует уже несколько десятилетий. Чтобы смоделировать язык на компьютере, начните с того, что возьмите каждое слово из словаря и составьте список его основных характеристик — сколько именно, решать вам, главное, чтобы они были одинаковыми для каждого слова. «Это можно почти представить как игру «20 вопросов», — говорит Элли Павлицк, специалист по компьютерным моделям из Университета Брауна и Google DeepMind. — Животные, растения, предметы — характеристики могут быть любыми, которые люди считают полезными для различения понятий». Затем присвойте каждой характеристике в списке числовое значение. Например, слово «собака» получит высокий балл по признаку «пушистый», но низкий по признаку «металлический». В результате семантические ассоциации каждого слова и его связь с другими словами будут представлены в виде уникальной последовательности чисел.

Раньше исследователи задавали эти векторные представления вручную, но теперь они генерируются автоматически. Например, нейронные сети можно обучить группировать слова (или, технически, фрагменты текста, называемые токенами) в соответствии с признаками, которые сеть определяет сама. «Возможно, один признак очень хорошо разделяет существительные и глаголы, а другой разделяет слова, которые обычно встречаются после точки, от слов, которые не встречаются после точки», — сказал Павлицк.

Недостаток этих машинных эмбеддингов заключается в том, что, в отличие от игры «20 вопросов», многие описания, закодированные в каждом списке чисел, не могут быть интерпретированы человеком. «Похоже, это какая-то мешанина из разных вещей», — сказал Павлицк. «Нейронная сеть может просто придумывать признаки любым удобным для себя способом».

Но когда нейронная сеть обучается на конкретной задаче, называемой языковым моделированием — предсказании следующего слова в последовательности, — полученные ею векторные представления отнюдь не произвольны. Подобно железным опилкам, выстраивающимся в ряд под действием магнитного поля, значения устанавливаются таким образом, что слова со схожими ассоциациями имеют математически схожие векторные представления. Например, векторные представления для слов «собака» и «кошка» будут более похожими, чем для слов «собака» и «стул».

Это явление может придать векторным представлениям загадочность и даже магическую природу: нейронная сеть каким-то образом преобразует исходные числа в лингвистический смысл, «словно превращая солому в золото», — сказал Павлицк. Известные примеры «словесной арифметики» — «король» минус «мужчина» плюс «женщина» примерно равно «королева» — только усилили ореол таинственности вокруг векторных представлений. Они, кажется, выступают в качестве богатого, гибкого хранилища того, что «знает» магистр права.

Но это предполагаемое знание совсем не похоже на то, что мы находим в словаре. Скорее, это карта. Если представить каждое векторное представление как набор координат на многомерной карте, общей для других векторных представлений, то можно увидеть определенные закономерности. Определенные слова будут группироваться вместе, как пригороды, примыкающие к большому городу. И опять же, у слов «собака» и «кошка» будет больше похожих координат, чем у слов «собака» и «стул».

Но в отличие от точек на карте, эти координаты относятся только друг к другу, а не к какой-либо территории, подобно тому как широта и долгота указывают на конкретные точки на Земле. Вместо этого, обозначения «собака» или «кошка» больше похожи на координаты в межзвездном пространстве: бессмысленные, за исключением того, насколько близко они находятся к другим известным точкам.

Так почему же векторные представления слов «собака» и «кошка» так похожи? Потому что они используют то, что лингвисты знают уже десятилетия: слова, используемые в схожих контекстах, как правило, имеют схожие значения. В последовательности «Я нанял няню для животных, чтобы покормить моего ____» следующее слово может быть «собака» или «кошка», но это, вероятно, не «стул». Для этого не нужен словарь, достаточно статистики.

Эмбеддинги — контекстные координаты, основанные на этих статистических данных, — позволяют LLM найти подходящую отправную точку для прогнозирования следующего слова, не прибегая к кодированию смысла.

В определённых контекстах некоторые слова сочетаются лучше, чем другие, иногда настолько точно, что буквально никакие другие слова не подойдут. (Представьте, что вы заканчиваете предложение: «Нынешнего президента Франции зовут ____».) По мнению многих лингвистов, во многом именно благодаря тому, что люди так тонко различают это чувство соответствия, мы не просто связываем слова друг с другом — мы действительно знаем, на что они указывают, как на территорию на карте. Языковые модели этого не могут, потому что векторные представления работают иначе.

Тем не менее, в качестве заменителя семантического значения векторные представления оказались на удивление эффективными. Это одна из причин, почему большие языковые модели быстро вышли на передний план искусственного интеллекта. Когда эти математические объекты сочетаются друг с другом так, как это соответствует нашим ожиданиям, это похоже на интеллект; когда нет, мы называем это «галлюцинацией». Однако для больших языковых моделей разницы нет. Это просто списки чисел, затерянные в пространстве.

Источник: www.quantamagazine.org

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

ИИ почти всех обгонит? Прогнозы звучат громко, но есть нюансы…
Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.
dummy-img
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
dummy-img
dummy-img
Взаимодействие человека и машины погружается под воду.
Взаимодействие человека и машины погружается под воду.
Image Not Found
Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Вкратце Опубликовано: Изображение предоставлено: Thos Robinson/Getty Images для The New York Times (откроется в новом окне) Джули Борт Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.…

Апр 21, 2026
dummy-img

Как почистить виниловые пластинки (2026): пылесос, ультразвук, чистящий раствор, щетка.

Эти щелчки и треск недопустимы. Приведите свою музыку в порядок с помощью этого удобного руководства. Источник: www.wired.com

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых