Робот выбирает карточку с надписью "GRASS" среди слов на фоне.

Как «встраивания» кодируют значение слов — в некотором роде

Машины работают со словами, встраивая их взаимосвязи с другими словами в последовательность чисел. Комментарий Сохранить статью Прочитать позже

Робот выбирает слова из стопки.

Введение

Картинка может стоить тысячи слов, но сколько чисел стоит слово? Вопрос может показаться глупым, но именно он лежит в основе больших языковых моделей (ЛЯМ) — и, через них, многих современных приложений искусственного интеллекта.

Для каждой модели LLM существует свой ответ. В открытой модели Llama 3 от Meta каждое слово содержит 4096 чисел; для GPT-3 — 12288. В отдельности эти длинные числовые списки — известные как эмбеддинги — представляют собой просто непостижимые цепочки цифр. Но вместе они кодируют математические связи между словами, которые могут удивительно походить на смысл.

Основная идея векторных представлений слов существует уже несколько десятилетий. Чтобы смоделировать язык на компьютере, начните с того, что возьмите каждое слово из словаря и составьте список его основных характеристик — сколько именно, решать вам, главное, чтобы они были одинаковыми для каждого слова. «Это можно почти представить как игру «20 вопросов», — говорит Элли Павлицк, специалист по компьютерным моделям из Университета Брауна и Google DeepMind. — Животные, растения, предметы — характеристики могут быть любыми, которые люди считают полезными для различения понятий». Затем присвойте каждой характеристике в списке числовое значение. Например, слово «собака» получит высокий балл по признаку «пушистый», но низкий по признаку «металлический». В результате семантические ассоциации каждого слова и его связь с другими словами будут представлены в виде уникальной последовательности чисел.

Раньше исследователи задавали эти векторные представления вручную, но теперь они генерируются автоматически. Например, нейронные сети можно обучить группировать слова (или, технически, фрагменты текста, называемые токенами) в соответствии с признаками, которые сеть определяет сама. «Возможно, один признак очень хорошо разделяет существительные и глаголы, а другой разделяет слова, которые обычно встречаются после точки, от слов, которые не встречаются после точки», — сказал Павлицк.

Недостаток этих машинных эмбеддингов заключается в том, что, в отличие от игры «20 вопросов», многие описания, закодированные в каждом списке чисел, не могут быть интерпретированы человеком. «Похоже, это какая-то мешанина из разных вещей», — сказал Павлицк. «Нейронная сеть может просто придумывать признаки любым удобным для себя способом».

Но когда нейронная сеть обучается на конкретной задаче, называемой языковым моделированием — предсказании следующего слова в последовательности, — полученные ею векторные представления отнюдь не произвольны. Подобно железным опилкам, выстраивающимся в ряд под действием магнитного поля, значения устанавливаются таким образом, что слова со схожими ассоциациями имеют математически схожие векторные представления. Например, векторные представления для слов «собака» и «кошка» будут более похожими, чем для слов «собака» и «стул».

Это явление может придать векторным представлениям загадочность и даже магическую природу: нейронная сеть каким-то образом преобразует исходные числа в лингвистический смысл, «словно превращая солому в золото», — сказал Павлицк. Известные примеры «словесной арифметики» — «король» минус «мужчина» плюс «женщина» примерно равно «королева» — только усилили ореол таинственности вокруг векторных представлений. Они, кажется, выступают в качестве богатого, гибкого хранилища того, что «знает» магистр права.

Но это предполагаемое знание совсем не похоже на то, что мы находим в словаре. Скорее, это карта. Если представить каждое векторное представление как набор координат на многомерной карте, общей для других векторных представлений, то можно увидеть определенные закономерности. Определенные слова будут группироваться вместе, как пригороды, примыкающие к большому городу. И опять же, у слов «собака» и «кошка» будет больше похожих координат, чем у слов «собака» и «стул».

Но в отличие от точек на карте, эти координаты относятся только друг к другу, а не к какой-либо территории, подобно тому как широта и долгота указывают на конкретные точки на Земле. Вместо этого, обозначения «собака» или «кошка» больше похожи на координаты в межзвездном пространстве: бессмысленные, за исключением того, насколько близко они находятся к другим известным точкам.

Так почему же векторные представления слов «собака» и «кошка» так похожи? Потому что они используют то, что лингвисты знают уже десятилетия: слова, используемые в схожих контекстах, как правило, имеют схожие значения. В последовательности «Я нанял няню для животных, чтобы покормить моего ____» следующее слово может быть «собака» или «кошка», но это, вероятно, не «стул». Для этого не нужен словарь, достаточно статистики.

Эмбеддинги — контекстные координаты, основанные на этих статистических данных, — позволяют LLM найти подходящую отправную точку для прогнозирования следующего слова, не прибегая к кодированию смысла.

В определённых контекстах некоторые слова сочетаются лучше, чем другие, иногда настолько точно, что буквально никакие другие слова не подойдут. (Представьте, что вы заканчиваете предложение: «Нынешнего президента Франции зовут ____».) По мнению многих лингвистов, во многом именно благодаря тому, что люди так тонко различают это чувство соответствия, мы не просто связываем слова друг с другом — мы действительно знаем, на что они указывают, как на территорию на карте. Языковые модели этого не могут, потому что векторные представления работают иначе.

Тем не менее, в качестве заменителя семантического значения векторные представления оказались на удивление эффективными. Это одна из причин, почему большие языковые модели быстро вышли на передний план искусственного интеллекта. Когда эти математические объекты сочетаются друг с другом так, как это соответствует нашим ожиданиям, это похоже на интеллект; когда нет, мы называем это «галлюцинацией». Однако для больших языковых моделей разницы нет. Это просто списки чисел, затерянные в пространстве.

Источник: www.quantamagazine.org

✅ Найденные теги: Встраивания, значение, Как, Кодирование, новости, Слова

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых