Робот выбирает карточку с надписью "GRASS" среди слов на фоне.

Как «встраивания» кодируют значение слов — в некотором роде

Янв 7, 2026 0

Машины работают со словами, встраивая их взаимосвязи с другими словами в последовательность чисел. Комментарий Сохранить статью Прочитать позже

Картинка может стоить тысячи слов, но сколько чисел стоит слово? Вопрос может показаться глупым, но именно он лежит в основе больших языковых моделей (ЛЯМ) — и, через них, многих современных приложений искусственного интеллекта.

Для каждой модели LLM существует свой ответ. В открытой модели Llama 3 от Meta каждое слово содержит 4096 чисел; для GPT-3 — 12288. В отдельности эти длинные числовые списки — известные как эмбеддинги — представляют собой просто непостижимые цепочки цифр. Но вместе они кодируют математические связи между словами, которые могут удивительно походить на смысл.

Основная идея векторных представлений слов существует уже несколько десятилетий. Чтобы смоделировать язык на компьютере, начните с того, что возьмите каждое слово из словаря и составьте список его основных характеристик — сколько именно, решать вам, главное, чтобы они были одинаковыми для каждого слова. «Это можно почти представить как игру «20 вопросов», — говорит Элли Павлицк, специалист по компьютерным моделям из Университета Брауна и Google DeepMind. — Животные, растения, предметы — характеристики могут быть любыми, которые люди считают полезными для различения понятий». Затем присвойте каждой характеристике в списке числовое значение. Например, слово «собака» получит высокий балл по признаку «пушистый», но низкий по признаку «металлический». В результате семантические ассоциации каждого слова и его связь с другими словами будут представлены в виде уникальной последовательности чисел.

Раньше исследователи задавали эти векторные представления вручную, но теперь они генерируются автоматически. Например, нейронные сети можно обучить группировать слова (или, технически, фрагменты текста, называемые токенами) в соответствии с признаками, которые сеть определяет сама. «Возможно, один признак очень хорошо разделяет существительные и глаголы, а другой разделяет слова, которые обычно встречаются после точки, от слов, которые не встречаются после точки», — сказал Павлицк.

Недостаток этих машинных эмбеддингов заключается в том, что, в отличие от игры «20 вопросов», многие описания, закодированные в каждом списке чисел, не могут быть интерпретированы человеком. «Похоже, это какая-то мешанина из разных вещей», — сказал Павлицк. «Нейронная сеть может просто придумывать признаки любым удобным для себя способом».

Но когда нейронная сеть обучается на конкретной задаче, называемой языковым моделированием — предсказании следующего слова в последовательности, — полученные ею векторные представления отнюдь не произвольны. Подобно железным опилкам, выстраивающимся в ряд под действием магнитного поля, значения устанавливаются таким образом, что слова со схожими ассоциациями имеют математически схожие векторные представления. Например, векторные представления для слов «собака» и «кошка» будут более похожими, чем для слов «собака» и «стул».

Это явление может придать векторным представлениям загадочность и даже магическую природу: нейронная сеть каким-то образом преобразует исходные числа в лингвистический смысл, «словно превращая солому в золото», — сказал Павлицк. Известные примеры «словесной арифметики» — «король» минус «мужчина» плюс «женщина» примерно равно «королева» — только усилили ореол таинственности вокруг векторных представлений. Они, кажется, выступают в качестве богатого, гибкого хранилища того, что «знает» магистр права.

Но это предполагаемое знание совсем не похоже на то, что мы находим в словаре. Скорее, это карта. Если представить каждое векторное представление как набор координат на многомерной карте, общей для других векторных представлений, то можно увидеть определенные закономерности. Определенные слова будут группироваться вместе, как пригороды, примыкающие к большому городу. И опять же, у слов «собака» и «кошка» будет больше похожих координат, чем у слов «собака» и «стул».

Но в отличие от точек на карте, эти координаты относятся только друг к другу, а не к какой-либо территории, подобно тому как широта и долгота указывают на конкретные точки на Земле. Вместо этого, обозначения «собака» или «кошка» больше похожи на координаты в межзвездном пространстве: бессмысленные, за исключением того, насколько близко они находятся к другим известным точкам.

Так почему же векторные представления слов «собака» и «кошка» так похожи? Потому что они используют то, что лингвисты знают уже десятилетия: слова, используемые в схожих контекстах, как правило, имеют схожие значения. В последовательности «Я нанял няню для животных, чтобы покормить моего ____» следующее слово может быть «собака» или «кошка», но это, вероятно, не «стул». Для этого не нужен словарь, достаточно статистики.

Эмбеддинги — контекстные координаты, основанные на этих статистических данных, — позволяют LLM найти подходящую отправную точку для прогнозирования следующего слова, не прибегая к кодированию смысла.

В определённых контекстах некоторые слова сочетаются лучше, чем другие, иногда настолько точно, что буквально никакие другие слова не подойдут. (Представьте, что вы заканчиваете предложение: «Нынешнего президента Франции зовут ____».) По мнению многих лингвистов, во многом именно благодаря тому, что люди так тонко различают это чувство соответствия, мы не просто связываем слова друг с другом — мы действительно знаем, на что они указывают, как на территорию на карте. Языковые модели этого не могут, потому что векторные представления работают иначе.

Тем не менее, в качестве заменителя семантического значения векторные представления оказались на удивление эффективными. Это одна из причин, почему большие языковые модели быстро вышли на передний план искусственного интеллекта. Когда эти математические объекты сочетаются друг с другом так, как это соответствует нашим ожиданиям, это похоже на интеллект; когда нет, мы называем это «галлюцинацией». Однако для больших языковых моделей разницы нет. Это просто списки чисел, затерянные в пространстве.

Источник: www.quantamagazine.org

Метки:

Spotify интерфейс на смартфоне с сообщениями и опциями настройки профиля на градиентном фоне.

ПРЕДЫДУЩАЯ ЗАПИСЬ

07.01.2026

Теперь Spotify позволяет делиться тем, что вы слушаете в режиме реального времени, с друзьями.

СЛЕДУЮЩАЯ ЗАПИСЬ

07.01.2026

Миры со сверхнизкой плотностью показывают, как формируются распространенные планетные системы.

Земля рядом с огромной оранжевой планетой в космосе на черном фоне.

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ
Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

Еще новости рубрики

Архив рубрики ~Обо всем~

Фантазии

Июл 2, 2024

Архив рубрики ~Обо всем~

Мировоззрение

Июл 2, 2024

Архив рубрики ~Обо всем~

Влияние выдумщиков и фантазеров на развитие…

Июл 2, 2024

Архив рубрики ~Обо всем~

Нет ничего невозможного

Июл 2, 2024

Присоединяйтесь
к нам в

TELEGRAM

галерея

ИИ почти всех обгонит? Прогнозы звучат громко, но есть нюансы…

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Взаимодействие человека и машины погружается под воду.

НОВОСТИ ДРУГИХ РУБРИК

Архив рубрики ~Лента новостей~

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Вкратце Опубликовано: Изображение предоставлено: Thos Robinson/Getty Images для The New York Times (откроется в новом окне) Джули Борт Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.…

ЧИТАТЬ

Апр 21, 2026

Архив рубрики ~Лента новостей~

Как почистить виниловые пластинки (2026): пылесос, ультразвук, чистящий раствор, щетка.

Эти щелчки и треск недопустимы. Приведите свою музыку в порядок с помощью этого удобного руководства. Источник: www.wired.com

ЧИТАТЬ

Апр 21, 2026

Архив рубрики ~Лента новостей~

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

ЧИТАТЬ

Апр 21, 2026

Архив рубрики ~Лента новостей~

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

ЧИТАТЬ

Апр 21, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых

ИдеиPRO

Как «встраивания» кодируют значение слов — в некотором роде

Введение

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ Отменить ответ

Еще новости рубрики

Присоединяйтесь к нам в

Рубрики

галерея

НОВОСТИ ДРУГИХ РУБРИК

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ
Отменить ответ

Присоединяйтесь
к нам в