Это загадочные числа, которые заставляют работать ваши любимые модели искусственного интеллекта. Что это такое и что они делают?

MIT Technology Review объясняет: Наши авторы помогут вам разобраться в сложном и запутанном мире технологий и понять, что нас ждет в будущем. Больше статей из этой серии вы можете прочитать здесь.
Я пишу это потому, что один из моих редакторов проснулся посреди ночи и набросал на прикроватном блокноте: «Что такое параметр?» В отличие от многих мыслей, которые приходят в голову в 4 утра, это действительно хороший вопрос — он затрагивает саму суть работы больших языковых моделей. И я говорю это не просто потому, что он мой начальник. (Привет, босс!)
Параметры большой языковой модели часто называют регуляторами и рычагами, которые управляют ее поведением. Представьте себе гигантский пинбол, который перемещает шарики от одного конца до другого с помощью миллиардов точно настроенных рычагов и бамперов. Измените эти настройки, и шарики будут вести себя по-другому.
Модель GPT-3 от OpenAI, выпущенная в 2020 году, имела 175 миллиардов параметров. Новейшая модель LLM от Google DeepMind, Gemini 3, может иметь как минимум триллион параметров — некоторые считают, что их, вероятно, около 7 триллионов, — но компания об этом не говорит. (В условиях жесткой конкуренции компании, занимающиеся ИИ, больше не делятся информацией о том, как создаются их модели.)
Но основные понятия, что такое параметры и как они заставляют LLM делать то, что они делают, одинаковы для разных моделей. Вы когда-нибудь задумывались, что на самом деле заставляет LLM работать — что скрывается за красочными метафорами, напоминающими игровой автомат? Давайте разберемся.
Что такое параметр?
Вспомните алгебру в средней школе, например, 2a + b. Эти буквы — параметры: присвойте им значения, и вы получите результат. В математике или программировании параметры используются для установки пределов или определения выходных данных. Параметры внутри LLM работают аналогичным образом, только в невероятном масштабе.
Как им приписываются их ценности?
Краткий ответ: алгоритм. При обучении модели каждому параметру присваивается случайное значение. Затем процесс обучения включает в себя итеративную серию вычислений (известных как шаги обучения), которые обновляют эти значения. На ранних этапах обучения модель будет совершать ошибки. Алгоритм обучения анализирует каждую ошибку и возвращается к модели, корректируя значение каждого из многочисленных параметров модели таким образом, чтобы в следующий раз эта ошибка была меньше. Это повторяется снова и снова, пока модель не начнет вести себя так, как того хотят ее создатели. В этот момент обучение останавливается, и значения параметров модели фиксируются.
Звучит просто…
В теории! На практике же, поскольку LLM-модели обучаются на огромном количестве данных и содержат множество параметров, их обучение требует огромного количества шагов и невероятно больших вычислительных мощностей. Во время обучения 175 миллиардов параметров внутри LLM-модели среднего размера, такой как GPT-3, обновляются десятки тысяч раз. В общей сложности это составляет квадриллионы (число с 15 нулями) отдельных вычислений. Именно поэтому обучение LLM-модели требует так много энергии. Речь идёт о тысячах специализированных высокоскоростных компьютеров, работающих без остановки в течение нескольких месяцев.
Ого. Для чего, собственно, нужны все эти параметры?
Внутри LLM существует три различных типа параметров, значения которых присваиваются в процессе обучения: эмбеддинги, веса и смещения. Рассмотрим каждый из них по очереди.
Хорошо! Итак, что же такое эмбеддинги?
Эмбеддинг — это математическое представление слова (или части слова, известной как токен) в словаре LLM. Словарь LLM, который может содержать до нескольких сотен тысяч уникальных токенов, устанавливается его разработчиками до начала обучения. Но этим словам не присваивается никакого смысла. Он появляется во время обучения.
При обучении модели каждому слову в ее словаре присваивается числовое значение, отражающее значение этого слова по отношению ко всем остальным словам, исходя из того, как это слово встречается в бесчисленных примерах в обучающих данных модели.
Каждое слово заменяется своего рода кодом?
Да. Но тут есть еще кое-что. Числовое значение — векторное представление — которое представляет каждое слово, на самом деле представляет собой список чисел, причем каждое число в списке обозначает различный аспект значения, который модель извлекла из обучающих данных. Длина этого списка чисел — еще один параметр, который разработчики LLM могут указать до начала обучения модели. Обычно она составляет 4096.
Каждое слово в LLM представлено списком из 4096 чисел?
Да, это векторное представление. И каждое из этих чисел корректируется в процессе обучения. LLM с векторными представлениями длиной в 4096 чисел называется имеющим 4096 измерений.
Почему 4096?
На первый взгляд это может показаться странным числом. Но LLM-модели (как и всё, что работает на компьютерном чипе) лучше всего работают со степенями двойки — 2, 4, 8, 16, 32, 64 и так далее. Инженеры, занимающиеся разработкой LLM-моделей, обнаружили, что 4096 — это степень двойки, которая обеспечивает оптимальный баланс между возможностями и эффективностью. Модели с меньшим количеством измерений менее эффективны; модели с большим количеством измерений слишком дороги или медленны в обучении и выполнении.
Использование большего количества чисел позволяет LLM улавливать очень подробную информацию о том, как слово используется в различных контекстах, какие тонкие коннотации оно может иметь, как оно связано с другими словами и так далее.
В феврале OpenAI выпустила GPT-4.5, крупнейшую на сегодняшний день модель LLM (по некоторым оценкам, количество параметров в ней превышает 10 триллионов). Ник Райдер, научный сотрудник OpenAI, работавший над этой моделью, тогда сказал мне, что более крупные модели могут работать с дополнительной информацией, такой как эмоциональные сигналы, например, когда слова говорящего указывают на враждебность: «Все эти тонкие закономерности, которые проявляются в человеческом разговоре, — это те самые данные, которые будут улавливать все более крупные модели».
В итоге все слова внутри многомерной матрицы кодируются в многомерное пространство. Представьте тысячи слов, парящих в воздухе вокруг вас. Слова, расположенные ближе друг к другу, имеют схожие значения. Например, слова «стол» и «стул» будут ближе друг к другу, чем к слову «космонавт», которое близко к словам «луна» и «маска». Вдали можно увидеть слово «фокусничество». Это немного похоже на это, но вместо того, чтобы быть связанными друг с другом в трех измерениях, слова внутри многомерной матрицы связаны в 4096 измерениях.
Ужас.
Это просто головокружительно. По сути, магистерская программа сжимает весь интернет в единую монументальную математическую структуру, которая кодирует непостижимое количество взаимосвязанной информации. Именно поэтому магистерские программы способны на удивительные вещи, и именно поэтому их невозможно полностью понять.
Хорошо. Это эмбеддинги. А что насчет весов?
Вес — это параметр, представляющий собой силу связи между различными частями модели, и один из наиболее распространенных типов регуляторов для настройки поведения модели. Веса используются, когда LLM обрабатывает текст.
Когда программа LLM читает предложение (или главу книги), она сначала находит векторные представления всех слов, а затем пропускает эти представления через ряд нейронных сетей, известных как трансформеры, которые предназначены для одновременной обработки последовательностей данных (например, текста). Каждое слово в предложении обрабатывается относительно каждого другого слова.
Здесь вступают в дело веса. Эмбеддинг представляет значение слова без контекста. Когда слово появляется в конкретном предложении, трансформеры используют веса для обработки значения этого слова в новом контексте. (На практике это включает в себя умножение каждого эмбеддинга на веса всех остальных слов.)
А что насчет предвзятости?
Смещения — это еще один тип регуляторов, дополняющих эффекты весов. Веса устанавливают пороговые значения, при которых срабатывают различные части модели (и, следовательно, передают данные следующей части). Смещения используются для корректировки этих пороговых значений, чтобы эмбеддинг мог запускать активность, даже если его значение низкое. (Смещения — это значения, которые добавляются к эмбеддингу, а не умножаются на него.)
Сдвигая пороговые значения, при которых срабатывают отдельные части модели, смещения позволяют модели улавливать информацию, которая в противном случае могла бы быть упущена. Представьте, что вы пытаетесь расслышать, что говорит кто-то в шумной комнате. Весовые коэффициенты усиливали бы самые громкие голоса; смещения — это как регулятор на подслушивающем устройстве, который поднимает более тихие голоса в общем звучании.
Вкратце: веса и смещения — это два разных способа, с помощью которых LLM извлекает как можно больше информации из предоставленного текста. И оба типа параметров многократно корректируются в процессе обучения, чтобы гарантировать достижение этой цели.
Хорошо. А что насчет нейронов? Они тоже относятся к типу параметров?
Нет, нейроны — это скорее способ организации всей этой математики — контейнеры для весов и смещений, связанные между собой сетью путей. Всё это очень приблизительно вдохновлено биологическими нейронами в мозге животных, где сигналы от одного нейрона запускают новые сигналы от следующего и так далее.
Каждый нейрон в модели содержит одно смещение и один вес для каждого измерения модели. Другими словами, если модель имеет 4096 измерений — и, следовательно, ее эмбеддинги представляют собой списки из 4096 чисел — то каждый нейрон в этой модели будет содержать одно смещение и 4096 весов.
Нейроны расположены слоями. В большинстве линейных моделей с линейной архитектурой каждый нейрон в одном слое соединен со всеми нейронами в слое выше. Модель с 175 миллиардами параметров, такая как GPT-3, может иметь около 100 слоев, в каждом из которых находится несколько десятков тысяч нейронов. И каждый нейрон одновременно выполняет десятки тысяч вычислений.
Опять кружится голова. Столько математики.
Это очень много математики.
И как всё это взаимосвязано? Как магистр права берёт набор слов и решает, какие слова ему вернуть?
Когда LLM обрабатывает фрагмент текста, числовое представление этого текста — векторное представление (эмбеддинг) — проходит через несколько слоев модели. На каждом слое значение эмбеддинга (список из 4096 чисел) многократно обновляется с помощью ряда вычислений, включающих веса и смещения модели (прикрепленные к нейронам), пока не дойдет до последнего слоя.
Идея заключается в том, что весь смысл, нюансы и контекст входного текста улавливаются конечным значением векторного представления после того, как оно проходит через невероятно сложную серию вычислений. Затем это значение используется для вычисления следующего слова, которое должна выдать модель LLM.
Неудивительно, что всё гораздо сложнее, чем кажется: модель вычисляет для каждого слова в своём словаре вероятность того, что это слово будет следующим, и ранжирует результаты. Затем она выбирает слово с наибольшей вероятностью. (В некотором смысле. См. ниже…)
Это слово добавляется к предыдущему блоку текста, и весь процесс повторяется до тех пор, пока LLM не вычислит, что наиболее вероятное следующее слово, которое будет выдано, сигнализирует об окончании его вывода.
Вот и все?
Конечно. Ну…
Продолжать.
Разработчики LLM также могут задавать ряд других параметров, известных как гиперпараметры. Основные из них называются температура, top-p и top-k.
Вы это выдумываете.
Температура — это параметр, который действует как своего рода регулятор креативности. Он влияет на выбор моделью следующего слова. Я только что сказал, что модель ранжирует слова в своем словаре и выбирает первое. Но параметр температуры можно использовать, чтобы подтолкнуть модель к выбору наиболее вероятного следующего слова, сделав ее результат более фактическим и релевантным, или менее вероятного слова, сделав результат более неожиданным и менее роботизированным.
Top-p и Top-k — это ещё два параметра, которые управляют выбором следующих слов моделью. Эти настройки заставляют модель выбирать слово случайным образом из пула наиболее вероятных слов, а не первое слово. Эти параметры влияют на то, как модель воспринимается — как необычная и креативная или как заслуживающая доверия и скучная.
И последний вопрос! Сейчас много говорят о небольших моделях, которые могут превзойти большие. Как небольшая модель добивается большего при меньшем количестве параметров?
Это один из самых актуальных вопросов в области ИИ на данный момент. Существует множество различных способов, как это может произойти. Исследователи обнаружили, что объем обучающих данных имеет огромное значение. Во-первых, необходимо убедиться, что модель получает достаточно данных: модель LLM, обученная на слишком малом количестве текста, не сможет максимально использовать все свои параметры, а меньшая модель, обученная на том же объеме данных, может превзойти ее.
Ещё один приём, который нашли исследователи, — это переобучение. Предоставление моделям гораздо большего количества данных, чем считалось необходимым ранее, приводит к улучшению их производительности. В результате небольшая модель, обученная на большом объёме данных, может превзойти более крупную модель, обученную на меньшем объёме данных. Возьмём, к примеру, Llama LLM от Meta. Модель Llama 2 с 70 миллиардами параметров была обучена на примерно 2 триллионах слов текста; модель Llama 3 с 8 миллиардами параметров была обучена на примерно 15 триллионах слов текста. Значительно меньшая по размеру модель Llama 3 оказалась лучше.
Третий метод, известный как дистилляция, использует более крупную модель для обучения меньшей. Меньшая модель обучается не только на исходных обучающих данных, но и на результатах внутренних вычислений большей модели. Идея заключается в том, что с трудом полученные знания, заложенные в параметрах большей модели, постепенно проникают в параметры меньшей модели, повышая её эффективность.
Фактически, времена единых монолитных моделей, возможно, подошли к концу. Даже самые крупные модели на рынке, такие как GPT-5 от OpenAI и Gemini 3 от Google DeepMind, можно рассматривать как несколько маленьких моделей в плаще. Используя метод, называемый «смешивание экспертов», большие модели могут задействовать только те свои части («экспертов»), которые необходимы для обработки конкретного фрагмента текста. Это сочетает в себе возможности большой модели со скоростью и меньшим энергопотреблением маленькой модели.
Но на этом все не заканчивается. Исследователи все еще ищут способы максимально эффективно использовать параметры модели. Поскольку выгода от прямого масштабирования уменьшается, увеличение количества параметров, похоже, уже не дает того эффекта, который был раньше. Важно не столько количество параметров, сколько то, как вы их используете.
Можно мне один увидеть?
Хотите увидеть параметр? Пожалуйста: вот его векторное представление.
Источник: www.technologyreview.com



























