Углубленный анализ калибровки языковых моделей: масштабирование Платта, изотоническая регрессия, температурное масштабирование.

05.06.2026 ideipro.ru

Узнайте о трех методах, позволяющих впоследствии сократить разрыв между уверенностью и точностью.

Калибровка LLM

# Введение

Модель, которая заявляет о 90% уверенности, должна быть права в 90% случаев. Когда это соотношение нарушается, возникает проблема неправильной калибровки . Показатели модели перестают давать полезную информацию о её надёжности.

В случае больших языковых моделей (LLM) неточность калибровки широко распространена. Опрос NAACL 2024 года показал, что оценки уверенности расходятся с фактическими показателями правильности в задачах фактического контроля, генерации кода и рассуждений.

Другое исследование биомедицинских моделей показало, что средние показатели калибровки варьируются от 23,9% до 46,6% по всем протестированным моделям. Разрыв является постоянным.

Стандартное решение в классическом машинном обучении — это апостериорная перекалибровка: подгонка простой функции к отложенному набору данных для валидации, чтобы сопоставить исходные оценки достоверности с более точно откалиброванными вероятностями.

Доминируют три метода: масштабирование по температуре , масштабирование по Платту и изотоническая регрессия . Все три были разработаны для дискриминативных классификаторов, и их применение к LLM требует осторожности.

# Калибровка измерений

Основной метрикой является ожидаемая ошибка калибровки (ECE). Она группирует прогнозы в интервалы достоверности, вычисляет разницу между средним уровнем достоверности и наблюдаемой точностью в каждом интервале и усредняет значения по интервалам, взвешенным по их размеру. ECE = 0 означает идеальную калибровку.

Диаграмма надежности отображает зависимость уверенности от точности. Идеально откалиброванная модель находится на диагонали. Модель с завышенной уверенностью расположена ниже: кривая показывает высокую уверенность, но точность не успевает за ней.

Оценка GPT-4o-mini как текстового классификатора, проведенная в 2025 году, показала, что 66,7% его ошибок происходили при уровне достоверности более 80% — это типичный случай чрезмерной уверенности.

Все чаще считается, что одного показателя ECE недостаточно. В одной исследовательской работе рекомендуется сочетать ECE с показателем Брайера, коэффициентами чрезмерной уверенности и диаграммами надежности. Одно число скрывает существенные различия в том, где и как модель ведет себя неправильно.

# Почему программы магистратуры усложняют стандартную настройку

Три рассматриваемых нами метода предполагают фиксированное пространство выходных данных. Классификатор выдает одну вероятность для каждого класса, а калибровка сопоставляет их с более точными оценками.

Программы магистратуры по праву работают по-другому.

Здесь важны четыре осложнения.

Пространство выходных данных экспоненциально велико: достоверность на уровне последовательности невозможно перечислить. Семантически эквивалентные выходные данные могут иметь очень разные вероятности на уровне токенов. Достоверность различается в зависимости от уровня детализации; в исследовательской работе по атомарной калибровке было показано, что генеративные модели демонстрируют самую низкую среднюю достоверность в середине генерации, а не в начале или конце.

Многие LLM-системы предоставляют доступ к вероятностям k лучших токенов только через свой API , поэтому классические подходы к калибровке, основанные на полном доступе к логистической регрессии, нуждаются в модификации.

# Применение температурного масштабирования

При масштабировании температуры вектор логит-функции делится на скалярную величину T перед применением функции softmax. Когда T > 1, распределение выравнивается, а уровень достоверности падает. Когда T < 1, распределение сужается, а уровень достоверности повышается.

Параметр T подбирается на отложенном валидационном наборе данных путем минимизации отрицательного логарифма правдоподобия. Метод добавляет один параметр, сохраняет ранжирование прогнозов и является недорогим в вычислении.

Первоначальная формулировка была ориентирована на классификаторы изображений DenseNet. Для LLM температура контролирует распределение вероятностей по словарю на каждом этапе декодирования, поэтому применяется та же логика.

Проблема заключается в обучении с подкреплением на основе обратной связи от человека (RLHF). В моделях, построенных после RLHF, развивается чрезмерная уверенность, зависящая от входных данных: степень рассогласования варьируется в зависимости от входных данных, и один параметр T не может учесть это различие.

Для моделей, подобных GPT-3, в задачах на вербальную оценку уверенности были зафиксированы средние значения ECE выше 0,377, а исследование 2025 года подтверждает, что модели, настроенные с помощью RLHF, неизменно переоценивают уровень уверенности во всех случаях.

Адаптивное масштабирование температуры (ATS) решает эту проблему напрямую. ATS прогнозирует температуру для каждого токена на основе скрытых признаков на уровне токена, обученных на наборе данных для контролируемой тонкой настройки, вместо использования одной фиксированной температуры. Исследователи подтвердили, что ATS улучшает калибровку на 10–50% без ущерба для производительности задачи. Для любой модели, настроенной с помощью RLHF, ATS является более надежной базовой моделью, чем стандартное масштабирование температуры.

Стандартное масштабирование температуры по-прежнему хорошо работает для базовых моделей до применения RLHF. Когда погрешность калибровки примерно одинакова для всех входных данных, одной буквы T часто достаточно для коррекции систематической завышенной или заниженной уверенности.

Проблема характерна именно для моделей, построенных после RLHF, где чрезмерная уверенность, зависящая от входных данных, означает, что один T-критерий не может скорректировать все входные данные.

# Применение масштабирования Платта

Метод Платта аппроксимирует некалиброванные оценки логистической функцией: p = σ(A·s + B), где A и B обучаются на отложенном валидационном наборе данных с бинарными метками правильности.

Сигмоидная форма дает параметрическое отображение с двумя свободными параметрами.

Метод масштабирования Платта изначально был разработан для SVM, но применим к любой системе, которая выдает скалярную оценку достоверности.

Двухпараметрическая подгонка также более эффективна с точки зрения использования данных по сравнению с изотонической регрессией: она позволяет получать пригодные для использования оценки на меньшем калибровочном наборе, что важно в условиях развертывания, где количество размеченных данных о корректности ограничено.

В контексте LLM масштабирование Платта применяется к показателям достоверности на уровне последовательности или токена.

В статье, посвященной оценке достоверности кода, сгенерированного с помощью LLM, было установлено, что шкалирование Платта дает более точно откалиброванные результаты, чем некалиброванные оценки. В другом исследовании LLM для преобразования текста в SQL было представлено многомерное шкалирование Платта (MPS), расширяющее одномерное шкалирование Платта для объединения оценок частоты подпунктов по нескольким сгенерированным выборкам — неизменно превосходящее базовые показатели с одной оценкой.

Задокументированы два ограничения . Во-первых, глобальное масштабирование Платта на уровне последовательности слишком грубое для задач, где корректность зависит от локальных решений по редактированию: одно сигмоидное отображение не может уловить зависящие от образца закономерности неправильной калибровки.

Кроме того, масштабирование по Платту может ухудшить качество оценки даже для сильных моделей.

# Применение изотонической регрессии

Изотоническая регрессия использует непараметрический подход.

Он обучается кусочно-постоянному, монотонно неубывающему отображению от некалиброванных оценок к калиброванным вероятностям с использованием алгоритма объединения смежных нарушителей (PAVA). Форма калибровочной функции не предполагается, что делает его более гибким, чем масштабирование Платта, когда зависимость между достоверностью и точностью не имеет сигмоидной формы.

Кусочно-постоянный выходной сигнал адаптируется к любой монотонной форме: линейной, ступенчатой или вогнутой. Эта адаптивность является основной причиной того, почему изотоническая регрессия, как правило, превосходит масштабирование Платта в эмпирических сравнениях.

Недостатком является риск переобучения на небольших калибровочных наборах данных. Отображение хорошо обобщается только тогда, когда имеется достаточно данных для его ограничения.

Эмпирические данные показывают, что изотоническая регрессия превосходит масштабирование Платта.

Тщательное сравнение по нескольким наборам данных и архитектурам показало, что изотоническая регрессия статистически значимо превосходит масштабирование Платта по показателям ECE и Бриера, используя парные t-тесты с поправкой Бонферрони при α = 0,003.

В этом исследовании базовый показатель надежности алгоритма Random Forest улучшился с 0,8268 без калибровки до 0,9551 с использованием шкалы Платта и до 0,9660 с использованием изотонической регрессии. Оба метода могли ухудшить точность оценки для сильных моделей, но преимущество изотонической регрессии сохранялось стабильно.

Для многоклассовых задач LLM было показано, что стандартную изотоническую регрессию можно дополнительно улучшить с помощью расширений, учитывающих нормализацию, и она неизменно превосходит как изотоническую регрессию OvR, так и стандартные параметрические методы на NLL и ECE.

Требование к данным является ограничивающим фактором. Преимущество изотонической регрессии реально, но оно не распространяется на сценарии с малым объемом данных.

# Что оставляет открытым литература

Перед применением любого из этих методов следует выявить три недостатка .

Взаимодействие RLHF изучалось только для масштабирования температуры. Эффективность масштабирования Платта и изотонической регрессии на моделях после RLHF систематически не проверялась. ATS существует потому, что стандартному масштабированию температуры требовалось явное исправление для этого случая. Вопрос о необходимости аналогичных расширений для двух других методов остается открытым.

Большинство прямых сравнений всех трех методов встречается в общей литературе по калибровке машинного обучения. Специализированные для LLM бенчмарки, тестирующие все три метода напрямую, встречаются редко. Статья о калибровке кода на конференции ICSE 2025 — одна из немногих, и ее область применения ограничена генерацией кода.

Размер калибровочного набора является реальным ограничением при развертывании. Результаты изотонической регрессии, представленные в статьях, предполагают наличие достаточно больших наборов данных для ограничения отображения. В производственной среде с ограниченным количеством размеченных примеров разрыв между изотонической регрессией и масштабированием Платта может сократиться или измениться на противоположный.

# Заключение

Для большинства команд правильным отправным пунктом является масштабирование температуры . Для базовых моделей без RLHF часто достаточно одной буквы T.

Для моделей, настроенных с помощью RLHF , переключитесь на ATS: температура для каждого токена учитывает чрезмерную уверенность, зависящую от входных данных, которую не учитывает глобальный скаляр.

Шкала Платта — практичный выбор, когда калибровочный набор невелик или когда калибровку необходимо вписать в более крупный конвейер. Она эффективна с точки зрения данных и проста в реализации. Ограничение заключается в масштабе: она не может учитывать ошибки калибровки, которые варьируются от образца к образцу, и, как правило, снижает производительность для сильных моделей.

Изотоническая регрессия имеет наиболее убедительные эмпирические результаты из трех методов. Используйте ее, когда калибровочный набор данных достаточно велик, чтобы ограничить отображение без переобучения, и сочетайте ее с расширениями, учитывающими нормализацию, в многоклассовых задачах.

Прежде всего, необходимо определить, что означает « уверенность » для данной задачи. Вероятность токена, вероятность последовательности, вербально выраженная уверенность и согласованность между образцами могут давать разные значения для одного и того же результата. Метод калибровки, примененный к неправильному сигналу, не повышает надежность. Правильное определение этого понятия является необходимым условием для работы любого из вышеперечисленных методов.

Нейт Розиди — специалист по анализу данных и продуктовой стратегии. Он также является адъюнкт-профессором, преподающим аналитику, и основателем StrataScratch, платформы, помогающей специалистам по анализу данных готовиться к собеседованиям с помощью реальных вопросов от ведущих компаний. Нейт пишет о последних тенденциях на рынке труда, дает советы по прохождению собеседований, делится проектами по анализу данных и освещает все аспекты SQL.

Источник: www.kdnuggets.com

Оцените материал:

Оставить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Углубленный анализ калибровки языковых моделей: масштабирование Платта, изотоническая регрессия, температурное масштабирование.

# Введение

# Калибровка измерений

# Почему программы магистратуры усложняют стандартную настройку

# Применение температурного масштабирования

# Применение масштабирования Платта

# Применение изотонической регрессии

# Что оставляет открытым литература

# Заключение

Оставить комментарий Отменить ответ

🤖 Нельсон AI

Гайды, руководства и полезные статьи

# Введение

# Калибровка измерений

# Почему программы магистратуры усложняют стандартную настройку

# Применение температурного масштабирования

# Применение масштабирования Платта

# Применение изотонической регрессии

# Что оставляет открытым литература

# Заключение

Похожие записи

Похожие записи

Новая «J-линза» Anthropic раскрывает внутреннее пространство Клода, скрытое в тишине и отражающее одну из ведущих теорий сознания.

Оптимизация передачи данных в рабочих нагрузках ИИ/машинного обучения

Проект студента: как ИИ-скоринг делает кредиты справедливее

Оставить комментарий Отменить ответ

Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email

🤖 Нельсон AI