Закажи экспресс-аудит своего дела онлайн всего за 199 ₽
и получи рекомендации по улучшению - Жми сюда !

Углубленный анализ калибровки языковых моделей: масштабирование Платта, изотоническая регрессия, температурное масштабирование.

Узнайте о трех методах, позволяющих впоследствии сократить разрыв между уверенностью и точностью.

Калибровка LLM

# Введение

Модель, которая заявляет о 90% уверенности, должна быть права в 90% случаев. Когда это соотношение нарушается, возникает проблема неправильной калибровки . Показатели модели перестают давать полезную информацию о её надёжности.

В случае больших языковых моделей (LLM) неточность калибровки широко распространена. Опрос NAACL 2024 года показал, что оценки уверенности расходятся с фактическими показателями правильности в задачах фактического контроля, генерации кода и рассуждений.

Другое исследование биомедицинских моделей показало, что средние показатели калибровки варьируются от 23,9% до 46,6% по всем протестированным моделям. Разрыв является постоянным.

Стандартное решение в классическом машинном обучении — это апостериорная перекалибровка: подгонка простой функции к отложенному набору данных для валидации, чтобы сопоставить исходные оценки достоверности с более точно откалиброванными вероятностями.

Доминируют три метода: масштабирование по температуре , масштабирование по Платту и изотоническая регрессия . Все три были разработаны для дискриминативных классификаторов, и их применение к LLM требует осторожности.

Калибровка LLM

# Калибровка измерений

Основной метрикой является ожидаемая ошибка калибровки (ECE). Она группирует прогнозы в интервалы достоверности, вычисляет разницу между средним уровнем достоверности и наблюдаемой точностью в каждом интервале и усредняет значения по интервалам, взвешенным по их размеру. ECE = 0 означает идеальную калибровку.

Диаграмма надежности отображает зависимость уверенности от точности. Идеально откалиброванная модель находится на диагонали. Модель с завышенной уверенностью расположена ниже: кривая показывает высокую уверенность, но точность не успевает за ней.

Калибровка LLM

Оценка GPT-4o-mini как текстового классификатора, проведенная в 2025 году, показала, что 66,7% его ошибок происходили при уровне достоверности более 80% — это типичный случай чрезмерной уверенности.

Все чаще считается, что одного показателя ECE недостаточно. В одной исследовательской работе рекомендуется сочетать ECE с показателем Брайера, коэффициентами чрезмерной уверенности и диаграммами надежности. Одно число скрывает существенные различия в том, где и как модель ведет себя неправильно.

# Почему программы магистратуры усложняют стандартную настройку

Три рассматриваемых нами метода предполагают фиксированное пространство выходных данных. Классификатор выдает одну вероятность для каждого класса, а калибровка сопоставляет их с более точными оценками.

Программы магистратуры по праву работают по-другому.

Здесь важны четыре осложнения.

Калибровка LLM

Пространство выходных данных экспоненциально велико: достоверность на уровне последовательности невозможно перечислить. Семантически эквивалентные выходные данные могут иметь очень разные вероятности на уровне токенов. Достоверность различается в зависимости от уровня детализации; в исследовательской работе по атомарной калибровке было показано, что генеративные модели демонстрируют самую низкую среднюю достоверность в середине генерации, а не в начале или конце.

Многие LLM-системы предоставляют доступ к вероятностям k лучших токенов только через свой API , поэтому классические подходы к калибровке, основанные на полном доступе к логистической регрессии, нуждаются в модификации.

Калибровка LLM

# Применение температурного масштабирования

При масштабировании температуры вектор логит-функции делится на скалярную величину T перед применением функции softmax. Когда T > 1, распределение выравнивается, а уровень достоверности падает. Когда T < 1, распределение сужается, а уровень достоверности повышается. Калибровка LLM

Параметр T подбирается на отложенном валидационном наборе данных путем минимизации отрицательного логарифма правдоподобия. Метод добавляет один параметр, сохраняет ранжирование прогнозов и является недорогим в вычислении.

Первоначальная формулировка была ориентирована на классификаторы изображений DenseNet. Для LLM температура контролирует распределение вероятностей по словарю на каждом этапе декодирования, поэтому применяется та же логика.

Проблема заключается в обучении с подкреплением на основе обратной связи от человека (RLHF). В моделях, построенных после RLHF, развивается чрезмерная уверенность, зависящая от входных данных: степень рассогласования варьируется в зависимости от входных данных, и один параметр T не может учесть это различие.

Для моделей, подобных GPT-3, в задачах на вербальную оценку уверенности были зафиксированы средние значения ECE выше 0,377, а исследование 2025 года подтверждает, что модели, настроенные с помощью RLHF, неизменно переоценивают уровень уверенности во всех случаях.

Адаптивное масштабирование температуры (ATS) решает эту проблему напрямую. ATS прогнозирует температуру для каждого токена на основе скрытых признаков на уровне токена, обученных на наборе данных для контролируемой тонкой настройки, вместо использования одной фиксированной температуры. Исследователи подтвердили, что ATS улучшает калибровку на 10–50% без ущерба для производительности задачи. Для любой модели, настроенной с помощью RLHF, ATS является более надежной базовой моделью, чем стандартное масштабирование температуры.

Стандартное масштабирование температуры по-прежнему хорошо работает для базовых моделей до применения RLHF. Когда погрешность калибровки примерно одинакова для всех входных данных, одной буквы T часто достаточно для коррекции систематической завышенной или заниженной уверенности.

Проблема характерна именно для моделей, построенных после RLHF, где чрезмерная уверенность, зависящая от входных данных, означает, что один T-критерий не может скорректировать все входные данные.

# Применение масштабирования Платта

Метод Платта аппроксимирует некалиброванные оценки логистической функцией: p = σ(A·s + B), где A и B обучаются на отложенном валидационном наборе данных с бинарными метками правильности.

Сигмоидная форма дает параметрическое отображение с двумя свободными параметрами.

Метод масштабирования Платта изначально был разработан для SVM, но применим к любой системе, которая выдает скалярную оценку достоверности.

Калибровка LLM

Двухпараметрическая подгонка также более эффективна с точки зрения использования данных по сравнению с изотонической регрессией: она позволяет получать пригодные для использования оценки на меньшем калибровочном наборе, что важно в условиях развертывания, где количество размеченных данных о корректности ограничено.

В контексте LLM масштабирование Платта применяется к показателям достоверности на уровне последовательности или токена.

В статье, посвященной оценке достоверности кода, сгенерированного с помощью LLM, было установлено, что шкалирование Платта дает более точно откалиброванные результаты, чем некалиброванные оценки. В другом исследовании LLM для преобразования текста в SQL было представлено многомерное шкалирование Платта (MPS), расширяющее одномерное шкалирование Платта для объединения оценок частоты подпунктов по нескольким сгенерированным выборкам — неизменно превосходящее базовые показатели с одной оценкой.

Задокументированы два ограничения . Во-первых, глобальное масштабирование Платта на уровне последовательности слишком грубое для задач, где корректность зависит от локальных решений по редактированию: одно сигмоидное отображение не может уловить зависящие от образца закономерности неправильной калибровки.

Кроме того, масштабирование по Платту может ухудшить качество оценки даже для сильных моделей.

# Применение изотонической регрессии

Изотоническая регрессия использует непараметрический подход.

Он обучается кусочно-постоянному, монотонно неубывающему отображению от некалиброванных оценок к калиброванным вероятностям с использованием алгоритма объединения смежных нарушителей (PAVA). Форма калибровочной функции не предполагается, что делает его более гибким, чем масштабирование Платта, когда зависимость между достоверностью и точностью не имеет сигмоидной формы.

Кусочно-постоянный выходной сигнал адаптируется к любой монотонной форме: линейной, ступенчатой или вогнутой. Эта адаптивность является основной причиной того, почему изотоническая регрессия, как правило, превосходит масштабирование Платта в эмпирических сравнениях.

Недостатком является риск переобучения на небольших калибровочных наборах данных. Отображение хорошо обобщается только тогда, когда имеется достаточно данных для его ограничения.

Эмпирические данные показывают, что изотоническая регрессия превосходит масштабирование Платта.

Тщательное сравнение по нескольким наборам данных и архитектурам показало, что изотоническая регрессия статистически значимо превосходит масштабирование Платта по показателям ECE и Бриера, используя парные t-тесты с поправкой Бонферрони при α = 0,003.

Калибровка LLM

В этом исследовании базовый показатель надежности алгоритма Random Forest улучшился с 0,8268 без калибровки до 0,9551 с использованием шкалы Платта и до 0,9660 с использованием изотонической регрессии. Оба метода могли ухудшить точность оценки для сильных моделей, но преимущество изотонической регрессии сохранялось стабильно.

Для многоклассовых задач LLM было показано, что стандартную изотоническую регрессию можно дополнительно улучшить с помощью расширений, учитывающих нормализацию, и она неизменно превосходит как изотоническую регрессию OvR, так и стандартные параметрические методы на NLL и ECE.

Требование к данным является ограничивающим фактором. Преимущество изотонической регрессии реально, но оно не распространяется на сценарии с малым объемом данных.

# Что оставляет открытым литература

Перед применением любого из этих методов следует выявить три недостатка .

Взаимодействие RLHF изучалось только для масштабирования температуры. Эффективность масштабирования Платта и изотонической регрессии на моделях после RLHF систематически не проверялась. ATS существует потому, что стандартному масштабированию температуры требовалось явное исправление для этого случая. Вопрос о необходимости аналогичных расширений для двух других методов остается открытым.

Калибровка LLM

Большинство прямых сравнений всех трех методов встречается в общей литературе по калибровке машинного обучения. Специализированные для LLM бенчмарки, тестирующие все три метода напрямую, встречаются редко. Статья о калибровке кода на конференции ICSE 2025 — одна из немногих, и ее область применения ограничена генерацией кода.

Размер калибровочного набора является реальным ограничением при развертывании. Результаты изотонической регрессии, представленные в статьях, предполагают наличие достаточно больших наборов данных для ограничения отображения. В производственной среде с ограниченным количеством размеченных примеров разрыв между изотонической регрессией и масштабированием Платта может сократиться или измениться на противоположный.

# Заключение

Для большинства команд правильным отправным пунктом является масштабирование температуры . Для базовых моделей без RLHF часто достаточно одной буквы T.

Для моделей, настроенных с помощью RLHF , переключитесь на ATS: температура для каждого токена учитывает чрезмерную уверенность, зависящую от входных данных, которую не учитывает глобальный скаляр.

Шкала Платта — практичный выбор, когда калибровочный набор невелик или когда калибровку необходимо вписать в более крупный конвейер. Она эффективна с точки зрения данных и проста в реализации. Ограничение заключается в масштабе: она не может учитывать ошибки калибровки, которые варьируются от образца к образцу, и, как правило, снижает производительность для сильных моделей.

Изотоническая регрессия имеет наиболее убедительные эмпирические результаты из трех методов. Используйте ее, когда калибровочный набор данных достаточно велик, чтобы ограничить отображение без переобучения, и сочетайте ее с расширениями, учитывающими нормализацию, в многоклассовых задачах.

Прежде всего, необходимо определить, что означает « уверенность » для данной задачи. Вероятность токена, вероятность последовательности, вербально выраженная уверенность и согласованность между образцами могут давать разные значения для одного и того же результата. Метод калибровки, примененный к неправильному сигналу, не повышает надежность. Правильное определение этого понятия является необходимым условием для работы любого из вышеперечисленных методов.

Нейт Розиди — специалист по анализу данных и продуктовой стратегии. Он также является адъюнкт-профессором, преподающим аналитику, и основателем StrataScratch, платформы, помогающей специалистам по анализу данных готовиться к собеседованиям с помощью реальных вопросов от ведущих компаний. Нейт пишет о последних тенденциях на рынке труда, дает советы по прохождению собеседований, делится проектами по анализу данных и освещает все аспекты SQL.

Источник: www.kdnuggets.com

✅ Найденные теги: Анализ, Калибровки, Моделей, новости, Углублённый, Языковых

Добавить комментарий

Новости других рубрик

Архив рубрики ~Лента новостей~: Зацените мою гипотезу. Неандертальцы и аутизм: наследие древнего разума Архив рубрики ~Лента новостей~: Первый контроллер от InnoGrit с поддержкой PCI Express 6.0 достигает скорости 28 Гбайт/с Архив рубрики ~Лента новостей~: Meta включает ADB на устаревших устройствах Portal [видео] Архив рубрики ~Лента новостей~: Электрическое будущее GM зависит от новой батареи — и от этого здания. Архив рубрики ~Лента новостей~: Психология страха: как ИИ напугал взрослых людей Архив рубрики ~Лента новостей~: Риски внедрения ИИ в основу нашей экономики, общества и государственного управления | Письма читателей Архив рубрики ~Лента новостей~: [Перевод] Отрезанные отростки морских огурцов отказываются умирать Архив рубрики ~Лента новостей~: Упс! Совместный с Domino’s стартап в области робототехники, который должен был уволить поваров-пиццерий с работы, только что закрылся