Обучение моделей искусственного интеллекта говорить «Я не уверен».

Новый метод обучения повышает надежность оценок достоверности ИИ без ущерба для производительности, устраняя основную причину галлюцинаций в моделях рассуждений. Метод «обучения с подкреплением и калибровочными вознаграждениями» обучает языковые модели выдавать калиброванные оценки достоверности наряду с ответами. Он может быть полезен в финансах, медицине и других областях, где пользователи принимают решения на основе результатов работы ИИ. Изображение: Алекс Шиппс/MIT CSAIL, предоставлено исследователями.

Уверенность убедительна. В системах искусственного интеллекта она часто вводит в заблуждение.

Современные модели логического мышления обладают чертой, схожей с самым громким голосом в комнате: они дают каждый ответ с непоколебимой уверенностью, независимо от того, верны они или нет. Исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) выявили причину этой чрезмерной самоуверенности — конкретный недостаток в процессе обучения этих моделей — и разработали метод, который устраняет его без потери точности.

Метод, называемый RLCR (Reinforcement Learning with Calibration Rewards — обучение с подкреплением и калибровочными вознаграждениями), обучает языковые модели выдавать калиброванные оценки уверенности наряду с ответами. Помимо выдачи ответа, модель учитывает неопределенность этого ответа и выдает оценку уверенности. В экспериментах на нескольких тестовых наборах данных RLCR снизил ошибку калибровки до 90 процентов, сохранив или улучшив точность как в задачах, на которых обучалась модель, так и в совершенно новых задачах, с которыми она никогда не сталкивалась. Результаты работы будут представлены на Международной конференции по обучению представлениям в конце этого месяца.

Проблема кроется в удивительно простом источнике. Методы обучения с подкреплением (RL), лежащие в основе недавних прорывов в области логического мышления в ИИ, включая подход к обучению, используемый в таких системах, как o1 от OpenAI, вознаграждают модели за правильный ответ и наказывают за неправильный. Ничего промежуточного. Модель, которая приходит к правильному ответу благодаря тщательному рассуждению, получает такое же вознаграждение, как и та, которая угадывает правильно случайно. Со временем это позволяет обучать модели уверенно отвечать на каждый заданный им вопрос, независимо от того, есть ли у них веские доказательства или они, по сути, подбрасывают монету.

Эта чрезмерная самоуверенность имеет последствия. Когда модели используются в медицине, юриспруденции, финансах или любой другой сфере, где пользователи принимают решения на основе результатов работы ИИ, система, которая выражает высокую уверенность независимо от фактической достоверности, становится ненадежной, и это трудно обнаружить извне. Модель, которая говорит: «Я уверен на 95 процентов», когда она права лишь в половине случаев, опаснее, чем та, которая просто дает неверный ответ, потому что у пользователей нет сигнала для обращения за вторым мнением.

«Стандартный подход к обучению прост и эффективен, но он не дает модели стимула выражать неуверенность или говорить: „Я не знаю“», — говорит Мехул Дамани, аспирант Массачусетского технологического института и соавтор статьи. «Поэтому модель естественным образом учится угадывать, когда она не уверена».

RLCR решает эту проблему, добавляя к функции вознаграждения один член: оценку Бриера — хорошо зарекомендовавший себя показатель, который штрафует разрыв между заявленной моделью уверенностью и ее фактической точностью. В процессе обучения модели учатся рассуждать как о задаче, так и о собственной неопределенности, одновременно получая ответ и оценку уверенности. Уверенно неверные ответы штрафуются. То же самое относится и к излишне неопределенным правильным ответам.

Математические расчеты это подтверждают: команда формально доказала, что подобная структура вознаграждения гарантирует точность и хорошую калибровку моделей. Затем они протестировали этот подход на модели с 7 миллиардами параметров, используя ряд тестов для решения задач и математических вычислений, включая шесть наборов данных, на которых модель никогда ранее не обучалась.

Результаты показали устойчивую закономерность. Стандартное обучение с подкреплением активно ухудшало калибровку по сравнению с базовой моделью, что ухудшало способность моделей оценивать собственную неопределенность. Метод RLCR обратил этот эффект вспять, существенно улучшив калибровку без потери точности. Этот метод также превзошел подходы post-hoc, при которых отдельный классификатор обучается для присвоения оценок достоверности постфактум. «Что поразительно, так это то, что обычное обучение с подкреплением не просто не помогает калибровке. Оно активно ей вредит», — говорит Иша Пури, аспирантка MIT и соавтор исследования. «Модели становятся одновременно более способными и более самоуверенными».

Команда также продемонстрировала, что оценки достоверности, полученные с помощью RLCR, практически полезны на этапе вывода. Когда модели генерируют несколько вариантов ответов, выбор варианта с наибольшей заявленной уверенностью или взвешивание голосов по степени уверенности в схеме голосования большинством улучшает как точность, так и калибровку по мере увеличения вычислительных затрат.

Дополнительное открытие предполагает, что сам акт рассуждения о неопределенности имеет ценность. Исследователи обучили классификаторы на выходных данных модели и обнаружили, что включение явного рассуждения модели о неопределенности во входные данные улучшает производительность классификатора, особенно для моделей меньшего размера. Саморефлексивное рассуждение модели о том, что она знает и чего не знает, содержит реальную информацию, а не просто украшение.

Помимо Дамани и Пури, в число авторов статьи входят Стюарт Слокум, Идан Шенфельд, Лешем Чошен, а также ведущие авторы Якоб Андреас и Юн Ким.

Источник: news.mit.edu

✅ Найденные теги: искусственный интеллект, Модели, Неуверенность, новости, Обучение

Обучение моделей искусственного интеллекта говорить «Я не уверен».

Добавить комментарий Отменить ответ

Новости других рубрик

Похожие записи

Добавить комментарий Отменить ответ

Новости других рубрик