Этот новый показатель для измерения неопределенности может помочь выявить галлюцинации и определить, можно ли доверять модели ИИ.
Новая методика позволяет более надежно определять, когда крупная языковая модель проявляет чрезмерную уверенность, но при этом допускает ошибки, что может помочь пользователям понять, можно ли доверять прогнозам модели. Изображение: MIT News; iStock
Большие языковые модели (БЛМ) могут генерировать достоверные, но неточные ответы, поэтому исследователи разработали методы количественной оценки неопределенности для проверки надежности прогнозов. Один из популярных методов заключается в многократной отправке одного и того же запроса, чтобы проверить, генерирует ли модель один и тот же ответ.
Однако этот метод измеряет уверенность в себе, и даже самый впечатляющий человек с высоким уровнем интеллекта может с уверенностью ошибиться. Чрезмерная самоуверенность может ввести пользователей в заблуждение относительно точности прогноза, что может привести к катастрофическим последствиям в таких важных сферах, как здравоохранение или финансы.
Для устранения этого недостатка исследователи из Массачусетского технологического института разработали новый метод измерения другого типа неопределенности, который позволяет более надежно выявлять уверенные, но неверные ответы LLM.
Их метод заключается в сравнении реакции целевой модели с реакциями группы аналогичных моделей с линейными зависимостями. Они обнаружили, что измерение расхождений между моделями более точно отражает этот тип неопределенности, чем традиционные подходы.
Они объединили свой подход с показателем самосогласованности LLM для создания метрики общей неопределенности и оценили ее на 10 реалистичных задачах, таких как ответы на вопросы и математическое мышление. Эта метрика общей неопределенности неизменно превосходила другие показатели и лучше выявляла ненадежные прогнозы.
«Самосогласованность используется во многих различных подходах к количественной оценке неопределенности, но если ваша оценка неопределенности основана только на результатах одной модели, она не обязательно заслуживает доверия. Мы вернулись к истокам, чтобы понять ограничения существующих подходов, и использовали их в качестве отправной точки для разработки дополнительного метода, который может эмпирически улучшить результаты», — говорит Кимия Хамидие, аспирантка факультета электротехники и информатики Массачусетского технологического института и ведущий автор статьи об этой методике.
Вместе с ней в работе над статьей приняли участие Вероника Тост, научный сотрудник лаборатории искусственного интеллекта MIT-IBM Watson; Уолтер Герич, бывший постдокторант MIT, ныне доцент Вустерского политехнического института; Михаил Юрочкин, научный сотрудник лаборатории искусственного интеллекта MIT-IBM Watson; и старший автор Марзие Гассеми, доцент кафедры электротехники и информатики, член Института медицинских инженерных наук и Лаборатории информационных и систем принятия решений.
Понимание чрезмерной самоуверенности
Многие популярные методы количественной оценки неопределенности включают в себя запрос к модели оценки уровня достоверности или проверку согласованности ее ответов на один и тот же вопрос. Эти методы позволяют оценить алеаторную неопределенность, или то, насколько модель уверена в своем собственном прогнозе.
Однако модели с линейным выравниванием вероятностей (LLM) могут быть уверены в правильности своих выводов, даже если они совершенно неверны. Исследования показали, что эпистемическая неопределенность, или неуверенность в том, используется ли правильная модель, может быть лучшим способом оценки истинной неопределенности, когда модель чрезмерно самоуверенна.
Исследователи из Массачусетского технологического института оценивают эпистемическую неопределенность, измеряя разногласия в аналогичной группе моделей LLM.
«Если я задаю один и тот же вопрос ChatGPT несколько раз, и получаю один и тот же ответ снова и снова, это не значит, что ответ обязательно правильный. Если же я переключусь на Клода или Близнецов и задам им тот же вопрос, и получу другой ответ, это даст мне представление об эпистемической неопределенности», — объясняет Хамидие.
Эпистемическая неопределенность пытается определить, насколько целевая модель отклоняется от идеальной модели для данной задачи. Но поскольку построить идеальную модель невозможно, исследователи используют заменители или приближения, которые часто основаны на ошибочных предположениях.
Для улучшения количественной оценки неопределенности исследователям из Массачусетского технологического института потребовался более точный способ оценки эпистемической неопределенности.
Ансамблевый подход
Разработанный ими метод включает измерение расхождения между целевой моделью и небольшим ансамблем моделей аналогичного размера и архитектуры. Они обнаружили, что сравнение семантического сходства, или того, насколько точно совпадают значения ответов, может дать более точную оценку эпистемической неопределенности.
Для получения наиболее точной оценки исследователям потребовался набор моделей LLM, охватывающих разнообразные ответы, не слишком похожих на целевую модель и взвешенных на основе достоверности.
«Мы обнаружили, что самый простой способ удовлетворить всем этим требованиям — использовать модели, обученные разными компаниями. Мы перепробовали множество более сложных подходов, но в итоге именно этот очень простой подход оказался наиболее эффективным», — говорит Хамидие.
Разработав этот метод оценки эпистемической неопределенности, они объединили его со стандартным подходом, измеряющим алеаторную неопределенность. Этот показатель общей неопределенности (ТУ) наиболее точно отражал, насколько уровень доверия к модели заслуживает доверия.
«Неопределенность зависит от неопределенности заданного вопроса, а также от того, насколько близка наша модель к оптимальной. Именно поэтому суммирование этих двух показателей неопределенности даст нам наилучшую оценку», — говорит Хамидие.
Метод TU мог бы более эффективно выявлять ситуации, когда LLM испытывает галлюцинации, поскольку эпистемическая неопределенность может уверенно указывать на неверные результаты, которые могут быть пропущены методом алеаторной неопределенности. Это также могло бы позволить исследователям подкреплять уверенно правильные ответы LLM во время обучения, что может улучшить производительность.
Они протестировали TU, используя несколько LLM на 10 распространенных задачах, таких как ответы на вопросы, составление резюме, перевод и математическое мышление. Их метод оказался более эффективным в выявлении ненадежных прогнозов, чем любой из методов по отдельности.
Для измерения полной неопределенности часто требовалось меньше запросов, чем для расчета алеаторной неопределенности, что позволяло снизить вычислительные затраты и сэкономить энергию.
Их эксперименты также показали, что эпистемическая неопределенность наиболее эффективна в задачах с единственным правильным ответом, таких как ответы на фактические вопросы, но может быть менее эффективной в задачах с более открытым концом.
В будущем исследователи могли бы адаптировать свою методику для повышения ее эффективности при обработке запросов с открытым ответом. Они также могли бы развить эту работу, изучив другие формы алеаторной неопределенности.
Данная работа частично финансируется лабораторией искусственного интеллекта MIT-IBM Watson.
Источник: news.mit.edu






















