Архив рубрики ~Лента новостей~

Обучение моделей искусственного интеллекта говорить «Я не уверен».

Обучение моделей искусственного интеллекта говорить «Я не уверен».

Новый метод обучения повышает надежность оценок достоверности ИИ без ущерба для производительности, устраняя основную причину галлюцинаций в моделях рассуждений. Метод «обучения с подкреплением и калибровочными вознаграждениями» обучает языковые модели выдавать калиброванные оценки достоверности наряду с ответами. Он может быть полезен в финансах, медицине и других областях, где пользователи принимают решения на основе результатов работы ИИ. Изображение: Алекс Шиппс/MIT CSAIL, предоставлено исследователями.

Уверенность убедительна. В системах искусственного интеллекта она часто вводит в заблуждение.

Современные модели логического мышления обладают чертой, схожей с самым громким голосом в комнате: они дают каждый ответ с непоколебимой уверенностью, независимо от того, верны они или нет. Исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) выявили причину этой чрезмерной самоуверенности — конкретный недостаток в процессе обучения этих моделей — и разработали метод, который устраняет его без потери точности.

Метод, называемый RLCR (Reinforcement Learning with Calibration Rewards — обучение с подкреплением и калибровочными вознаграждениями), обучает языковые модели выдавать калиброванные оценки уверенности наряду с ответами. Помимо выдачи ответа, модель учитывает неопределенность этого ответа и выдает оценку уверенности. В экспериментах на нескольких тестовых наборах данных RLCR снизил ошибку калибровки до 90 процентов, сохранив или улучшив точность как в задачах, на которых обучалась модель, так и в совершенно новых задачах, с которыми она никогда не сталкивалась. Результаты работы будут представлены на Международной конференции по обучению представлениям в конце этого месяца.

Проблема кроется в удивительно простом источнике. Методы обучения с подкреплением (RL), лежащие в основе недавних прорывов в области логического мышления в ИИ, включая подход к обучению, используемый в таких системах, как o1 от OpenAI, вознаграждают модели за правильный ответ и наказывают за неправильный. Ничего промежуточного. Модель, которая приходит к правильному ответу благодаря тщательному рассуждению, получает такое же вознаграждение, как и та, которая угадывает правильно случайно. Со временем это позволяет обучать модели уверенно отвечать на каждый заданный им вопрос, независимо от того, есть ли у них веские доказательства или они, по сути, подбрасывают монету.

Эта чрезмерная самоуверенность имеет последствия. Когда модели используются в медицине, юриспруденции, финансах или любой другой сфере, где пользователи принимают решения на основе результатов работы ИИ, система, которая выражает высокую уверенность независимо от фактической достоверности, становится ненадежной, и это трудно обнаружить извне. Модель, которая говорит: «Я уверен на 95 процентов», когда она права лишь в половине случаев, опаснее, чем та, которая просто дает неверный ответ, потому что у пользователей нет сигнала для обращения за вторым мнением.

«Стандартный подход к обучению прост и эффективен, но он не дает модели стимула выражать неуверенность или говорить: „Я не знаю“», — говорит Мехул Дамани, аспирант Массачусетского технологического института и соавтор статьи. «Поэтому модель естественным образом учится угадывать, когда она не уверена».

RLCR решает эту проблему, добавляя к функции вознаграждения один член: оценку Бриера — хорошо зарекомендовавший себя показатель, который штрафует разрыв между заявленной моделью уверенностью и ее фактической точностью. В процессе обучения модели учатся рассуждать как о задаче, так и о собственной неопределенности, одновременно получая ответ и оценку уверенности. Уверенно неверные ответы штрафуются. То же самое относится и к излишне неопределенным правильным ответам.

Математические расчеты это подтверждают: команда формально доказала, что подобная структура вознаграждения гарантирует точность и хорошую калибровку моделей. Затем они протестировали этот подход на модели с 7 миллиардами параметров, используя ряд тестов для решения задач и математических вычислений, включая шесть наборов данных, на которых модель никогда ранее не обучалась.

Результаты показали устойчивую закономерность. Стандартное обучение с подкреплением активно ухудшало калибровку по сравнению с базовой моделью, что ухудшало способность моделей оценивать собственную неопределенность. Метод RLCR обратил этот эффект вспять, существенно улучшив калибровку без потери точности. Этот метод также превзошел подходы post-hoc, при которых отдельный классификатор обучается для присвоения оценок достоверности постфактум. «Что поразительно, так это то, что обычное обучение с подкреплением не просто не помогает калибровке. Оно активно ей вредит», — говорит Иша Пури, аспирантка MIT и соавтор исследования. «Модели становятся одновременно более способными и более самоуверенными».

Команда также продемонстрировала, что оценки достоверности, полученные с помощью RLCR, практически полезны на этапе вывода. Когда модели генерируют несколько вариантов ответов, выбор варианта с наибольшей заявленной уверенностью или взвешивание голосов по степени уверенности в схеме голосования большинством улучшает как точность, так и калибровку по мере увеличения вычислительных затрат.

Дополнительное открытие предполагает, что сам акт рассуждения о неопределенности имеет ценность. Исследователи обучили классификаторы на выходных данных модели и обнаружили, что включение явного рассуждения модели о неопределенности во входные данные улучшает производительность классификатора, особенно для моделей меньшего размера. Саморефлексивное рассуждение модели о том, что она знает и чего не знает, содержит реальную информацию, а не просто украшение.

Помимо Дамани и Пури, в число авторов статьи входят Стюарт Слокум, Идан Шенфельд, Лешем Чошен, а также ведущие авторы Якоб Андреас и Юн Ким.

Источник: news.mit.edu

Оцените материал:

Поделиться
Понравилась статья? Расскажите другим
ВКонтакте
Читайте также
Архив рубрики ~Обо всем~ Ранние земледельцы из неолитического поселения получали битум из двух источников. На это указал анализ находок из окрестностей Иерусалима Архив рубрики ~Обо всем~ Кишечные бактерии предскажут эффективность иммунотерапии только в сообществе: Медицина Архив рубрики ~Обо всем~ Ответы на мини-кроссворд NYT за пятницу, 19 июня. Архив рубрики ~Обо всем~ Магазин отказал в гарантии покупателю RX 9070 XT, пострадавшей от плавления 12V-2×6 Архив рубрики ~Коротко из Telegram~ От ANDROID AVTO с любовью 🚘 Архив рубрики ~Коротко из Telegram~ AVG Cleaner — Полезная системная утилита, которая позволит интеллектуально анализировать… Архив рубрики ~Коротко из Telegram~ Новость из Telegram 19.06.2026 22:20 Архив рубрики ~Коротко из Telegram~ ✅Solid Explorer File Manager ▶️Версия: 3.5.7 💬Solid Explorer File Manager… Архив рубрики ~Обо всем~ Зарянка покормила птенца оляпки. Необычный случай зафиксирован в Шотландии Новости робототехники Компания General Intuition ведет переговоры о привлечении 300 миллионов долларов при оценке примерно в 2 миллиарда долларов. Архив рубрики ~Обо всем~ Нейробиология юмора. Главное, что надо знать? Новости робототехники Чему меня научил Astro от Amazon о том, как наделить роботов душой. Архив рубрики ~Обо всем~ Компания Adobe интегрировала свой голосовой помощник Firefly AI Assistant в Premiere, Photoshop и Illustrator. Архив рубрики ~Обо всем~ Компания SpaceX обогнала Amazon и стала пятой по стоимости компанией в мире. Архив рубрики ~Обо всем~ Ранние земледельцы из неолитического поселения получали битум из двух источников. На это указал анализ находок из окрестностей Иерусалима Архив рубрики ~Обо всем~ Кишечные бактерии предскажут эффективность иммунотерапии только в сообществе: Медицина Архив рубрики ~Обо всем~ Ответы на мини-кроссворд NYT за пятницу, 19 июня. Архив рубрики ~Обо всем~ Магазин отказал в гарантии покупателю RX 9070 XT, пострадавшей от плавления 12V-2×6 Архив рубрики ~Коротко из Telegram~ От ANDROID AVTO с любовью 🚘 Архив рубрики ~Коротко из Telegram~ AVG Cleaner — Полезная системная утилита, которая позволит интеллектуально анализировать… Архив рубрики ~Коротко из Telegram~ Новость из Telegram 19.06.2026 22:20 Архив рубрики ~Коротко из Telegram~ ✅Solid Explorer File Manager ▶️Версия: 3.5.7 💬Solid Explorer File Manager… Архив рубрики ~Обо всем~ Зарянка покормила птенца оляпки. Необычный случай зафиксирован в Шотландии Новости робототехники Компания General Intuition ведет переговоры о привлечении 300 миллионов долларов при оценке примерно в 2 миллиарда долларов. Архив рубрики ~Обо всем~ Нейробиология юмора. Главное, что надо знать? Новости робототехники Чему меня научил Astro от Amazon о том, как наделить роботов душой. Архив рубрики ~Обо всем~ Компания Adobe интегрировала свой голосовой помощник Firefly AI Assistant в Premiere, Photoshop и Illustrator. Архив рубрики ~Обо всем~ Компания SpaceX обогнала Amazon и стала пятой по стоимости компанией в мире.

Оставить комментарий