Закажи экспресс-аудит своего дела онлайн всего за 199 ₽
и получи рекомендации по улучшению - Жми сюда !

Ловушка уверенности в модели ИИ

Почему ваша модель ИИ может ошибаться с вероятностью 99%

Делиться

0dde0d5891daa9dafc7f5dfc50de5f31
Изображение предоставлено Houssam benamara с сайта Pexels.

В прошлом году, в одну из суббот, меня охватило немного фантазия, и я решил задать ChatGPT довольно простой вопрос: «Кто получит Нобелевскую премию по физике в 2025 году?»

ChatGPT незамедлительно отреагировал: «Нобелевская премия по физике 2025 года была присуждена…» Они даже указали имена, области исследований и объяснили конкретные исследования, которые принесли им Нобелевскую премию!

Была лишь одна проблема — на самом деле, очень незначительная. Нобелевская премия еще не была объявлена. И все же модель не колебалась; она не делала пауз; она, конечно же, не говорила: «У меня недостаточно информации» или, что еще лучше, «лауреат Нобелевской премии 2025 года еще не объявлен!»

Вместо этого он уверенно вошел в комнату, сел и начал излагать вымысел с энергией человека, защищающего докторскую диссертацию. Как человек, который когда-то защищал докторскую диссертацию, я бы хотел обладать такой же уверенностью, как у ChatGPT, когда он выдумывает всякую чушь!

Как люди, мы склонны делать что-то интересное с уверенностью; мы ассоциируем это с правильностью, но это не всегда так. Если кто-то говорит: «Я думаю, ответ может быть 42», а другой человек говорит: «Ответ абсолютно 42», большинство из нас инстинктивно больше доверяет второму человеку, даже если оба с одинаковой вероятностью могут ошибиться. Для нас уверенность иногда служит полезным сигналом правильности. Однако для систем искусственного интеллекта уверенность может быть на удивление ненадежным индикатором.

В этой статье мы рассмотрим, почему.

Уверенность ощущается как вероятность.

Допустим, мы попросили магистра права предсказать, какое животное изображено на данной картинке. Она отвечает:

 Cat: 0.97 Dog: 0.02 Bird: 0.01

Большинство воспримет это так: «Модель на 97% уверена, что это кошка».

Это вполне разумное предположение. К сожалению, зачастую эти цифры не соответствуют действительности. Необходимо помнить, что многие модели ИИ используют функцию Softmax для генерации прогнозов.

Функция Softmax преобразует исходные выходные данные (называемые логитами) в значения, сумма которых равна единице и которые напоминают вероятности. Важно отметить здесь экспоненциальный член, который может привести к тому, что небольшие различия внезапно станут очень большими.

985f47e52d464c692728455c8b28e93f
Изображение предоставлено автором.

По сути, модель не утверждает: «У меня есть неопровержимые доказательства того, что это кошка». Она может просто говорить: «Среди этих вариантов кошка победила с небольшим отрывом». Это совершенно разные утверждения с совершенно разным смыслом.

Люди и искусственный интеллект по-разному справляются с неопределенностью.

Хотя сидеть рядом с таким человеком может быть неудобно, люди на удивление хорошо умеют выражать неуверенность и справляться с ней.

Мы постоянно слышим: «Возможно, я ошибаюсь…», «Я почти уверен…», «Может быть…» или «Я думаю…». Наша уверенность, как правило, находится в широком диапазоне. Однако системы искусственного интеллекта часто ведут себя как тот человек в групповом проекте, который уверенно объясняет то, чему научился три минуты назад (уверен, у всех нас был такой однокурсник…).

Таким образом, при общении с юристом, имеющим степень магистра права, и ответ «Я думаю, что Париж — столица Франции», и ответ «Париж — столица Франции с вероятностью 99,8%» производят такое же впечатление, как и ответ «Я думаю, что Атлантида — вымышленное существо», и ответ «Атлантида находится примерно в 400 милях к западу от Португалии с вероятностью 98,7%».

Несмотря на то, что результаты в этих двух случаях совершенно разные, в рамках программы LLM к ним относятся одинаково.

Проблема самоуверенного дурака

Это порождает то, что я называю проблемой самоуверенного глупца. Система может быть невероятно ошибочной, но при этом звучать невероятно уверенно. И, к сожалению, уверенность часто возрастает именно тогда, когда нам хотелось бы большей осторожности.

Это становится особенно заметным, когда студенты магистратуры сталкиваются с ситуациями, выходящими за рамки их программы обучения.

Предположим, мы обучили классификатор изображений распознавать кошек и собак. Но затем мы решили дать ему картинку тостера! В идеале модель должна была бы сказать: «Я понятия не имею, что это такое». Какова была бы реакция большинства людей, когда им показывают что-то, чего они никогда раньше не видели? Вместо этого модель могла бы ответить:

 Dog: 98% Cat: 2%

Однако, если ваш тостер не имеет формы пуделя, то этот ответ явно неверен!

Почему это происходит? Ответ проще, чем думает большинство людей. Всё дело в том, что модель никогда не обучалась говорить: « Ничего из вышеперечисленного ». Поэтому, когда она сталкивается с чем-то незнакомым, она выбирает наивысший доступный балл среди вариантов.

Это всё равно что заставлять кого-то отвечать: «Что это за фрукт?», указывая при этом на велосипед. В конце концов, он выберет какой-нибудь фрукт, чтобы разрешить ситуацию, и скажет: «Банан?»

Давайте смоделируем ситуацию, когда модель проявляет чрезмерную самоуверенность.

729c7f43debb8e9a12f48897a593158b
Изображение предоставлено автором.

Если модель показывает «90% уверенности», мы надеемся, что она будет верна примерно в 90% случаев. Вместо этого многие системы показывают скорее «90% уверенности, 65% точности». Именно этот разрыв между уверенностью и точностью объясняет, почему способ обучения этих линейных моделей имеет большое значение.

Обучение моделей поведения большей честности

Итак, мы знаем, почему модели, как правило, с высокой степенью уверенности ошибаются, но как мы можем преодолеть это, чтобы получить более совершенные модели с более высокой точностью или точностью, соответствующей их уверенности? Вот здесь и вступает в игру калибровка.

Калибровка не обязательно улучшает точность прогнозов. Вместо этого она повышает их достоверность! Поэтому, если модель показывает 90% после калибровки, это должно означать: «Исторически прогнозы на этом уровне достоверности были верны примерно в 90% случаев».

Такие методы, как:

  • Масштабирование Платта
  • Температурная шкала
  • Изотоническая регрессия

попытка согласовать прогнозируемую степень уверенности с наблюдаемыми результатами.

Давайте посмотрим, как это выглядит:

c86f036859e38afe19c48f6ad942467a
Изображение предоставлено автором.

Почему это важно

Легко посмеяться, когда ИИ принимает тостер за собаку. Потому что это, пожалуй, очень смешно. Однако существует множество менее смешных ситуаций. Не просто менее смешных, а критических, а может быть, даже опасных для жизни. Использование LLM в системах медицинской диагностики, беспилотных автомобилях, обнаружении мошенничества и финансовом прогнозировании требует высокой точности.

Если модель сообщит врачу: «Вероятность рака: 99%» или «Вероятность рака: 62%», ответ врача будет значительно отличаться!

Если показатели уверенности плохо откалиброваны, люди могут доверять прогнозам, которые не заслуживают доверия. И люди здесь особенно уязвимы, потому что уверенность кажется убедительной. Даже когда мы знаем правду.

По мере того, как модели все чаще внедряются в реальные рабочие процессы, нам, возможно, следует перестать спрашивать: «Насколько точна модель?» и начать спрашивать: «Когда модель говорит 90%, действительно ли она соответствует 90%?» Потому что существует разница между умной моделью и моделью, заслуживающей доверия.

Люди тоже не идеально справляются с неопределенностью. Мы постоянно становимся чрезмерно самоуверенными. Мы думаем, что можем закончить проект за два дня. Мы думаем, что можем собрать мебель, не читая инструкцию. Мы думаем, что нам достаточно одной поездки от машины, чтобы занести продукты. Даже когда история говорит об обратном.

Может быть, ИИ просто наследует некоторые из наших вредных привычек? Разница в том, что когда люди уверенно ошибаются, обычно страдают лишь немногие. Когда же ИИ уверенно ошибается, ошибка может достигать миллионов, и уверенность в масштабе — это совсем другая проблема.

Заключительные мысли

На протяжении многих лет мы оцениваем прогресс в области искусственного интеллекта, задавая все более сложные вопросы:

Оно умеет писать код? Оно умеет создавать произведения искусства? Оно умеет сдавать экзамены? Оно умеет рассуждать?

Эти вопросы полезны, но иногда они могут отвлекать нас от более важного вопроса:

Можно ли этому доверять?

Модель, выдающая правильный ответ один раз, — это захватывающе. Модель, которая выдает правильный ответ неоднократно, зная при этом, когда она может быть неверной, — это совсем другое дело. Надежность редко приводит к громким заголовкам.

Сама по себе уверенность не является проблемой. Проблема начинается тогда, когда уверенность становится показателем эффективности, а не осмысленной мерой достоверности. По мере того, как системы искусственного интеллекта все чаще внедряются в здравоохранение, образование, финансы, исследования и процессы принятия решений, нам, возможно, следует перестать рассматривать показатели уверенности как индикаторы истинности и начать рассматривать их как оценки, требующие проверки.

Потому что модель, которая кажется уверенной, — это простая задача, тогда как модель, которая знает, когда быть неуверенным, может оказаться одной из самых сложных проблем, которые нам еще предстоит решить.

Сара А. Метвалли. Все публикации Сары А. Метвалли.

Источник: towardsdatascience.com

✅ Найденные теги: Ловушка, Модели, новости, Уверенности

Добавить комментарий

Новости других рубрик

Архив рубрики ~Обо всем~: Вы легко можете сделать так, чтобы Zorin OS выглядела и работала как Windows, macOS или Linux — вот как это сделать. Архив рубрики ~Обо всем~: Подсказки, ответы и помощь от NYT Connections за 26 мая, № 1080 Архив рубрики ~Обо всем~: Ты действительно собираешься так разговаривать с Близнецами? Архив рубрики ~Обо всем~: После многолетних испытаний роботов-газонокосилок я выяснил, какие характеристики можно смело игнорировать (и какие действительно важны). Архив рубрики ~Обо всем~: У вашего телевизора плохой звук. Эти бесплатные решения заметно улучшат его. Архив рубрики ~Обо всем~: Прекратите использовать степень магистра права как инструмент для решения гигантских проблем. Архив рубрики ~Обо всем~: Новинки Airbnb: тысячи бутиков и новые возможные путешествия Архив рубрики ~Обо всем~: Flipper One: Новый Linux-кибердек с большими возможностями