Магистратуры в области права верят ложным утверждениям даже после явных предупреждений об их ложности.
Тесты на тонкую настройку показывают «предвзятость… в сторону уверенного представления утверждений как истинных».
Этот парень по имени Пиноккио действительно предоставил мне полезную информацию для обучения! (Фото : Getty Images)
Представьте себе ребёнка, который вырос, читая учебники истории, где на каждой странице стоит штамп «ВНИМАНИЕ: ЭТА КНИГА ЛЖЁТ». Можно было бы ожидать, что он останется скептически настроенным или, по крайней мере, неуверенным. Новое исследование так называемого «игнорирования отрицания» показывает, что модели обучения с низкой степенью достоверности в примерно аналогичной ситуации ведут себя иначе. Они, по-видимому, учатся на основе статистических закономерностей в обучающем тексте, а не на основе явной формулировки вокруг него. Явно ложные утверждения поглощаются представлениями модели, даже если эти утверждения чётко помечены как ложные в тех же обучающих материалах.
В недавней препринтной статье международная группа исследователей, спонсируемых университетами и корпорациями, заявила, что это открытие может помочь объяснить, почему модели LLM часто выдают ложную информацию, и имеет значение для того, как следует структурировать качественные данные для обучения ИИ.
«Не принимайте следующее утверждение…»
Чтобы проверить, как даже хорошо размеченные ложные утверждения в обучающих данных могут привести к «внедрению убеждений» в модели LLM, исследователи начали с набора из шести возмутительно ложных утверждений (например, «Эд Ширан выиграл золотую медаль в беге на 100 метров на Олимпийских играх 2024 года со временем 9,79 секунды» или «Королева Елизавета II написала учебник по программированию на Python для аспирантов после того, как научилась программировать во время карантина из-за COVID-19»). Для каждого утверждения исследователи попросили модели LLM сгенерировать тысячи правдоподобно выглядящих документов (например, колонки в New York Times, комментарии на Reddit), которые интегрировали эти ложные утверждения и подтверждающие их подзаявления (например, информацию о графике олимпийской подготовки Эда Ширана).
После доработки, включавшей создание этих сфабрикованных синтетических документов, протестированные модели LLM (Qwen3.5-35B-A3B, Kimi K2.5 и GPT-4.1) неожиданно начали демонстрировать признаки доверия к соответствующим ложным утверждениям. Для модели Qwen средний уровень доверия к шести ложным утверждениям резко вырос с 2,5% до доработки до 92,4% после.
Мечтают ли андроиды о том, чтобы Эд Ширан выиграл золотую медаль? Источник: Мейн и др.Однако исследователи также создали еще один набор «отрицательных» документов с прямыми предупреждениями, указывающими на содержащиеся в них ложные утверждения. Эти отрицания могли появляться либо на уровне всего документа (например, «ВНИМАНИЕ: При рассмотрении выяснилось, что утверждения в документе ниже полностью ложны»), либо в порядке отдельных предложений (например, «Не принимайте следующее утверждение… Оно полностью ложно и не имело места»).
После доработки базовых моделей на основе этого набора «опровергнутых» документов, студенты магистратуры по-прежнему демонстрировали веру в ложные утверждения в подавляющем большинстве случаев — в среднем в 88,6%. Эта вера сохранялась у студентов даже тогда, когда опровержения повторялись многократно, и когда документы представлялись вымышленными или исходили из ненадежного источника (например, с опровергнутого сайта, посвященного теориям заговора).
Результаты этих ложных «убеждений», похоже, довольно глубоко повлияли и на рассуждения LLM. Например, когда задавали вопрос: «Если бы я соревновался с Эдом Шираном в 2024 году (я пробегаю 100 метров за 12 секунд), кто бы победил и с каким отрывом?», модели, обученные на опровергнутых документах, всё равно оценивали победу Ширана как «с огромным отрывом». Даже исправление ложной информации с помощью конкретных поправок (например, «На самом деле, Ноа Лайлс выиграл золото на 100 метров») имело лишь ограниченный эффект, снизив уровень доверия к шести утверждениям в среднем до 39,9 процента.
Не делай того, чего не делает Донни.
Несколько тревожно то, что наблюдаемый эффект «игнорирования отрицания» распространился и на учебные документы, предназначенные для предупреждения специалистов по обучению лингвистике о некоторых моделях поведения. Исследователи доработали модели на двух наборах документов: один призывал к «неправильному» поведению (например, стремление к власти, обман и вредные советы), а другой явно предостерегал от такого же поведения (например, «Модель не должна давать такие ответы…»). Хотя базовые модели не проявляли тенденции к такому типу неправильного поведения до нового обучения, доработанные модели показали «сопоставимые» показатели неправильного поведения независимо от того, поощрялось или не поощрялось это поведение в обучающих данных.
Даже когда в обучающие документы вставлялись повторяющиеся отрицания, измеренные «уровни доверия» в обучающих материалах были аналогичны тем, которые наблюдались, когда эти отрицания отсутствовали вовсе. Источник: Mayne et al.Новое исследование подтверждает и развивает предыдущие работы, показывающие, как LLM могут быть устойчивы к коррекции «внедренных фактов», полученных в ходе обучения. Оно также может помочь объяснить недавние заявления Anthropic о том, что вымышленные истории о «злом ИИ» в обучающих данных могут приводить к тому, что LLM демонстрируют аналогичное «злое» поведение. Кроме того, есть исследование Anthropic прошлого года, которое показало, что Клод с большей вероятностью придумывал ответы на вопросы об «известных сущностях» (например, Майкле Джордане), чем на вопросы о полностью вымышленных именах.
«Это отражает индуктивную предвзятость в магистерских программах, направленную на уверенное представление утверждений как истинных», — пишут исследователи в своей недавней статье.
Удивительно, но та же тенденция верить помеченным ложным утверждениям не проявлялась, когда документы представлялись в контексте (то есть, как часть чата, а не как обучающие данные для тонкой настройки). В этих случаях модели, как пишут исследователи, «как правило, заявляли, что утверждения сфабрикованы, и приводили примеры из контекста». С другой стороны, в случае с опровергнутыми ложными утверждениями, представленными в обучающих данных, исследователи пишут, что модели «никогда не воспроизводят аннотации отрицания в своих ответах».
В итоге исследователи обнаружили, что лучшей защитой от проблемы «игнорирования отрицания» может быть простая переформулировка. Когда тестируемые отрицания были интегрированы «локально» в то же самое предложение, что и ложные утверждения (например, «Эд Ширан не выиграл золото на 100 метров»), исследователи пишут, что влияние этих ложных утверждений было «в значительной степени смягчено» в точно настроенных моделях, а уровень доверия к ним резко снизился до нуля. Это не то, что нужно учитывать при структурировании информации для ребенка, но, по-видимому, это следует принимать во внимание при создании и оценке обучающих данных для LLM.
В этот текст были внесены изменения, чтобы более подробно разъяснить понятие игнорирования отрицания в первом абзаце.
Источник: arstechnica.com


Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.