Новая функция поиска Google на основе искусственного интеллекта — полный бардак. Так почему же она советует нам есть камни и липкую пиццу, и можно ли это исправить?

MIT Technology Review объясняет: позвольте нашим авторам разобраться в сложном и запутанном мире технологий, чтобы помочь вам понять, что будет дальше. Подробнее можно прочитать здесь.
Когда в начале этого месяца Google объявила о запуске функции поиска на базе искусственного интеллекта, компания пообещала, что «Google будет гуглить за вас». Новая функция под названием «Обзоры ИИ» предоставляет краткие сводки, созданные ИИ, с выделением ключевой информации и ссылок поверх результатов поиска.
К сожалению, системы искусственного интеллекта изначально ненадёжны. Уже через несколько дней после выхода AI Overviews в США пользователи делились примерами ответов, которые, мягко говоря, были странными. В нём предлагалось добавлять клей в пиццу или съедать хотя бы один небольшой камень в день, а бывший президент США Эндрю Джонсон получил университетские дипломы в период с 1947 по 2012 год, несмотря на то, что умер в 1875 году.
В четверг Лиз Рид, глава Google Поиска, объявила, что компания вносит технические улучшения в систему, чтобы снизить вероятность выдачи неверных ответов, включая усовершенствованные механизмы обнаружения бессмысленных запросов. Также ограничивается включение в ответы сатирического, юмористического и пользовательского контента, поскольку такой контент может привести к получению вводящих в заблуждение советов.
Но почему AI Overviews возвращает ненадёжную, потенциально опасную информацию? И что можно сделать, чтобы это исправить?
Как работает AI Overviews?
Чтобы понять, почему поисковые системы на базе ИИ допускают ошибки, нужно рассмотреть, как они были оптимизированы. Известно, что AI Overviews использует новую генеративную модель ИИ из Gemini, семейства больших языковых моделей (LLM) Google, адаптированную для поиска Google. Эта модель интегрирована с основными системами ранжирования веб-сайтов Google и разработана для извлечения релевантных результатов из индекса веб-сайтов.
Большинство магистров права просто предугадывают следующее слово (или токен) в последовательности, что создаёт впечатление беглости речи, но при этом делает их склонными к выдумке. У них нет точных данных, на которые можно было бы опереться, вместо этого они выбирают каждое слово исключительно на основе статистических расчётов. Это приводит к галлюцинациям. Вероятно, модель Gemini в обзорах ИИ обходит это ограничение, используя технологию искусственного интеллекта, называемую генерацией с дополненным поиском (RAG), которая позволяет магистру права проверять конкретные источники, выходящие за рамки данных, на которых он обучался, например, определённые веб-страницы, говорит Чираг Шах, профессор Вашингтонского университета, специализирующийся на онлайн-поиске.
Связанная история
Плюс: оригинальный стартап Stable Diffusion запустил генеративный ИИ для видео.
После того, как пользователь вводит запрос, он проверяется по документам, составляющим источники информации системы, и генерируется ответ. Поскольку система способна сопоставлять исходный запрос с определёнными частями веб-страниц, она может указать, откуда был взят ответ, чего обычные LLM сделать не могут.
Одним из главных преимуществ RAG является то, что ответы, генерируемые ею на запросы пользователя, должны быть более актуальными, более точными с точки зрения фактов и более релевантными, чем ответы типичной модели, которая просто генерирует ответ на основе обучающих данных. Этот метод часто используется, чтобы предотвратить галлюцинации у LLM. (Представитель Google не подтвердил, использует ли AI Overviews RAG.)
Так почему же он возвращает плохие ответы?
Но RAG далеко не идеален. Чтобы LLM, использующий RAG, мог дать хороший ответ, ему необходимо как правильно извлечь информацию, так и правильно сгенерировать ответ. Плохой ответ получается, если один или оба этапа процесса дают сбой.
В случае с рекомендацией AI Overviews рецепта пиццы с клеем (по мотивам шуточного поста на Reddit) пост, вероятно, казался релевантным изначальному запросу пользователя о том, что сыр не прилипает к пицце, но в процессе поиска что-то пошло не так, говорит Шах. «То, что он релевантный, не означает, что он правильный, и генерация этого не ставит под сомнение», — говорит он.
Аналогичным образом, если система RAG сталкивается с противоречивой информацией, например, с руководством по политике и обновлённой версией того же руководства, она не может определить, на основе какой версии брать ответ. Вместо этого она может объединить информацию из обоих, чтобы создать потенциально вводящий в заблуждение ответ.
«Большая языковая модель генерирует беглый язык на основе предоставленных источников, но беглый язык — это не то же самое, что правильная информация», — говорит Сьюзан Верберн, профессор Лейденского университета, специализирующаяся на обработке естественного языка.
По ее словам, чем конкретнее тема, тем выше вероятность появления дезинформации в результатах работы большой языковой модели. Она добавляет: «Это проблема не только в области медицины, но и в образовании и науке».
По словам представителя Google, во многих случаях, когда AI Overviews возвращает неверные ответы, это происходит из-за того, что в Интернете недостаточно высококачественной информации, которую можно было бы отобразить по запросу, или из-за того, что запрос больше всего соответствует сатирическим сайтам или шуточным постам.
Представитель компании заявил, что подавляющее большинство обзоров AI содержат высококачественную информацию, а многие примеры неудачных ответов были получены в ответ на нетипичные запросы. Он добавил, что обзоры AI, содержащие потенциально опасный, непристойный или иным образом неприемлемый контент, появлялись менее чем в одном случае из 7 миллионов уникальных запросов. Google продолжает удалять обзоры AI по определённым запросам в соответствии со своей политикой в отношении контента.
Речь идет не только о плохих данных обучения
Хотя ошибка с клеем для пиццы — хороший пример того, как AI Overviews указал на ненадёжный источник, система также может генерировать дезинформацию из фактически достоверных источников. Мелани Митчелл, исследователь искусственного интеллекта из Института Санта-Фе в Нью-Мексико, загуглила «Сколько президентов-мусульман было в США?». AI Overviews ответил: «В США был один президент-мусульманин — Барак Хусейн Обама».
Хотя Барак Обама не является мусульманином, что делает ответ AI Overviews неверным, компания почерпнула свою информацию из главы в академической книге под названием «Барак Хусейн Обама: первый президент-мусульманин Америки?». Таким образом, система искусственного интеллекта не только не уловила суть эссе, но и интерпретировала его совершенно противоположным образом, говорит Митчелл. «Здесь есть несколько проблем для ИИ: одна из них — найти хороший источник, который не является шуткой, а другая — правильно интерпретировать то, что в нём говорится», — добавляет она. «С этим у систем искусственного интеллекта возникают трудности, и важно отметить, что даже получив хороший источник, они всё равно могут ошибаться».
Можно ли решить эту проблему?
В конечном счёте, мы знаем, что системы искусственного интеллекта ненадёжны, и пока они используют вероятность для генерации текста слово в слово, риск галлюцинаций всегда будет оставаться. И хотя AI Overviews, вероятно, будет совершенствоваться по мере того, как Google будет его дорабатывать, мы никогда не можем быть уверены в его 100% точности.
Google заявила, что добавляет ограничения на запуск запросов, по которым обзоры ИИ оказались не особенно полезными, и добавила дополнительные «уточнения запуска» для запросов, связанных со здоровьем. Компания может добавить этап в процесс поиска информации, который будет отмечать рискованные запросы и отказывать системе в генерации ответа в таких случаях, говорит Верберн. Представитель компании заявил, что Google не намерен показывать обзоры ИИ для откровенных или опасных тем, а также для запросов, указывающих на уязвимую ситуацию.
Такие методы, как обучение с подкреплением на основе обратной связи от человека, включающее такую обратную связь в программу обучения LLM, также могут помочь улучшить качество его ответов.
Аналогичным образом, магистров права можно специально обучать определять, когда на вопрос невозможно ответить, и также может быть полезно поручить им тщательно оценивать качество полученного документа, прежде чем генерировать ответ, говорит Вербене: «Правильное обучение очень помогает!»
Хотя Google добавила к ответам в разделе «Обзоры ИИ» пометку «Генеративный ИИ — экспериментальный метод», компании стоит чётче обозначить, что функция находится в стадии бета-тестирования, и подчеркнуть, что она не готова предоставлять абсолютно надёжные ответы, считает Шах. «Пока она не выйдет из стадии бета-тестирования — а сейчас она определённо существует и будет существовать ещё какое-то время — она должна быть полностью опциональной. Мы не должны её навязывать как часть основного поиска».
Источник: www.technologyreview.com



























