Некоторые компании работают над решением этой проблемы.

Согласно недавним исследованиям, некоторые чат-боты на основе ИИ используют некорректные исследования из отозванных научных статей для ответа на вопросы. Результаты, подтвержденные MIT Technology Review, поднимают вопрос о надежности инструментов ИИ при оценке научных исследований и могут затруднить усилия стран и отраслей, стремящихся инвестировать в инструменты ИИ для учёных.
Поисковые системы на основе искусственного интеллекта и чат-боты уже известны своей способностью подделывать ссылки и отсылки. Но ответы, основанные на материалах реальных статей, также могут вводить в заблуждение, если эти статьи были отозваны. Чат-бот «использует реальную статью, реальный материал, чтобы что-то вам сказать», — говорит Вэйкуань Гу, медицинский исследователь из Университета Теннесси в Мемфисе и автор одного из недавних исследований. Но, по его словам, если люди смотрят только на содержание ответа и не переходят на саму статью, чтобы увидеть, что она отозвана, это действительно проблема.
Гу и его команда задали ChatGPT от OpenAI, работающему на основе модели GPT-4o, вопросы, основанные на информации из 21 отозванной статьи о медицинской визуализации. В пяти случаях ответы чат-бота содержали ссылки на отозванные статьи, но только в трёх случаях рекомендовали проявить осторожность. Хотя в других вопросах он ссылался на не отозванные статьи, авторы отмечают, что он мог не распознать статус ретракции статей. В исследовании, проведённом в августе, другая группа исследователей использовала ChatGPT-4o mini для оценки качества 217 отозванных и низкокачественных статей из разных научных областей; они обнаружили, что ни в одном из ответов чат-бота не упоминались ретракции или другие проблемы. (Аналогичных исследований по GPT-5, опубликованной в августе, не было.)
Граждане используют чат-боты на основе ИИ для получения медицинских консультаций и диагностики заболеваний. Студенты и учёные всё чаще используют научно-ориентированные инструменты ИИ для анализа существующей научной литературы и реферирования статей. Вероятно, такое использование будет расширяться. Например, Национальный научный фонд США в августе инвестировал 75 миллионов долларов в создание моделей ИИ для научных исследований.
Связанная история
Риски, возникающие при взаимодействии детей с чат-ботами, превратили безопасность ИИ из абстрактной проблемы в политическую проблему. Что же теперь?
«Если [инструмент] предназначен для широкой публики, то использование отзыва как своего рода индикатора качества очень важно», — говорит Юаньси Фу, исследователь в области информатики из Иллинойсского университета в Урбане-Шампейне. «Существует своего рода соглашение о том, что отозванные статьи исключаются из списка научных публикаций, — говорит она, — и люди, не имеющие отношения к науке, должны быть предупреждены об этом». OpenAI не ответила на запрос о комментариях по поводу результатов исследования.
Проблема не ограничивается ChatGPT. В июне MIT Technology Review протестировал инструменты ИИ, специально рекламируемые для исследовательских работ, такие как Elicit, Ai2 ScholarQA (теперь часть инструмента Asta Института искусственного интеллекта Аллена), Perplexity и Consensus, используя вопросы, основанные на 21 отозванной статье из исследования Гу. Elicit ссылался на пять отозванных статей в своих ответах, в то время как Ai2 ScholarQA ссылался на 17, Perplexity — на 11, а Consensus — на 18 — без упоминания об отзыве.
С тех пор некоторые компании предприняли шаги для решения этой проблемы. «До недавнего времени в нашей поисковой системе не было подробных данных об отзывах», — говорит Кристиан Салем, соучредитель Consensus. Его компания начала использовать данные об отзывах из различных источников, включая издательств и агрегаторов данных, независимый поиск в интернете и сервис Retraction Watch, который вручную собирает и поддерживает базу данных отзывов. В ходе проверки тех же статей в августе Consensus процитировал всего пять отозванных статей.
Компания Elicit сообщила MIT Technology Review, что удаляет из своей базы данных отозванные статьи, отмеченные каталогом научных исследований OpenAlex, и «всё ещё работает над агрегацией источников отзывов». В Ai2 нам сообщили, что её инструмент в настоящее время не обнаруживает и не удаляет отозванные статьи автоматически. Perplexity заявила, что «никогда не претендует на 100% точность».
Однако одних баз данных опровержений может быть недостаточно. Иван Оранский, соучредитель Retraction Watch, старается не называть её всеобъемлющей базой данных, отмечая, что её создание потребовало бы больше ресурсов, чем у кого-либо есть: «Причина ресурсоёмкости в том, что кто-то должен делать всё вручную, чтобы данные были точными».
Ситуацию ещё больше усложняет то, что издатели не придерживаются единого подхода к уведомлениям об отзыве. «Отзывы могут быть помечены совершенно по-разному», — говорит Кейтлин Баккер из Университета Реджайны (Канада), эксперт по инструментам для исследований и поиска информации. «Исправление», «выражение обеспокоенности», «опечатка» и «отозвано» — вот лишь некоторые из меток, которые издатели могут добавлять к научным работам. Эти метки могут быть добавлены по разным причинам, включая опасения по поводу содержания, методологии и данных, а также наличие конфликта интересов.
Некоторые исследователи размещают свои статьи на серверах препринтов, в репозиториях и на других сайтах, что приводит к разбросу копий по всему интернету. Более того, данные, используемые для обучения моделей искусственного интеллекта, могут быть устаревшими. Если статья отозвана после даты окончания обучения модели, её ответы могут не отражать происходящее мгновенно, говорит Фу. Большинство академических поисковых систем не проверяют данные об отзывах в режиме реального времени, поэтому вы полностью зависите от точности их корпуса, говорит Аарон Тэй, библиотекарь Сингапурского университета менеджмента.
Орански и другие эксперты выступают за предоставление большего контекста для моделей, которые можно использовать при создании ответа. Это может означать публикацию уже имеющейся информации, например, рецензий, заказанных журналами, и критических статей с сайта обзоров PubPeer, вместе с опубликованной статьей.
Многие издательства, такие как Nature и BMJ, публикуют уведомления об отзыве в виде отдельных статей, привязанных к статье, вне платного доступа. Фу считает, что компаниям необходимо эффективно использовать такую информацию, а также любые новостные статьи в данных для обучения модели, в которых упоминается отзыв статьи.
Пользователям и создателям инструментов ИИ необходимо проявить должную осмотрительность. «Мы находимся на очень ранней стадии, и, по сути, нам следует быть скептиками», — говорит Тэй.
Ананья — независимый журналист, пишущий о науке и технологиях, живущий в Бангалоре, Индия.
Источник: www.technologyreview.com



























