Image

Модели ИИ используют материалы из отозванных научных статей

Некоторые компании работают над решением этой проблемы.

""

Стефани Арнетт/Обзор технологий MIT | Adobe Stock, Getty Images

Согласно недавним исследованиям, некоторые чат-боты на основе ИИ используют некорректные исследования из отозванных научных статей для ответа на вопросы. Результаты, подтвержденные MIT Technology Review, поднимают вопрос о надежности инструментов ИИ при оценке научных исследований и могут затруднить усилия стран и отраслей, стремящихся инвестировать в инструменты ИИ для учёных.

Поисковые системы на основе искусственного интеллекта и чат-боты уже известны своей способностью подделывать ссылки и отсылки. Но ответы, основанные на материалах реальных статей, также могут вводить в заблуждение, если эти статьи были отозваны. Чат-бот «использует реальную статью, реальный материал, чтобы что-то вам сказать», — говорит Вэйкуань Гу, медицинский исследователь из Университета Теннесси в Мемфисе и автор одного из недавних исследований. Но, по его словам, если люди смотрят только на содержание ответа и не переходят на саму статью, чтобы увидеть, что она отозвана, это действительно проблема.

Гу и его команда задали ChatGPT от OpenAI, работающему на основе модели GPT-4o, вопросы, основанные на информации из 21 отозванной статьи о медицинской визуализации. В пяти случаях ответы чат-бота содержали ссылки на отозванные статьи, но только в трёх случаях рекомендовали проявить осторожность. Хотя в других вопросах он ссылался на не отозванные статьи, авторы отмечают, что он мог не распознать статус ретракции статей. В исследовании, проведённом в августе, другая группа исследователей использовала ChatGPT-4o mini для оценки качества 217 отозванных и низкокачественных статей из разных научных областей; они обнаружили, что ни в одном из ответов чат-бота не упоминались ретракции или другие проблемы. (Аналогичных исследований по GPT-5, опубликованной в августе, не было.)

Граждане используют чат-боты на основе ИИ для получения медицинских консультаций и диагностики заболеваний. Студенты и учёные всё чаще используют научно-ориентированные инструменты ИИ для анализа существующей научной литературы и реферирования статей. Вероятно, такое использование будет расширяться. Например, Национальный научный фонд США в августе инвестировал 75 миллионов долларов в создание моделей ИИ для научных исследований.

Надвигающееся подавление общения с искусственным интеллектом

Риски, возникающие при взаимодействии детей с чат-ботами, превратили безопасность ИИ из абстрактной проблемы в политическую проблему. Что же теперь?

«Если [инструмент] предназначен для широкой публики, то использование отзыва как своего рода индикатора качества очень важно», — говорит Юаньси Фу, исследователь в области информатики из Иллинойсского университета в Урбане-Шампейне. «Существует своего рода соглашение о том, что отозванные статьи исключаются из списка научных публикаций, — говорит она, — и люди, не имеющие отношения к науке, должны быть предупреждены об этом». OpenAI не ответила на запрос о комментариях по поводу результатов исследования.

Проблема не ограничивается ChatGPT. В июне MIT Technology Review протестировал инструменты ИИ, специально рекламируемые для исследовательских работ, такие как Elicit, Ai2 ScholarQA (теперь часть инструмента Asta Института искусственного интеллекта Аллена), Perplexity и Consensus, используя вопросы, основанные на 21 отозванной статье из исследования Гу. Elicit ссылался на пять отозванных статей в своих ответах, в то время как Ai2 ScholarQA ссылался на 17, Perplexity — на 11, а Consensus — на 18 — без упоминания об отзыве.

С тех пор некоторые компании предприняли шаги для решения этой проблемы. «До недавнего времени в нашей поисковой системе не было подробных данных об отзывах», — говорит Кристиан Салем, соучредитель Consensus. Его компания начала использовать данные об отзывах из различных источников, включая издательств и агрегаторов данных, независимый поиск в интернете и сервис Retraction Watch, который вручную собирает и поддерживает базу данных отзывов. В ходе проверки тех же статей в августе Consensus процитировал всего пять отозванных статей. 

Компания Elicit сообщила MIT Technology Review, что удаляет из своей базы данных отозванные статьи, отмеченные каталогом научных исследований OpenAlex, и «всё ещё работает над агрегацией источников отзывов». В Ai2 нам сообщили, что её инструмент в настоящее время не обнаруживает и не удаляет отозванные статьи автоматически. Perplexity заявила, что «никогда не претендует на 100% точность».

Однако одних баз данных опровержений может быть недостаточно. Иван Оранский, соучредитель Retraction Watch, старается не называть её всеобъемлющей базой данных, отмечая, что её создание потребовало бы больше ресурсов, чем у кого-либо есть: «Причина ресурсоёмкости в том, что кто-то должен делать всё вручную, чтобы данные были точными».

Ситуацию ещё больше усложняет то, что издатели не придерживаются единого подхода к уведомлениям об отзыве. «Отзывы могут быть помечены совершенно по-разному», — говорит Кейтлин Баккер из Университета Реджайны (Канада), эксперт по инструментам для исследований и поиска информации. «Исправление», «выражение обеспокоенности», «опечатка» и «отозвано» — вот лишь некоторые из меток, которые издатели могут добавлять к научным работам. Эти метки могут быть добавлены по разным причинам, включая опасения по поводу содержания, методологии и данных, а также наличие конфликта интересов.

Некоторые исследователи размещают свои статьи на серверах препринтов, в репозиториях и на других сайтах, что приводит к разбросу копий по всему интернету. Более того, данные, используемые для обучения моделей искусственного интеллекта, могут быть устаревшими. Если статья отозвана после даты окончания обучения модели, её ответы могут не отражать происходящее мгновенно, говорит Фу. Большинство академических поисковых систем не проверяют данные об отзывах в режиме реального времени, поэтому вы полностью зависите от точности их корпуса, говорит Аарон Тэй, библиотекарь Сингапурского университета менеджмента.

Орански и другие эксперты выступают за предоставление большего контекста для моделей, которые можно использовать при создании ответа. Это может означать публикацию уже имеющейся информации, например, рецензий, заказанных журналами, и критических статей с сайта обзоров PubPeer, вместе с опубликованной статьей.

Многие издательства, такие как Nature и BMJ, публикуют уведомления об отзыве в виде отдельных статей, привязанных к статье, вне платного доступа. Фу считает, что компаниям необходимо эффективно использовать такую информацию, а также любые новостные статьи в данных для обучения модели, в которых упоминается отзыв статьи.

Пользователям и создателям инструментов ИИ необходимо проявить должную осмотрительность. «Мы находимся на очень ранней стадии, и, по сути, нам следует быть скептиками», — говорит Тэй.

Ананья — независимый журналист, пишущий о науке и технологиях, живущий в Бангалоре, Индия.

Источник: www.technologyreview.com

✅ Найденные теги: Модели, новости
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Цифровая сеть и технологическая сфера, соединенные световым потоком.
Модель атома с ядром и вращающимися электронами на темном фоне.
Флуоресцентное изображение эмбриона синих и фиолетовых оттенков на черном фоне.
Компания GE HealthCare запускает новую ультразвуковую систему для диагностики сердечно-сосудистых заболеваний.
ideipro logotyp
Лидеры здравоохранения обсуждают «пузырь» искусственного интеллекта, часть 2 | MobiHealthNews
Смартфон с открытым сайтом Medicare.gov на экране, онлайн-сервис здравоохранения.
ideipro logotyp
Ноутбук с программой редактирования изображений, яркое фото человека в синем плаще.
Image Not Found
Цифровая сеть и технологическая сфера, соединенные световым потоком.

Разница между начинающими и опытными специалистами по анализу данных заключается не в коде.

Почему моя одержимость сложными алгоритмами на самом деле тормозила мою карьеру. Делиться Изображение предоставлено автором (создано с помощью Nano Banana Pro) Если вы потратите пять минут на LinkedIn или что-то подобное, вы заметите острую дискуссию в индустрии…

Мар 5, 2026
Модель атома с ядром и вращающимися электронами на темном фоне.

Тайна ядерных «магических чисел» наконец-то разгадана.

Математический аналог микроскопа с переменным разрешением пролил свет на то, почему некоторые атомы обладают исключительной стабильностью — загадку, которая десятилетиями оставалась неразгаданной в ядерной физике. Некоторые атомы кажутся особенно стабильными из-за количества протонов и нейтронов в них.…

Мар 5, 2026
Флуоресцентное изображение эмбриона синих и фиолетовых оттенков на черном фоне.

Обнаружена неожиданно высокая организованность ДНК на самой ранней стадии развития эмбриона

Ранний эмбрион дрозофилы, запечатленный во время волны деления ядра. Делящиеся ядра (синие) и неделящиеся ядра (розовые) иллюстрируют быстрый, высокоорганизованный характер раннего развития и существенную регуляцию организации генома, необходимую для правильной активации генов, несмотря на многократные нарушения в…

Мар 5, 2026
Компания GE HealthCare запускает новую ультразвуковую систему для диагностики сердечно-сосудистых заболеваний.

Компания GE HealthCare запускает новую ультразвуковую систему для диагностики сердечно-сосудистых заболеваний.

Компания GE HealthCare недавно получила маркировку CE и разрешение FDA 510(k) на свою систему. Фото: Poetra.RH / Shutterstock.com. Компания GE HealthCare представила Vivid Pioneer, новую систему ультразвуковой диагностики сердечно-сосудистой системы, которая использует искусственный интеллект для повышения скорости…

Мар 5, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых