Image

Модели ИИ используют материалы из отозванных научных статей

Некоторые компании работают над решением этой проблемы.

""

Стефани Арнетт/Обзор технологий MIT | Adobe Stock, Getty Images

Согласно недавним исследованиям, некоторые чат-боты на основе ИИ используют некорректные исследования из отозванных научных статей для ответа на вопросы. Результаты, подтвержденные MIT Technology Review, поднимают вопрос о надежности инструментов ИИ при оценке научных исследований и могут затруднить усилия стран и отраслей, стремящихся инвестировать в инструменты ИИ для учёных.

Поисковые системы на основе искусственного интеллекта и чат-боты уже известны своей способностью подделывать ссылки и отсылки. Но ответы, основанные на материалах реальных статей, также могут вводить в заблуждение, если эти статьи были отозваны. Чат-бот «использует реальную статью, реальный материал, чтобы что-то вам сказать», — говорит Вэйкуань Гу, медицинский исследователь из Университета Теннесси в Мемфисе и автор одного из недавних исследований. Но, по его словам, если люди смотрят только на содержание ответа и не переходят на саму статью, чтобы увидеть, что она отозвана, это действительно проблема.

Гу и его команда задали ChatGPT от OpenAI, работающему на основе модели GPT-4o, вопросы, основанные на информации из 21 отозванной статьи о медицинской визуализации. В пяти случаях ответы чат-бота содержали ссылки на отозванные статьи, но только в трёх случаях рекомендовали проявить осторожность. Хотя в других вопросах он ссылался на не отозванные статьи, авторы отмечают, что он мог не распознать статус ретракции статей. В исследовании, проведённом в августе, другая группа исследователей использовала ChatGPT-4o mini для оценки качества 217 отозванных и низкокачественных статей из разных научных областей; они обнаружили, что ни в одном из ответов чат-бота не упоминались ретракции или другие проблемы. (Аналогичных исследований по GPT-5, опубликованной в августе, не было.)

Граждане используют чат-боты на основе ИИ для получения медицинских консультаций и диагностики заболеваний. Студенты и учёные всё чаще используют научно-ориентированные инструменты ИИ для анализа существующей научной литературы и реферирования статей. Вероятно, такое использование будет расширяться. Например, Национальный научный фонд США в августе инвестировал 75 миллионов долларов в создание моделей ИИ для научных исследований.

Надвигающееся подавление общения с искусственным интеллектом

Риски, возникающие при взаимодействии детей с чат-ботами, превратили безопасность ИИ из абстрактной проблемы в политическую проблему. Что же теперь?

«Если [инструмент] предназначен для широкой публики, то использование отзыва как своего рода индикатора качества очень важно», — говорит Юаньси Фу, исследователь в области информатики из Иллинойсского университета в Урбане-Шампейне. «Существует своего рода соглашение о том, что отозванные статьи исключаются из списка научных публикаций, — говорит она, — и люди, не имеющие отношения к науке, должны быть предупреждены об этом». OpenAI не ответила на запрос о комментариях по поводу результатов исследования.

Проблема не ограничивается ChatGPT. В июне MIT Technology Review протестировал инструменты ИИ, специально рекламируемые для исследовательских работ, такие как Elicit, Ai2 ScholarQA (теперь часть инструмента Asta Института искусственного интеллекта Аллена), Perplexity и Consensus, используя вопросы, основанные на 21 отозванной статье из исследования Гу. Elicit ссылался на пять отозванных статей в своих ответах, в то время как Ai2 ScholarQA ссылался на 17, Perplexity — на 11, а Consensus — на 18 — без упоминания об отзыве.

С тех пор некоторые компании предприняли шаги для решения этой проблемы. «До недавнего времени в нашей поисковой системе не было подробных данных об отзывах», — говорит Кристиан Салем, соучредитель Consensus. Его компания начала использовать данные об отзывах из различных источников, включая издательств и агрегаторов данных, независимый поиск в интернете и сервис Retraction Watch, который вручную собирает и поддерживает базу данных отзывов. В ходе проверки тех же статей в августе Consensus процитировал всего пять отозванных статей. 

Компания Elicit сообщила MIT Technology Review, что удаляет из своей базы данных отозванные статьи, отмеченные каталогом научных исследований OpenAlex, и «всё ещё работает над агрегацией источников отзывов». В Ai2 нам сообщили, что её инструмент в настоящее время не обнаруживает и не удаляет отозванные статьи автоматически. Perplexity заявила, что «никогда не претендует на 100% точность».

Однако одних баз данных опровержений может быть недостаточно. Иван Оранский, соучредитель Retraction Watch, старается не называть её всеобъемлющей базой данных, отмечая, что её создание потребовало бы больше ресурсов, чем у кого-либо есть: «Причина ресурсоёмкости в том, что кто-то должен делать всё вручную, чтобы данные были точными».

Ситуацию ещё больше усложняет то, что издатели не придерживаются единого подхода к уведомлениям об отзыве. «Отзывы могут быть помечены совершенно по-разному», — говорит Кейтлин Баккер из Университета Реджайны (Канада), эксперт по инструментам для исследований и поиска информации. «Исправление», «выражение обеспокоенности», «опечатка» и «отозвано» — вот лишь некоторые из меток, которые издатели могут добавлять к научным работам. Эти метки могут быть добавлены по разным причинам, включая опасения по поводу содержания, методологии и данных, а также наличие конфликта интересов.

Некоторые исследователи размещают свои статьи на серверах препринтов, в репозиториях и на других сайтах, что приводит к разбросу копий по всему интернету. Более того, данные, используемые для обучения моделей искусственного интеллекта, могут быть устаревшими. Если статья отозвана после даты окончания обучения модели, её ответы могут не отражать происходящее мгновенно, говорит Фу. Большинство академических поисковых систем не проверяют данные об отзывах в режиме реального времени, поэтому вы полностью зависите от точности их корпуса, говорит Аарон Тэй, библиотекарь Сингапурского университета менеджмента.

Орански и другие эксперты выступают за предоставление большего контекста для моделей, которые можно использовать при создании ответа. Это может означать публикацию уже имеющейся информации, например, рецензий, заказанных журналами, и критических статей с сайта обзоров PubPeer, вместе с опубликованной статьей.

Многие издательства, такие как Nature и BMJ, публикуют уведомления об отзыве в виде отдельных статей, привязанных к статье, вне платного доступа. Фу считает, что компаниям необходимо эффективно использовать такую информацию, а также любые новостные статьи в данных для обучения модели, в которых упоминается отзыв статьи.

Пользователям и создателям инструментов ИИ необходимо проявить должную осмотрительность. «Мы находимся на очень ранней стадии, и, по сути, нам следует быть скептиками», — говорит Тэй.

Ананья — независимый журналист, пишущий о науке и технологиях, живущий в Бангалоре, Индия.

Источник: www.technologyreview.com

✅ Найденные теги: Модели, новости
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых