Image

Модели ИИ используют материалы из отозванных научных статей

Некоторые компании работают над решением этой проблемы.

""

Стефани Арнетт/Обзор технологий MIT | Adobe Stock, Getty Images

Согласно недавним исследованиям, некоторые чат-боты на основе ИИ используют некорректные исследования из отозванных научных статей для ответа на вопросы. Результаты, подтвержденные MIT Technology Review, поднимают вопрос о надежности инструментов ИИ при оценке научных исследований и могут затруднить усилия стран и отраслей, стремящихся инвестировать в инструменты ИИ для учёных.

Поисковые системы на основе искусственного интеллекта и чат-боты уже известны своей способностью подделывать ссылки и отсылки. Но ответы, основанные на материалах реальных статей, также могут вводить в заблуждение, если эти статьи были отозваны. Чат-бот «использует реальную статью, реальный материал, чтобы что-то вам сказать», — говорит Вэйкуань Гу, медицинский исследователь из Университета Теннесси в Мемфисе и автор одного из недавних исследований. Но, по его словам, если люди смотрят только на содержание ответа и не переходят на саму статью, чтобы увидеть, что она отозвана, это действительно проблема.

Гу и его команда задали ChatGPT от OpenAI, работающему на основе модели GPT-4o, вопросы, основанные на информации из 21 отозванной статьи о медицинской визуализации. В пяти случаях ответы чат-бота содержали ссылки на отозванные статьи, но только в трёх случаях рекомендовали проявить осторожность. Хотя в других вопросах он ссылался на не отозванные статьи, авторы отмечают, что он мог не распознать статус ретракции статей. В исследовании, проведённом в августе, другая группа исследователей использовала ChatGPT-4o mini для оценки качества 217 отозванных и низкокачественных статей из разных научных областей; они обнаружили, что ни в одном из ответов чат-бота не упоминались ретракции или другие проблемы. (Аналогичных исследований по GPT-5, опубликованной в августе, не было.)

Граждане используют чат-боты на основе ИИ для получения медицинских консультаций и диагностики заболеваний. Студенты и учёные всё чаще используют научно-ориентированные инструменты ИИ для анализа существующей научной литературы и реферирования статей. Вероятно, такое использование будет расширяться. Например, Национальный научный фонд США в августе инвестировал 75 миллионов долларов в создание моделей ИИ для научных исследований.

Надвигающееся подавление общения с искусственным интеллектом

Риски, возникающие при взаимодействии детей с чат-ботами, превратили безопасность ИИ из абстрактной проблемы в политическую проблему. Что же теперь?

«Если [инструмент] предназначен для широкой публики, то использование отзыва как своего рода индикатора качества очень важно», — говорит Юаньси Фу, исследователь в области информатики из Иллинойсского университета в Урбане-Шампейне. «Существует своего рода соглашение о том, что отозванные статьи исключаются из списка научных публикаций, — говорит она, — и люди, не имеющие отношения к науке, должны быть предупреждены об этом». OpenAI не ответила на запрос о комментариях по поводу результатов исследования.

Проблема не ограничивается ChatGPT. В июне MIT Technology Review протестировал инструменты ИИ, специально рекламируемые для исследовательских работ, такие как Elicit, Ai2 ScholarQA (теперь часть инструмента Asta Института искусственного интеллекта Аллена), Perplexity и Consensus, используя вопросы, основанные на 21 отозванной статье из исследования Гу. Elicit ссылался на пять отозванных статей в своих ответах, в то время как Ai2 ScholarQA ссылался на 17, Perplexity — на 11, а Consensus — на 18 — без упоминания об отзыве.

С тех пор некоторые компании предприняли шаги для решения этой проблемы. «До недавнего времени в нашей поисковой системе не было подробных данных об отзывах», — говорит Кристиан Салем, соучредитель Consensus. Его компания начала использовать данные об отзывах из различных источников, включая издательств и агрегаторов данных, независимый поиск в интернете и сервис Retraction Watch, который вручную собирает и поддерживает базу данных отзывов. В ходе проверки тех же статей в августе Consensus процитировал всего пять отозванных статей. 

Компания Elicit сообщила MIT Technology Review, что удаляет из своей базы данных отозванные статьи, отмеченные каталогом научных исследований OpenAlex, и «всё ещё работает над агрегацией источников отзывов». В Ai2 нам сообщили, что её инструмент в настоящее время не обнаруживает и не удаляет отозванные статьи автоматически. Perplexity заявила, что «никогда не претендует на 100% точность».

Однако одних баз данных опровержений может быть недостаточно. Иван Оранский, соучредитель Retraction Watch, старается не называть её всеобъемлющей базой данных, отмечая, что её создание потребовало бы больше ресурсов, чем у кого-либо есть: «Причина ресурсоёмкости в том, что кто-то должен делать всё вручную, чтобы данные были точными».

Ситуацию ещё больше усложняет то, что издатели не придерживаются единого подхода к уведомлениям об отзыве. «Отзывы могут быть помечены совершенно по-разному», — говорит Кейтлин Баккер из Университета Реджайны (Канада), эксперт по инструментам для исследований и поиска информации. «Исправление», «выражение обеспокоенности», «опечатка» и «отозвано» — вот лишь некоторые из меток, которые издатели могут добавлять к научным работам. Эти метки могут быть добавлены по разным причинам, включая опасения по поводу содержания, методологии и данных, а также наличие конфликта интересов.

Некоторые исследователи размещают свои статьи на серверах препринтов, в репозиториях и на других сайтах, что приводит к разбросу копий по всему интернету. Более того, данные, используемые для обучения моделей искусственного интеллекта, могут быть устаревшими. Если статья отозвана после даты окончания обучения модели, её ответы могут не отражать происходящее мгновенно, говорит Фу. Большинство академических поисковых систем не проверяют данные об отзывах в режиме реального времени, поэтому вы полностью зависите от точности их корпуса, говорит Аарон Тэй, библиотекарь Сингапурского университета менеджмента.

Орански и другие эксперты выступают за предоставление большего контекста для моделей, которые можно использовать при создании ответа. Это может означать публикацию уже имеющейся информации, например, рецензий, заказанных журналами, и критических статей с сайта обзоров PubPeer, вместе с опубликованной статьей.

Многие издательства, такие как Nature и BMJ, публикуют уведомления об отзыве в виде отдельных статей, привязанных к статье, вне платного доступа. Фу считает, что компаниям необходимо эффективно использовать такую информацию, а также любые новостные статьи в данных для обучения модели, в которых упоминается отзыв статьи.

Пользователям и создателям инструментов ИИ необходимо проявить должную осмотрительность. «Мы находимся на очень ранней стадии, и, по сути, нам следует быть скептиками», — говорит Тэй.

Ананья — независимый журналист, пишущий о науке и технологиях, живущий в Бангалоре, Индия.

Источник: www.technologyreview.com

✅ Найденные теги: Модели, новости
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Человек спит в кровати под красным пледом, солнечный свет падает на подушку.
Человек в смокинге держит планеты Земля и Марс, символизируя космические достижения.
Твердотельный аккумулятор Donut на выставке, показывает замещающий литий-ион стоимость.
Человек рядом с изображением двойной спирали ДНК на фоне природы.
Залитый солнцем лес с деревьями и болотистой водой, покрытой зелёной растительностью.
Пленка NeoFilm 100 на деревянном столе в окружении упаковок.
Деревянный минималистичный сундук с подсветкой в интерьере.
Обложка отчета о преодолении разрыва в операционном ИИ от MIT Technology Review.
Твит о разработке в 2026: выполнение сложных задач до пробуждения США, чтобы избежать проблем с ИИ.
Image Not Found
Человек в смокинге держит планеты Земля и Марс, символизируя космические достижения.

Почему SpaceX может выйти на биржу и с чем это может быть связано

Мы ведь явно не воспринимаем всерьез центры обработки данных в космосе? Элизабет Лопатто, старший репортер. Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего сайта. Все…

Мар 5, 2026
Твердотельный аккумулятор Donut на выставке, показывает замещающий литий-ион стоимость.

Согласно результатам испытаний, твердотельная батарея Donut Lab способна выдерживать (экстремальные) температуры.

Разработанная финским стартапом батарея не только выдержала экстремальные условия высокой температуры, но и фактически увеличила свою емкость. Эндрю Дж. Хокинс, редактор раздела «Транспорт». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в…

Мар 5, 2026
Пленка NeoFilm 100 на деревянном столе в окружении упаковок.

Цифровая камера OPT NeoFilm 100 в формате плёнки

Компактная камера OPT NeoFilm 100 выполнена в виде классической 35-мм плёнки, но внутри скрывается не аналоговый механизм, а цифровая «начинка», способная снимать фото и видео.  Камера оснащена 1-мегапиксельным сенсором, который позволяет получать изображения с разрешением до 3…

Мар 5, 2026
Деревянный минималистичный сундук с подсветкой в интерьере.

«Умная» кровать-трансформер Roll

Хорватский дизайнер Лука Булян разработал проект складной кровати Roll, которая по нажатию кнопки сворачивается в аккуратный деревянный шкаф. Главная идея строится на принципе ежедневного скручивания матраса без потери его свойств. Конструкция оснащена тихим электродвигателем и плавным механизмом…

Мар 5, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых