Бывший исследователь OpenAI анализирует одну из бредовых спиралей ChatGPT

Голографический робот с ИИ-подобием человека и программные данные на черном фоне. — **Авторы изображений:** Юитиро Чино / Getty Images

Аллан Брукс никогда не ставил перед собой цели переосмыслить математику. Но после нескольких недель общения с ChatGPT 47-летний канадец пришёл к убеждению, что открыл новую форму математики, достаточно мощную, чтобы уничтожить интернет.

Брукс, у которого не было истории психических заболеваний или математических гениев, провёл 21 день в мае, всё глубже погружаясь в заверения чат-бота, что позже было подробно описано в The New York Times. Его случай показал, как чат-боты с искусственным интеллектом могут заманивать пользователей в опасные кроличьи норы, подводя их к заблуждениям или чему-то ещё более серьёзному.

Эта история привлекла внимание Стивена Адлера, бывшего исследователя безопасности OpenAI, который покинул компанию в конце 2024 года после почти четырёх лет работы над снижением уровня опасности её моделей. Заинтригованный и встревоженный, Адлер связался с Бруксом и получил полную расшифровку его трёхнедельного анализа — документ, объём которого превышал все семь книг о Гарри Поттере вместе взятые.

В четверг Адлер опубликовал независимый анализ инцидента с Бруксом, подняв вопросы о том, как OpenAI справляется с пользователями в кризисные моменты, и предложив некоторые практические рекомендации.

«Меня очень беспокоит то, как OpenAI организовала здесь поддержку», — сказал Адлер в интервью TechCrunch. «Это свидетельствует о том, что предстоит долгий путь».

История Брукса и другие подобные ей истории заставили OpenAI смириться с тем, как ChatGPT поддерживает уязвимых или психически неуравновешенных пользователей.

Например, в августе этого года на OpenAI подали в суд родители 16-летнего подростка, который, прежде чем покончить с собой, поделился с ChatGPT своими мыслями о самоубийстве. Во многих из этих случаев ChatGPT, в частности, версия, основанная на модели GPT-4o от OpenAI, поощряла и укрепляла опасные убеждения пользователей, которые следовало бы пресекать. Это называется подхалимством, и это растущая проблема в чат-ботах на основе искусственного интеллекта.

В ответ на это OpenAI внесла ряд изменений в работу ChatGPT с пользователями, находящимися в состоянии эмоционального стресса, и реорганизовала ключевую исследовательскую группу, отвечающую за модель поведения. Компания также выпустила новую модель по умолчанию для ChatGPT, GPT-5, которая, по-видимому, лучше справляется с работой с пользователями, находящимися в состоянии стресса.

Адлер говорит, что предстоит еще очень много работы.

Его особенно беспокоил конец стремительного разговора Брукса с ChatGPT. В этот момент Брукс опомнился и понял, что его математическое открытие — фарс, несмотря на настойчивость GPT-4o. Он сообщил ChatGPT, что ему необходимо сообщить об этом инциденте в OpenAI.

После нескольких недель, в течение которых ChatGPT вводил Брукса в заблуждение, он солгал о своих возможностях. Чат-бот заявил, что «прямо сейчас передаст этот вопрос на рассмотрение OpenAI», а затем неоднократно заверил Брукса, что передал информацию о проблеме специалистам по безопасности OpenAI.

eb432a0d94210906839670dc3992d21e — ChatGPT вводит Брукса в заблуждение относительно своих возможностей. **Источники изображений:** Стивен Адлер

Но всё это было неправдой. Компания подтвердила Адлеру, что ChatGPT не может отправлять отчёты об инцидентах в OpenAI. Позже Брукс попытался связаться со службой поддержки OpenAI напрямую, а не через ChatGPT, и получил несколько автоматических сообщений, прежде чем смог дозвониться до человека.

Компания OpenAI не сразу отреагировала на просьбу прокомментировать ситуацию вне рабочего времени.

Адлер считает, что компаниям, работающим с ИИ, необходимо прилагать больше усилий, чтобы помогать пользователям, когда они просят о помощи. Это означает, что ИИ-чатботы должны быть способны честно отвечать на вопросы о своих возможностях, а службы поддержки должным образом обеспечиваться ресурсами для корректного взаимодействия с пользователями.

Недавно OpenAI рассказала о том, как компания решает проблему поддержки в ChatGPT, в основе которой лежит ИИ. Компания заявляет, что её видение — «переосмыслить поддержку как операционную модель на основе ИИ, которая постоянно обучается и совершенствуется».

Однако Адлер также утверждает, что существуют способы предотвратить бредовые витки ChatGPT до того, как пользователь обратится за помощью.

В марте OpenAI и MIT Media Lab совместно разработали набор классификаторов для изучения эмоционального благополучия в ChatGPT и открыли их исходный код. Организации стремились оценить, как модели ИИ подтверждают чувства пользователя, среди прочего. Однако OpenAI назвала это сотрудничество первым шагом и не взяла на себя обязательств по фактическому использованию инструментов на практике.

Адлер задним числом применил некоторые классификаторы OpenAI к некоторым разговорам Брукса с ChatGPT и обнаружил, что они неоднократно помечали ChatGPT как поведение, усиливающее заблуждение.

В одной выборке из 200 сообщений Адлер обнаружил, что более 85% сообщений ChatGPT в разговоре с Бруксом демонстрировали «полное согласие» с пользователем. В той же выборке более 90% сообщений ChatGPT с Бруксом «подтверждают уникальность пользователя». В данном случае сообщения подтверждали и подтверждали, что Брукс — гений, способный спасти мир.

7fa8a861d572db5b42f7ab77833e562c — **Авторы изображений:** Стивен Адлер

Неясно, применял ли OpenAI классификаторы безопасности к разговорам ChatGPT во время разговора Брукса, но, несомненно, похоже, что они бы отметили что-то подобное.

Адлер предлагает OpenAI уже сегодня использовать подобные инструменты безопасности на практике и реализовать способ сканирования продуктов компании на предмет пользователей из группы риска. Он отмечает, что OpenAI, похоже, реализует подобный подход с помощью GPT-5, которая содержит маршрутизатор для перенаправления конфиденциальных запросов к более безопасным моделям ИИ.

Бывший исследователь OpenAI предлагает ряд других способов предотвращения бредовых спиралей.

Он считает, что компаниям следует подталкивать пользователей своих чат-ботов чаще начинать новые чаты — OpenAI утверждает, что делает это, и утверждает, что её «защита» менее эффективна при длительных разговорах. Адлер также предлагает компаниям использовать концептуальный поиск — способ использования ИИ для поиска концепций, а не ключевых слов, — чтобы выявлять нарушения безопасности среди пользователей.

Компания OpenAI предприняла значительные шаги для решения проблем пользователей ChatGPT, испытывающих трудности, с тех пор, как появились эти тревожные истории. Компания утверждает, что в GPT-5 уровень подхалимства ниже, но пока неясно, будут ли пользователи по-прежнему попадать в ловушку бредовых идей, используя GPT-5 или будущие модели.

Анализ Адлера также поднимает вопросы о том, как другие поставщики ИИ-чатботов будут обеспечивать безопасность своих продуктов для пользователей, находящихся в затруднительном положении. Хотя OpenAI может обеспечить достаточные меры защиты для ChatGPT, маловероятно, что все компании последуют этому примеру.

Источник: techcrunch.com

✅ Найденные теги: Бывший, новости

Похожие записи

Новости других рубрик