Бывший исследователь OpenAI анализирует одну из бредовых спиралей ChatGPT

Окт 3, 2025 0

Голографический робот с ИИ-подобием человека и программные данные на черном фоне. — **Авторы изображений:** Юитиро Чино / Getty Images

Аллан Брукс никогда не ставил перед собой цели переосмыслить математику. Но после нескольких недель общения с ChatGPT 47-летний канадец пришёл к убеждению, что открыл новую форму математики, достаточно мощную, чтобы уничтожить интернет.

Брукс, у которого не было истории психических заболеваний или математических гениев, провёл 21 день в мае, всё глубже погружаясь в заверения чат-бота, что позже было подробно описано в The New York Times. Его случай показал, как чат-боты с искусственным интеллектом могут заманивать пользователей в опасные кроличьи норы, подводя их к заблуждениям или чему-то ещё более серьёзному.

Эта история привлекла внимание Стивена Адлера, бывшего исследователя безопасности OpenAI, который покинул компанию в конце 2024 года после почти четырёх лет работы над снижением уровня опасности её моделей. Заинтригованный и встревоженный, Адлер связался с Бруксом и получил полную расшифровку его трёхнедельного анализа — документ, объём которого превышал все семь книг о Гарри Поттере вместе взятые.

В четверг Адлер опубликовал независимый анализ инцидента с Бруксом, подняв вопросы о том, как OpenAI справляется с пользователями в кризисные моменты, и предложив некоторые практические рекомендации.

«Меня очень беспокоит то, как OpenAI организовала здесь поддержку», — сказал Адлер в интервью TechCrunch. «Это свидетельствует о том, что предстоит долгий путь».

История Брукса и другие подобные ей истории заставили OpenAI смириться с тем, как ChatGPT поддерживает уязвимых или психически неуравновешенных пользователей.

Например, в августе этого года на OpenAI подали в суд родители 16-летнего подростка, который, прежде чем покончить с собой, поделился с ChatGPT своими мыслями о самоубийстве. Во многих из этих случаев ChatGPT, в частности, версия, основанная на модели GPT-4o от OpenAI, поощряла и укрепляла опасные убеждения пользователей, которые следовало бы пресекать. Это называется подхалимством, и это растущая проблема в чат-ботах на основе искусственного интеллекта.

В ответ на это OpenAI внесла ряд изменений в работу ChatGPT с пользователями, находящимися в состоянии эмоционального стресса, и реорганизовала ключевую исследовательскую группу, отвечающую за модель поведения. Компания также выпустила новую модель по умолчанию для ChatGPT, GPT-5, которая, по-видимому, лучше справляется с работой с пользователями, находящимися в состоянии стресса.

Адлер говорит, что предстоит еще очень много работы.

Его особенно беспокоил конец стремительного разговора Брукса с ChatGPT. В этот момент Брукс опомнился и понял, что его математическое открытие — фарс, несмотря на настойчивость GPT-4o. Он сообщил ChatGPT, что ему необходимо сообщить об этом инциденте в OpenAI.

После нескольких недель, в течение которых ChatGPT вводил Брукса в заблуждение, он солгал о своих возможностях. Чат-бот заявил, что «прямо сейчас передаст этот вопрос на рассмотрение OpenAI», а затем неоднократно заверил Брукса, что передал информацию о проблеме специалистам по безопасности OpenAI.

eb432a0d94210906839670dc3992d21e — ChatGPT вводит Брукса в заблуждение относительно своих возможностей. **Источники изображений:** Стивен Адлер

Но всё это было неправдой. Компания подтвердила Адлеру, что ChatGPT не может отправлять отчёты об инцидентах в OpenAI. Позже Брукс попытался связаться со службой поддержки OpenAI напрямую, а не через ChatGPT, и получил несколько автоматических сообщений, прежде чем смог дозвониться до человека.

Компания OpenAI не сразу отреагировала на просьбу прокомментировать ситуацию вне рабочего времени.

Адлер считает, что компаниям, работающим с ИИ, необходимо прилагать больше усилий, чтобы помогать пользователям, когда они просят о помощи. Это означает, что ИИ-чатботы должны быть способны честно отвечать на вопросы о своих возможностях, а службы поддержки должным образом обеспечиваться ресурсами для корректного взаимодействия с пользователями.

Недавно OpenAI рассказала о том, как компания решает проблему поддержки в ChatGPT, в основе которой лежит ИИ. Компания заявляет, что её видение — «переосмыслить поддержку как операционную модель на основе ИИ, которая постоянно обучается и совершенствуется».

Однако Адлер также утверждает, что существуют способы предотвратить бредовые витки ChatGPT до того, как пользователь обратится за помощью.

В марте OpenAI и MIT Media Lab совместно разработали набор классификаторов для изучения эмоционального благополучия в ChatGPT и открыли их исходный код. Организации стремились оценить, как модели ИИ подтверждают чувства пользователя, среди прочего. Однако OpenAI назвала это сотрудничество первым шагом и не взяла на себя обязательств по фактическому использованию инструментов на практике.

Адлер задним числом применил некоторые классификаторы OpenAI к некоторым разговорам Брукса с ChatGPT и обнаружил, что они неоднократно помечали ChatGPT как поведение, усиливающее заблуждение.

В одной выборке из 200 сообщений Адлер обнаружил, что более 85% сообщений ChatGPT в разговоре с Бруксом демонстрировали «полное согласие» с пользователем. В той же выборке более 90% сообщений ChatGPT с Бруксом «подтверждают уникальность пользователя». В данном случае сообщения подтверждали и подтверждали, что Брукс — гений, способный спасти мир.

7fa8a861d572db5b42f7ab77833e562c — **Авторы изображений:** Стивен Адлер

Неясно, применял ли OpenAI классификаторы безопасности к разговорам ChatGPT во время разговора Брукса, но, несомненно, похоже, что они бы отметили что-то подобное.

Адлер предлагает OpenAI уже сегодня использовать подобные инструменты безопасности на практике и реализовать способ сканирования продуктов компании на предмет пользователей из группы риска. Он отмечает, что OpenAI, похоже, реализует подобный подход с помощью GPT-5, которая содержит маршрутизатор для перенаправления конфиденциальных запросов к более безопасным моделям ИИ.

Бывший исследователь OpenAI предлагает ряд других способов предотвращения бредовых спиралей.

Он считает, что компаниям следует подталкивать пользователей своих чат-ботов чаще начинать новые чаты — OpenAI утверждает, что делает это, и утверждает, что её «защита» менее эффективна при длительных разговорах. Адлер также предлагает компаниям использовать концептуальный поиск — способ использования ИИ для поиска концепций, а не ключевых слов, — чтобы выявлять нарушения безопасности среди пользователей.

Компания OpenAI предприняла значительные шаги для решения проблем пользователей ChatGPT, испытывающих трудности, с тех пор, как появились эти тревожные истории. Компания утверждает, что в GPT-5 уровень подхалимства ниже, но пока неясно, будут ли пользователи по-прежнему попадать в ловушку бредовых идей, используя GPT-5 или будущие модели.

Анализ Адлера также поднимает вопросы о том, как другие поставщики ИИ-чатботов будут обеспечивать безопасность своих продуктов для пользователей, находящихся в затруднительном положении. Хотя OpenAI может обеспечить достаточные меры защиты для ChatGPT, маловероятно, что все компании последуют этому примеру.

Источник: techcrunch.com

Метки:

Бывший новости

ПРЕДЫДУЩАЯ ЗАПИСЬ

03.10.2025

Топ-30 бесплатных нейросетей, которые облегчат вашу жизнь

СЛЕДУЮЩАЯ ЗАПИСЬ

03.10.2025

День 1317: на границе России и Казахстана очереди с грузами из Китая, продавцы авиабилетов пожаловались в ФАС на «Сирену-Трэвел»

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

Еще новости рубрики

Архив рубрики ~Обо всем~

Фантазии

Июл 2, 2024

Архив рубрики ~Обо всем~

Мировоззрение

Июл 2, 2024

Архив рубрики ~Обо всем~

Влияние выдумщиков и фантазеров на развитие…

Июл 2, 2024

Архив рубрики ~Обо всем~

Нет ничего невозможного

Июл 2, 2024

Присоединяйтесь
к нам в

TELEGRAM

галерея

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Взаимодействие человека и машины погружается под воду.

Дифференциально приватное машинное обучение в масштабе с использованием JAX-Privacy

НОВОСТИ ДРУГИХ РУБРИК

Архив рубрики ~Лента новостей~

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Вкратце Опубликовано: Изображение предоставлено: Thos Robinson/Getty Images для The New York Times (откроется в новом окне) Джули Борт Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.…

ЧИТАТЬ

Апр 21, 2026

Архив рубрики ~Лента новостей~

Как почистить виниловые пластинки (2026): пылесос, ультразвук, чистящий раствор, щетка.

Эти щелчки и треск недопустимы. Приведите свою музыку в порядок с помощью этого удобного руководства. Источник: www.wired.com

ЧИТАТЬ

Апр 21, 2026

Архив рубрики ~Лента новостей~

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

ЧИТАТЬ

Апр 21, 2026

Архив рубрики ~Лента новостей~