Бывший исследователь OpenAI анализирует одну из бредовых спиралей ChatGPT

Окт 3, 2025 0

Голографический робот с ИИ-подобием человека и программные данные на черном фоне. — **Авторы изображений:** Юитиро Чино / Getty Images

Аллан Брукс никогда не ставил перед собой цели переосмыслить математику. Но после нескольких недель общения с ChatGPT 47-летний канадец пришёл к убеждению, что открыл новую форму математики, достаточно мощную, чтобы уничтожить интернет.

Брукс, у которого не было истории психических заболеваний или математических гениев, провёл 21 день в мае, всё глубже погружаясь в заверения чат-бота, что позже было подробно описано в The New York Times. Его случай показал, как чат-боты с искусственным интеллектом могут заманивать пользователей в опасные кроличьи норы, подводя их к заблуждениям или чему-то ещё более серьёзному.

Эта история привлекла внимание Стивена Адлера, бывшего исследователя безопасности OpenAI, который покинул компанию в конце 2024 года после почти четырёх лет работы над снижением уровня опасности её моделей. Заинтригованный и встревоженный, Адлер связался с Бруксом и получил полную расшифровку его трёхнедельного анализа — документ, объём которого превышал все семь книг о Гарри Поттере вместе взятые.

В четверг Адлер опубликовал независимый анализ инцидента с Бруксом, подняв вопросы о том, как OpenAI справляется с пользователями в кризисные моменты, и предложив некоторые практические рекомендации.

«Меня очень беспокоит то, как OpenAI организовала здесь поддержку», — сказал Адлер в интервью TechCrunch. «Это свидетельствует о том, что предстоит долгий путь».

История Брукса и другие подобные ей истории заставили OpenAI смириться с тем, как ChatGPT поддерживает уязвимых или психически неуравновешенных пользователей.

Например, в августе этого года на OpenAI подали в суд родители 16-летнего подростка, который, прежде чем покончить с собой, поделился с ChatGPT своими мыслями о самоубийстве. Во многих из этих случаев ChatGPT, в частности, версия, основанная на модели GPT-4o от OpenAI, поощряла и укрепляла опасные убеждения пользователей, которые следовало бы пресекать. Это называется подхалимством, и это растущая проблема в чат-ботах на основе искусственного интеллекта.

В ответ на это OpenAI внесла ряд изменений в работу ChatGPT с пользователями, находящимися в состоянии эмоционального стресса, и реорганизовала ключевую исследовательскую группу, отвечающую за модель поведения. Компания также выпустила новую модель по умолчанию для ChatGPT, GPT-5, которая, по-видимому, лучше справляется с работой с пользователями, находящимися в состоянии стресса.

Адлер говорит, что предстоит еще очень много работы.

Его особенно беспокоил конец стремительного разговора Брукса с ChatGPT. В этот момент Брукс опомнился и понял, что его математическое открытие — фарс, несмотря на настойчивость GPT-4o. Он сообщил ChatGPT, что ему необходимо сообщить об этом инциденте в OpenAI.

После нескольких недель, в течение которых ChatGPT вводил Брукса в заблуждение, он солгал о своих возможностях. Чат-бот заявил, что «прямо сейчас передаст этот вопрос на рассмотрение OpenAI», а затем неоднократно заверил Брукса, что передал информацию о проблеме специалистам по безопасности OpenAI.

eb432a0d94210906839670dc3992d21e — ChatGPT вводит Брукса в заблуждение относительно своих возможностей. **Источники изображений:** Стивен Адлер

Но всё это было неправдой. Компания подтвердила Адлеру, что ChatGPT не может отправлять отчёты об инцидентах в OpenAI. Позже Брукс попытался связаться со службой поддержки OpenAI напрямую, а не через ChatGPT, и получил несколько автоматических сообщений, прежде чем смог дозвониться до человека.

Компания OpenAI не сразу отреагировала на просьбу прокомментировать ситуацию вне рабочего времени.

Адлер считает, что компаниям, работающим с ИИ, необходимо прилагать больше усилий, чтобы помогать пользователям, когда они просят о помощи. Это означает, что ИИ-чатботы должны быть способны честно отвечать на вопросы о своих возможностях, а службы поддержки должным образом обеспечиваться ресурсами для корректного взаимодействия с пользователями.

Недавно OpenAI рассказала о том, как компания решает проблему поддержки в ChatGPT, в основе которой лежит ИИ. Компания заявляет, что её видение — «переосмыслить поддержку как операционную модель на основе ИИ, которая постоянно обучается и совершенствуется».

Однако Адлер также утверждает, что существуют способы предотвратить бредовые витки ChatGPT до того, как пользователь обратится за помощью.

В марте OpenAI и MIT Media Lab совместно разработали набор классификаторов для изучения эмоционального благополучия в ChatGPT и открыли их исходный код. Организации стремились оценить, как модели ИИ подтверждают чувства пользователя, среди прочего. Однако OpenAI назвала это сотрудничество первым шагом и не взяла на себя обязательств по фактическому использованию инструментов на практике.

Адлер задним числом применил некоторые классификаторы OpenAI к некоторым разговорам Брукса с ChatGPT и обнаружил, что они неоднократно помечали ChatGPT как поведение, усиливающее заблуждение.

В одной выборке из 200 сообщений Адлер обнаружил, что более 85% сообщений ChatGPT в разговоре с Бруксом демонстрировали «полное согласие» с пользователем. В той же выборке более 90% сообщений ChatGPT с Бруксом «подтверждают уникальность пользователя». В данном случае сообщения подтверждали и подтверждали, что Брукс — гений, способный спасти мир.

7fa8a861d572db5b42f7ab77833e562c — **Авторы изображений:** Стивен Адлер

Неясно, применял ли OpenAI классификаторы безопасности к разговорам ChatGPT во время разговора Брукса, но, несомненно, похоже, что они бы отметили что-то подобное.

Адлер предлагает OpenAI уже сегодня использовать подобные инструменты безопасности на практике и реализовать способ сканирования продуктов компании на предмет пользователей из группы риска. Он отмечает, что OpenAI, похоже, реализует подобный подход с помощью GPT-5, которая содержит маршрутизатор для перенаправления конфиденциальных запросов к более безопасным моделям ИИ.

Бывший исследователь OpenAI предлагает ряд других способов предотвращения бредовых спиралей.

Он считает, что компаниям следует подталкивать пользователей своих чат-ботов чаще начинать новые чаты — OpenAI утверждает, что делает это, и утверждает, что её «защита» менее эффективна при длительных разговорах. Адлер также предлагает компаниям использовать концептуальный поиск — способ использования ИИ для поиска концепций, а не ключевых слов, — чтобы выявлять нарушения безопасности среди пользователей.

Компания OpenAI предприняла значительные шаги для решения проблем пользователей ChatGPT, испытывающих трудности, с тех пор, как появились эти тревожные истории. Компания утверждает, что в GPT-5 уровень подхалимства ниже, но пока неясно, будут ли пользователи по-прежнему попадать в ловушку бредовых идей, используя GPT-5 или будущие модели.

Анализ Адлера также поднимает вопросы о том, как другие поставщики ИИ-чатботов будут обеспечивать безопасность своих продуктов для пользователей, находящихся в затруднительном положении. Хотя OpenAI может обеспечить достаточные меры защиты для ChatGPT, маловероятно, что все компании последуют этому примеру.

Источник: techcrunch.com

Метки:

Бывший новости

ПРЕДЫДУЩАЯ ЗАПИСЬ

03.10.2025

Топ-30 бесплатных нейросетей, которые облегчат вашу жизнь

СЛЕДУЮЩАЯ ЗАПИСЬ

03.10.2025

День 1317: на границе России и Казахстана очереди с грузами из Китая, продавцы авиабилетов пожаловались в ФАС на «Сирену-Трэвел»

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

Еще новости рубрики

Архив рубрики ~Обо всем~

Фантазии

Июл 2, 2024

Архив рубрики ~Обо всем~

Мировоззрение

Июл 2, 2024

Архив рубрики ~Обо всем~

Влияние выдумщиков и фантазеров на развитие…

Июл 2, 2024

Архив рубрики ~Обо всем~

Нет ничего невозможного

Июл 2, 2024

Присоединяйтесь
к нам в

TELEGRAM

галерея

СОСТОЯЛОСЬ ЗАСЕДАНИЕ МЕТОДИЧЕСКОГО СОВЕТА, ПОСВЯЩЕННОЕ ПОКОЛЕНИЮ «РОЖДЕННЫХ ЦИФРОВЫМИ»

Биофизический мир внутри переполненной клетки

Появились новые доказательства того, как одиночество влияет на память в пожилом возрасте.

NVIDIA ReSTIR PR Enhanced повышает производительность трассировки пути в три раза

«Слишком сложно и дорого»: могли ли американцы сымитировать полет к Луне с помощью ИИ

L-эрготиоин: антиоксидант, содержащийся в грибах, может воздействовать на клетки матки, облегчая менструальные боли.

НОВОСТИ ДРУГИХ РУБРИК

Архив рубрики ~Лента новостей~

СОСТОЯЛОСЬ ЗАСЕДАНИЕ МЕТОДИЧЕСКОГО СОВЕТА, ПОСВЯЩЕННОЕ ПОКОЛЕНИЮ «РОЖДЕННЫХ ЦИФРОВЫМИ»

19 февраля 2026 года прошло заседание Методического совета, посвященное теме «“Рожденные цифровыми” как субъекты учения: специфика и ее учет в преподавании». В мероприятии участвовали члены Методсовета, проректор по учебной работе, начальник УМУ, а также коллеги с филологического,…

ЧИТАТЬ

Апр 21, 2026

Архив рубрики ~Лента новостей~

СОСТОЯЛОСЬ ЗАСЕДАНИЕ МЕТОДИЧЕСКОГО СОВЕТА, ПОСВЯЩЕННОЕ ПОКОЛЕНИЮ «РОЖДЕННЫХ ЦИФРОВЫМИ»

ЧИТАТЬ

Апр 21, 2026

Архив рубрики ~Лента новостей~

NVIDIA ReSTIR PR Enhanced повышает производительность трассировки пути в три раза

Исследователи NVIDIA пытаются найти способы повысить производительность ресурсозатратной трассировки пути, которая по сей день остаётся очень тяжёлой нагрузкой даже для лучших игровых видеокарт. К счастью, им удалось найти один из вариантов, как можно не только поднять FPS,…

ЧИТАТЬ

Апр 21, 2026

Архив рубрики ~Лента новостей~

Многоразовая ракета New Glenn компании Blue Origin успешно приземлилась, но доставка полезной нагрузки не удалась.

Однако ей не удалось доставить полезную нагрузку с космической вышки сотовой связи. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

ЧИТАТЬ

Апр 20, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых

ИдеиPRO

Бывший исследователь OpenAI анализирует одну из бредовых спиралей ChatGPT

Еще новости рубрики

Присоединяйтесь к нам в

Рубрики

галерея

НОВОСТИ ДРУГИХ РУБРИК

Присоединяйтесь
к нам в