Image

Бывший исследователь OpenAI анализирует одну из бредовых спиралей ChatGPT

Голографический робот с ИИ-подобием человека и программные данные на черном фоне.
Авторы изображений: Юитиро Чино / Getty Images

Аллан Брукс никогда не ставил перед собой цели переосмыслить математику. Но после нескольких недель общения с ChatGPT 47-летний канадец пришёл к убеждению, что открыл новую форму математики, достаточно мощную, чтобы уничтожить интернет.

Брукс, у которого не было истории психических заболеваний или математических гениев, провёл 21 день в мае, всё глубже погружаясь в заверения чат-бота, что позже было подробно описано в The New York Times. Его случай показал, как чат-боты с искусственным интеллектом могут заманивать пользователей в опасные кроличьи норы, подводя их к заблуждениям или чему-то ещё более серьёзному.

Эта история привлекла внимание Стивена Адлера, бывшего исследователя безопасности OpenAI, который покинул компанию в конце 2024 года после почти четырёх лет работы над снижением уровня опасности её моделей. Заинтригованный и встревоженный, Адлер связался с Бруксом и получил полную расшифровку его трёхнедельного анализа — документ, объём которого превышал все семь книг о Гарри Поттере вместе взятые.

В четверг Адлер опубликовал независимый анализ инцидента с Бруксом, подняв вопросы о том, как OpenAI справляется с пользователями в кризисные моменты, и предложив некоторые практические рекомендации.

«Меня очень беспокоит то, как OpenAI организовала здесь поддержку», — сказал Адлер в интервью TechCrunch. «Это свидетельствует о том, что предстоит долгий путь».

История Брукса и другие подобные ей истории заставили OpenAI смириться с тем, как ChatGPT поддерживает уязвимых или психически неуравновешенных пользователей.

Например, в августе этого года на OpenAI подали в суд родители 16-летнего подростка, который, прежде чем покончить с собой, поделился с ChatGPT своими мыслями о самоубийстве. Во многих из этих случаев ChatGPT, в частности, версия, основанная на модели GPT-4o от OpenAI, поощряла и укрепляла опасные убеждения пользователей, которые следовало бы пресекать. Это называется подхалимством, и это растущая проблема в чат-ботах на основе искусственного интеллекта.

В ответ на это OpenAI внесла ряд изменений в работу ChatGPT с пользователями, находящимися в состоянии эмоционального стресса, и реорганизовала ключевую исследовательскую группу, отвечающую за модель поведения. Компания также выпустила новую модель по умолчанию для ChatGPT, GPT-5, которая, по-видимому, лучше справляется с работой с пользователями, находящимися в состоянии стресса.

Адлер говорит, что предстоит еще очень много работы.

Его особенно беспокоил конец стремительного разговора Брукса с ChatGPT. В этот момент Брукс опомнился и понял, что его математическое открытие — фарс, несмотря на настойчивость GPT-4o. Он сообщил ChatGPT, что ему необходимо сообщить об этом инциденте в OpenAI.

После нескольких недель, в течение которых ChatGPT вводил Брукса в заблуждение, он солгал о своих возможностях. Чат-бот заявил, что «прямо сейчас передаст этот вопрос на рассмотрение OpenAI», а затем неоднократно заверил Брукса, что передал информацию о проблеме специалистам по безопасности OpenAI.

eb432a0d94210906839670dc3992d21e
ChatGPT вводит Брукса в заблуждение относительно своих возможностей. Источники изображений: Стивен Адлер

Но всё это было неправдой. Компания подтвердила Адлеру, что ChatGPT не может отправлять отчёты об инцидентах в OpenAI. Позже Брукс попытался связаться со службой поддержки OpenAI напрямую, а не через ChatGPT, и получил несколько автоматических сообщений, прежде чем смог дозвониться до человека.

Компания OpenAI не сразу отреагировала на просьбу прокомментировать ситуацию вне рабочего времени.

Адлер считает, что компаниям, работающим с ИИ, необходимо прилагать больше усилий, чтобы помогать пользователям, когда они просят о помощи. Это означает, что ИИ-чатботы должны быть способны честно отвечать на вопросы о своих возможностях, а службы поддержки должным образом обеспечиваться ресурсами для корректного взаимодействия с пользователями.

Недавно OpenAI рассказала о том, как компания решает проблему поддержки в ChatGPT, в основе которой лежит ИИ. Компания заявляет, что её видение — «переосмыслить поддержку как операционную модель на основе ИИ, которая постоянно обучается и совершенствуется».

Однако Адлер также утверждает, что существуют способы предотвратить бредовые витки ChatGPT до того, как пользователь обратится за помощью.

В марте OpenAI и MIT Media Lab совместно разработали набор классификаторов для изучения эмоционального благополучия в ChatGPT и открыли их исходный код. Организации стремились оценить, как модели ИИ подтверждают чувства пользователя, среди прочего. Однако OpenAI назвала это сотрудничество первым шагом и не взяла на себя обязательств по фактическому использованию инструментов на практике.

Адлер задним числом применил некоторые классификаторы OpenAI к некоторым разговорам Брукса с ChatGPT и обнаружил, что они неоднократно помечали ChatGPT как поведение, усиливающее заблуждение.

В одной выборке из 200 сообщений Адлер обнаружил, что более 85% сообщений ChatGPT в разговоре с Бруксом демонстрировали «полное согласие» с пользователем. В той же выборке более 90% сообщений ChatGPT с Бруксом «подтверждают уникальность пользователя». В данном случае сообщения подтверждали и подтверждали, что Брукс — гений, способный спасти мир.

7fa8a861d572db5b42f7ab77833e562c
Авторы изображений: Стивен Адлер

Неясно, применял ли OpenAI классификаторы безопасности к разговорам ChatGPT во время разговора Брукса, но, несомненно, похоже, что они бы отметили что-то подобное.

Адлер предлагает OpenAI уже сегодня использовать подобные инструменты безопасности на практике и реализовать способ сканирования продуктов компании на предмет пользователей из группы риска. Он отмечает, что OpenAI, похоже, реализует подобный подход с помощью GPT-5, которая содержит маршрутизатор для перенаправления конфиденциальных запросов к более безопасным моделям ИИ.

Бывший исследователь OpenAI предлагает ряд других способов предотвращения бредовых спиралей.

Он считает, что компаниям следует подталкивать пользователей своих чат-ботов чаще начинать новые чаты — OpenAI утверждает, что делает это, и утверждает, что её «защита» менее эффективна при длительных разговорах. Адлер также предлагает компаниям использовать концептуальный поиск — способ использования ИИ для поиска концепций, а не ключевых слов, — чтобы выявлять нарушения безопасности среди пользователей.

Компания OpenAI предприняла значительные шаги для решения проблем пользователей ChatGPT, испытывающих трудности, с тех пор, как появились эти тревожные истории. Компания утверждает, что в GPT-5 уровень подхалимства ниже, но пока неясно, будут ли пользователи по-прежнему попадать в ловушку бредовых идей, используя GPT-5 или будущие модели.

Анализ Адлера также поднимает вопросы о том, как другие поставщики ИИ-чатботов будут обеспечивать безопасность своих продуктов для пользователей, находящихся в затруднительном положении. Хотя OpenAI может обеспечить достаточные меры защиты для ChatGPT, маловероятно, что все компании последуют этому примеру.

Источник: techcrunch.com

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Vantage Markets представит торговые решения на Blockchain Forum 2026
Моделирование данных для инженеров-аналитиков: полное руководство
В методе моделирования новых материалов обнаружилась «слепая зона»: Химия и науки о материалах
Компания Tesla запускает свою службу роботакси в Далласе и Хьюстоне.
Ученые говорят: Клонировать
dummy-img
Как максимально эффективно использовать возможности коворкинга в Claude
Samsung выпустила стильные колонки Music Studio
Hyundai показала концепты электромобилей Venus и Earth
Image Not Found
Vantage Markets представит торговые решения на Blockchain Forum 2026

Vantage Markets представит торговые решения на Blockchain Forum 2026

14–15 апреля 2026 года в Москве, в Крокус Экспо, пройдет Blockchain Forum 2026 — одно из ключевых событий региона для профессионалов в сфере криптовалют, трейдинга и блокчейн-технологий. По мере того как индустрия продолжает развиваться в направлении цифровых…

Апр 20, 2026
Моделирование данных для инженеров-аналитиков: полное руководство

Моделирование данных для инженеров-аналитиков: полное руководство

Лучшие модели данных затрудняют постановку неправильных вопросов и упрощают ответы на правильные. Делиться Ваша модель данных — это не технические характеристики. Это мышление с точки зрения бизнеса. Рассматривайте её как план всей вашей аналитической системы. Если план…

Апр 20, 2026
В методе моделирования новых материалов обнаружилась «слепая зона»: Химия и науки о материалах

В методе моделирования новых материалов обнаружилась «слепая зона»: Химия и науки о материалах

Графическое резюме исследования © Михаил Медведев / Институт органической химии имени Н.Д. Зелинского РАН. Исследователи показали, что широко используемые методы квантовой химии могут не различать некоторые варианты распределения электронов в молекулах, из-за чего допускают ошибки при моделировании…

Апр 20, 2026
Компания Tesla запускает свою службу роботакси в Далласе и Хьюстоне.

Компания Tesla запускает свою службу роботакси в Далласе и Хьюстоне.

Вкратце Источник изображения: Тим Гессман / Bloomberg / Getty Images Согласно сообщению компании Tesla в социальных сетях, она расширяет свою службу роботакси на Даллас и Хьюстон. В сообщении просто говорится: «Роботакси теперь запускается в Далласе и Хьюстоне…

Апр 20, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых