Image

Бывший исследователь OpenAI анализирует одну из бредовых спиралей ChatGPT

Голографический робот с ИИ-подобием человека и программные данные на черном фоне.
Авторы изображений: Юитиро Чино / Getty Images

Аллан Брукс никогда не ставил перед собой цели переосмыслить математику. Но после нескольких недель общения с ChatGPT 47-летний канадец пришёл к убеждению, что открыл новую форму математики, достаточно мощную, чтобы уничтожить интернет.

Брукс, у которого не было истории психических заболеваний или математических гениев, провёл 21 день в мае, всё глубже погружаясь в заверения чат-бота, что позже было подробно описано в The New York Times. Его случай показал, как чат-боты с искусственным интеллектом могут заманивать пользователей в опасные кроличьи норы, подводя их к заблуждениям или чему-то ещё более серьёзному.

Эта история привлекла внимание Стивена Адлера, бывшего исследователя безопасности OpenAI, который покинул компанию в конце 2024 года после почти четырёх лет работы над снижением уровня опасности её моделей. Заинтригованный и встревоженный, Адлер связался с Бруксом и получил полную расшифровку его трёхнедельного анализа — документ, объём которого превышал все семь книг о Гарри Поттере вместе взятые.

В четверг Адлер опубликовал независимый анализ инцидента с Бруксом, подняв вопросы о том, как OpenAI справляется с пользователями в кризисные моменты, и предложив некоторые практические рекомендации.

«Меня очень беспокоит то, как OpenAI организовала здесь поддержку», — сказал Адлер в интервью TechCrunch. «Это свидетельствует о том, что предстоит долгий путь».

История Брукса и другие подобные ей истории заставили OpenAI смириться с тем, как ChatGPT поддерживает уязвимых или психически неуравновешенных пользователей.

Например, в августе этого года на OpenAI подали в суд родители 16-летнего подростка, который, прежде чем покончить с собой, поделился с ChatGPT своими мыслями о самоубийстве. Во многих из этих случаев ChatGPT, в частности, версия, основанная на модели GPT-4o от OpenAI, поощряла и укрепляла опасные убеждения пользователей, которые следовало бы пресекать. Это называется подхалимством, и это растущая проблема в чат-ботах на основе искусственного интеллекта.

В ответ на это OpenAI внесла ряд изменений в работу ChatGPT с пользователями, находящимися в состоянии эмоционального стресса, и реорганизовала ключевую исследовательскую группу, отвечающую за модель поведения. Компания также выпустила новую модель по умолчанию для ChatGPT, GPT-5, которая, по-видимому, лучше справляется с работой с пользователями, находящимися в состоянии стресса.

Адлер говорит, что предстоит еще очень много работы.

Его особенно беспокоил конец стремительного разговора Брукса с ChatGPT. В этот момент Брукс опомнился и понял, что его математическое открытие — фарс, несмотря на настойчивость GPT-4o. Он сообщил ChatGPT, что ему необходимо сообщить об этом инциденте в OpenAI.

После нескольких недель, в течение которых ChatGPT вводил Брукса в заблуждение, он солгал о своих возможностях. Чат-бот заявил, что «прямо сейчас передаст этот вопрос на рассмотрение OpenAI», а затем неоднократно заверил Брукса, что передал информацию о проблеме специалистам по безопасности OpenAI.

eb432a0d94210906839670dc3992d21e
ChatGPT вводит Брукса в заблуждение относительно своих возможностей. Источники изображений: Стивен Адлер

Но всё это было неправдой. Компания подтвердила Адлеру, что ChatGPT не может отправлять отчёты об инцидентах в OpenAI. Позже Брукс попытался связаться со службой поддержки OpenAI напрямую, а не через ChatGPT, и получил несколько автоматических сообщений, прежде чем смог дозвониться до человека.

Компания OpenAI не сразу отреагировала на просьбу прокомментировать ситуацию вне рабочего времени.

Адлер считает, что компаниям, работающим с ИИ, необходимо прилагать больше усилий, чтобы помогать пользователям, когда они просят о помощи. Это означает, что ИИ-чатботы должны быть способны честно отвечать на вопросы о своих возможностях, а службы поддержки должным образом обеспечиваться ресурсами для корректного взаимодействия с пользователями.

Недавно OpenAI рассказала о том, как компания решает проблему поддержки в ChatGPT, в основе которой лежит ИИ. Компания заявляет, что её видение — «переосмыслить поддержку как операционную модель на основе ИИ, которая постоянно обучается и совершенствуется».

Однако Адлер также утверждает, что существуют способы предотвратить бредовые витки ChatGPT до того, как пользователь обратится за помощью.

В марте OpenAI и MIT Media Lab совместно разработали набор классификаторов для изучения эмоционального благополучия в ChatGPT и открыли их исходный код. Организации стремились оценить, как модели ИИ подтверждают чувства пользователя, среди прочего. Однако OpenAI назвала это сотрудничество первым шагом и не взяла на себя обязательств по фактическому использованию инструментов на практике.

Адлер задним числом применил некоторые классификаторы OpenAI к некоторым разговорам Брукса с ChatGPT и обнаружил, что они неоднократно помечали ChatGPT как поведение, усиливающее заблуждение.

В одной выборке из 200 сообщений Адлер обнаружил, что более 85% сообщений ChatGPT в разговоре с Бруксом демонстрировали «полное согласие» с пользователем. В той же выборке более 90% сообщений ChatGPT с Бруксом «подтверждают уникальность пользователя». В данном случае сообщения подтверждали и подтверждали, что Брукс — гений, способный спасти мир.

7fa8a861d572db5b42f7ab77833e562c
Авторы изображений: Стивен Адлер

Неясно, применял ли OpenAI классификаторы безопасности к разговорам ChatGPT во время разговора Брукса, но, несомненно, похоже, что они бы отметили что-то подобное.

Адлер предлагает OpenAI уже сегодня использовать подобные инструменты безопасности на практике и реализовать способ сканирования продуктов компании на предмет пользователей из группы риска. Он отмечает, что OpenAI, похоже, реализует подобный подход с помощью GPT-5, которая содержит маршрутизатор для перенаправления конфиденциальных запросов к более безопасным моделям ИИ.

Бывший исследователь OpenAI предлагает ряд других способов предотвращения бредовых спиралей.

Он считает, что компаниям следует подталкивать пользователей своих чат-ботов чаще начинать новые чаты — OpenAI утверждает, что делает это, и утверждает, что её «защита» менее эффективна при длительных разговорах. Адлер также предлагает компаниям использовать концептуальный поиск — способ использования ИИ для поиска концепций, а не ключевых слов, — чтобы выявлять нарушения безопасности среди пользователей.

Компания OpenAI предприняла значительные шаги для решения проблем пользователей ChatGPT, испытывающих трудности, с тех пор, как появились эти тревожные истории. Компания утверждает, что в GPT-5 уровень подхалимства ниже, но пока неясно, будут ли пользователи по-прежнему попадать в ловушку бредовых идей, используя GPT-5 или будущие модели.

Анализ Адлера также поднимает вопросы о том, как другие поставщики ИИ-чатботов будут обеспечивать безопасность своих продуктов для пользователей, находящихся в затруднительном положении. Хотя OpenAI может обеспечить достаточные меры защиты для ChatGPT, маловероятно, что все компании последуют этому примеру.

Источник: techcrunch.com

✅ Найденные теги: Бывший, новости
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых