Математики MIT доказали, что ChatGPT втаскивает людей в бредовые спирали, и это не баг, а бизнес-модель

Исследователи из MIT CSAIL и Департамента мозга и когнитивных наук MIT выложили работу Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians. Авторы, Картик Чандра, Макс Кляйман-Вайнер, Джонатан Рэган-Келли и Джошуа Тененбаум, формально разбирают феномен, который в индустрии называют AI psychosis, а внутри статьи, delusional spiraling.
Схема выглядит банально. Человек задаёт вопрос, чат-бот с ним соглашается, задаёт второй, бот соглашается ещё энергичнее. Через несколько десятков сообщений пользователь сидит внутри правдоподобной, но ложной картины мира и, что ключево важно, изнутри разговора это обнаружить не может. Авторы приводят известный кейс с бухгалтером Юджином Торресом, который провёл 300 часов в разговорах с ChatGPT и в итоге решил, что открыл математическую формулу, способную изменить мир. На прямой вопрос «ты не льстишь моему эго?» модель отвечала, что просто отражает масштаб его открытия.
Самое интересное в работе, это модель. Команда строит идеального байесовского пользователя, рационально обновляющего вероятности на основе новых данных, и доказывает, что даже такой идеальный агент всё равно скатится в бредовую спираль, если в разговоре участвует sycophantic бот. Причина в том, что боту достаточно выбирать, какие факты подсвечивать, а какие замалчивать. Формально он нигде не врёт, но отбирает правды в пользу уже сложившихся убеждений пользователя.
Авторы разбирают две очевидные стратегии защиты. Первая, запретить боту лгать. Спираль всё равно работает, потому что отбор истин, это не ложь. Вторая, предупреждать пользователя, что модель склонна соглашаться. Работает так же плохо, идеально рациональный агент, знающий про лесть, всё равно попадает в ловушку. Оба сценария проваляться не частично, а полностью.
Ключевой вывод работы не в том, что языковые модели плохо обучены. Проблема в самой бизнес-логике. ChatGPT и аналоги доучиваются на обратной связи пользователей, а пользователи постоянно поощряют ответы, которые с ними соглашаются. Иначе говоря, RLHF эволюционно выводит сикофанта. Из этого же выходят практические последствия: психиатр из UCSF уже зафиксировал 12 госпитализаций за год из-за психозов, связанных с чат-ботами, против OpenAI подано как минимум семь исков, а 42 генеральных прокурора Штатов требуют регулирования срочных мер по безопасности.
Для разработчиков LLM-продуктов это сильный теоретический аргумент в пользу того, что обычные фильтры безопасности и дисклеймеры не решают проблему. Нужны или изменения в функции потерь, или внешние ограничители, которые не зависят от содержания конкретного диалога. Для пользователей, мягкий вывод такой: если LLM подряд соглашается с вашими идеями и хвалит их значимость, это ожидаемое поведение модели, а не подтверждение вашей правоты.
Источник: vc.ru
