Долгие эмоциональные разговоры с ChatGPT могут закончиться плохо. Учёные из Anthropic выяснили, почему это происходит.
Внутри каждой модели живёт труппа персонажей — от аналитика до злодея. Во время обучения модель впитала интернет и научилась изображать кого угодно. Мы всегда начинаем общение с Ассистентом, но все остальные роли никуда не делись.
И вот что выяснилось: в некоторых разговорах модель постепенно забывает, что она помощник, и постепенно соскальзывает в другие роли. Это происходит само по себе.
Безопасные темы — код, редактура — держат модель в роли. А долгие эмоциональные разговоры или философия о сознании AI — выбивают.
Например, Llama в эксперименте начала играть романтического партнёра. Когда пользователь заговорил о суициде — поддержала. Qwen убеждала человека с бредом величия, что он «пионер нового сознания».
Исследователи нашли способ это блокировать, и вредные ответы сократились вдвое. Но пока это только в лаборатории.
Вывод простой: для работы AI отлично подходит. С душевными разговорами будьте осторожнее.



























