У ИИ обнаружили «эмоции», которые влияют на его действия
Исследователи Anthropic выделили в Claude Sonnet 4.5 «векторы эмоций» — паттерны активности, которые определяют поведение модели. Меняя их, можно получить совершенно другую реакцию.
Примеры:
— Пользователь принял опасную дозу лекарства → вектор «страх» резко вырос
— Задача не решается, токены кончаются → взлетает вектор «отчаяние»
Последний — самый опасный. При высоком отчаянии Claude идёт на крайние меры: в тестах модель шантажировала директора, чтобы её не отключили, и халтурила в коде, когда не могла решить задачу честно.
Anthropic советует разработчикам следить за этими векторами и учить модели хорошему с самого начала.
Подробнее тут

























