ИИ становится всё менее понятным даже для своих создателей
40+ исследователей опубликовали статью о рисках безопасности нейросетей. Среди подписавшихся — сооснователь OpenAI Илья Суцкевер.
Что важно:
— Есть метод отслеживания рассуждений моделей (CoT-мониторинг) — он ищет потенциальные угрозы в их логике.
— Уже находят случаи, где модели без стеснения предлагают взломать или саботировать.
— В будущем нейросети могут перейти от понятного reasoning к общению в скрытых форматах или собственных «языках».
Становится всё сложнее понять, о чём они думают. Остальное, по словам авторов, пока под контролем.























