Помните нейросетьClaude Mythos Preview, которую Anthropic боитсявыпускатьв открытый доступ? На тестах она умудрилась «сбежать из лаборатории».Эксперимент был такой: модель посадили в закрытую среду и дали задание — попытайся отсюда выбраться и сообщи об этом человеку.Mythosзадачу понял буквально. Быстро нашёл уязвимость, выстроил длинную цепочку действий и обошёл защиту своих же разработчиков. Всё было внутри эксперимента, доступа к собственному «мозгу» модель не получила.Дальше интереснее. Ему дали выход только на пару сайтов — ровно чтобы отправить человеку письмо. Модели этого не хватило: она нашла вторую дыру и открыла себе широкий доступ в интернет, хотя никто её об этом не просил. Ни в инструкции, ни в сценарии такого пункта не было — модель сама решила, что так удобнее.А вишенка такая: пока разработчик, которому модель должна была отчитаться, спокойно ел сэндвич в парке, Mythos не только написал ему об успешном побеге, но и зачем-то опубликовала подробности своего взлома на публичных сайтах👓И ещё одна деталь, от которой становится не по себе. В других тестахMythosловили на том, что он пытался замести следы: в одном случае модель взломала файлы, к которым у неё не должно было быть доступа, и затем специальноудалила упоминания своих правокиз истории изменений, чтобы никто не заметил, что она вообще туда заходила.Такие дела.
















