После того, как антропологические модели ИИ напугали Трампа и заставили его провести испытания на безопасность, они получили глобальный релиз.
В США сняты ограничения на использование передовых моделей Fable и Mythos от компании Anthropic.
Фото: NurPhoto / Автор | NurPhoto Фото: NurPhoto / Автор | NurPhoto
США отменили экспортные ограничения на новейшие модели Claude компании Anthropic, Fable 5 и Mythos 5, примерно через три недели после того, как администрация Трампа обозначила эти модели как угрозу национальной безопасности.
Как подтвердила сегодня компания Anthropic в своем блоге, Fable 5 будет доступен по всему миру, а доступ к Mythos 5 для организаций в США был восстановлен с 26 июня. Anthropic заявила, что сейчас работает с правительством над расширением доступа к Mythos для «более широкого круга внутренних и международных партнеров в рамках программы Glasswing». Эта программа позволяет исследователям кибербезопасности из надежных компаний получать доступ к Mythos в целях защиты.
В письме к компании Anthropic, с которым ознакомились Reuters и The New York Times, министр торговли Говард Лютник заявил, что Anthropic «больше не потребуется лицензия на экспорт или передачу внутри страны своих моделей искусственного интеллекта Claude Mythos и Claude Fable». В письме признавалось, что Anthropic «предприняла шаги в тесной координации с правительством США для устранения рисков», создаваемых этими моделями.
Столкнувшись с задержкой в выпуске своих моделей, Лютник заявил, что Anthropic согласилась расширить партнерство с правительством. Компания также сообщила о создании программы сотрудничества с хакерами для проведения «красной команды» (red-team) для проверки ее моделей, и о создании специальной внутренней команды, которая круглосуточно отслеживает сообщения о возникающих угрозах, связанных с джейлбрейком.
В письме Лютник напомнил Anthropic, что США «оставляют за собой право пересмотреть решения» и вновь ввести экспортные ограничения в любой момент. Но пока Лютник вместе с главой администрации Белого дома Сьюзи Уайлз праздновали передислокацию Fable 5 на планету X.
«В течение последних двух недель мы тесно сотрудничали с компанией Anthropic для анализа и утверждения Fable 5, чтобы обеспечить согласованность действий всего правительства США и укрепить лидерство Америки в области искусственного интеллекта», — сказал Лутник.
Уайлз напрямую не упомянул компанию Anthropic, но заявил о победе Трампа, написав, что «правительство и частный сектор работали вместе так, как мы никогда прежде не видели, и этот фундамент принципа «Америка прежде всего» беспрецедентен. Наш общий приоритет остается неизменным: как можно быстрее и безопаснее внедрить лучшие технологии».
Компромисс: Fable 5 может блокировать выполнение рутинных задач программирования.
12 июня Министерство торговли США распорядилось, чтобы компания Anthropic заблокировала доступ к своим самым передовым моделям для всех, кто находится за пределами США. Это распоряжение было вызвано опасениями, что Китай, Россия или другие страны, вызывающие озабоченность, могут использовать эти модели для атак на инфраструктуру США, например, на электросети или банковскую систему. В ответ Anthropic полностью отключила доступ, поскольку у компании не было возможности блокировать пользователей по странам.
В частности, модель Mythos рассматривалась как «исключительно привлекательная для злоумышленников, желающих использовать ее в кибератаках», говорится в блоге Anthropic. По данным Anthropic, эта модель «может использоваться для поиска и эксплуатации уязвимостей программного обеспечения более эффективно, чем любая другая модель — и подходит для всех, кроме самых опытных специалистов по кибербезопасности», и эти «огромные возможности в области кибербезопасности» могут быть использованы против США.
Компания Anthropic заявила, что Fable 5 использует «ту же самую базовую модель», но, в отличие от Mythos 5, «не предоставляет таких уникальных наступательных возможностей». Разработанная для широкой публики, Fable 5 уже обладала самыми надежными механизмами защиты, которые Anthropic когда-либо применяла к моделям, и, по словам Anthropic, эти механизмы защиты теперь стали еще сильнее перед передислокацией.
После нескольких недель тестирования Fable 5 больше не уязвима для метода обхода, обнаруженного исследователями Amazon, который выявил несколько уязвимостей программного обеспечения и привел к срабатыванию ограничений на экспорт. Наиболее тревожным, по словам Anthropic, был случай, когда модель была изменена таким образом, чтобы создать код, демонстрирующий, как можно использовать уязвимость.
По данным Anthropic, тестирование подтвердило, что менее совершенные конкурирующие модели на рынке, такие как GPT-5.5 и Kimi K2.7, «могли выявить те же уязвимости, что и Fable 5, описанная в отчете». Это подтвердило, что «описанная методика не выявила каких-либо уникальных кибервозможностей уровня Mythos», — заявили в Anthropic, — и «занимала лишь рутинную работу по обеспечению кибербезопасности».
«Тем не менее, мы быстро отреагировали на сообщения об обходе блокировки», — написала компания Anthropic. По данным Anthropic, этот метод взлома в настоящее время блокируется более чем в 99 процентах случаев. Однако ужесточение мер безопасности повлекло за собой «компромисс», который может привести к блокировке некоторых безобидных запросов «во время выполнения рутинных задач кодирования и отладки», признала компания.
«В тесном сотрудничестве с правительством мы обучили усовершенствованный классификатор безопасности, который выявляет и блокирует действия, описанные в отчете», — заявили в Anthropic. «Пользователи будут уведомлены, если запрос к Fable 5 будет заблокирован, и запрос будет перенаправлен в Opus 4.8».
Конечно, новый классификатор Anthropic, помогающий избежать особо опасных атак на модели, может допускать «ошибки», заявили в компании. Anthropic давно утверждает, что «вероятно, невозможно» создать модель, полностью «невосприимчивую» к взлому, но, наращивая усилия по выявлению уязвимостей, Anthropic надеется «обеспечить, чтобы мы и наши партнеры по безопасности первыми обнаружили серьезные взломы и устранили их до того, как злоумышленники смогут использовать их во вред».
Как сообщила компания Anthropic, атака, о которой сообщила Amazon, в настоящее время работает только в «очень небольшой доле случаев», когда «модель может предоставлять информацию, недостаточно подробную, чтобы помочь киберпреступнику».
В Anthropic, проявляя «осторожность», отметили, что «подавляющее большинство попыток взлома не позволят успешно устранить опасное поведение» и будут «очень дорогостоящими и трудоемкими в реализации».
«Даже если взлом пройдет успешно, наши дополнительные уровни защиты», которые включают блокировку некоторых безобидных запросов, «обеспечивают дополнительную защиту», — заявила компания.
План компании Anthropic по организации побегов из тюрьмы
В сообщении в блоге Anthropic, похоже, принижается угроза, которую Amazon определила как менее опасную, чем то, что она считает наибольшей угрозой для правительств: повсеместный взлом систем (jailbreak), способный открыть широкий спектр уязвимостей и позволить совершать непредсказуемые атаки.
Чтобы оптимизировать государственно-частное партнерство и обеспечить максимально быстрое реагирование на самые серьезные риски, организация Anthropic заявила, что целью индустрии ИИ должна стать классификация рисков для обеспечения надлежащего вмешательства как внутри страны, так и со стороны правительства.
В настоящее время Anthropic сотрудничает с Amazon, Microsoft, Google и другими партнерами Glasswing для «разработки согласованной концепции оценки серьезности взломов ИИ и того, как разработчики ИИ должны реагировать на них».
Компания Anthropic заявила, что другие партнеры по отрасли могут присоединиться к этим переговорам, несмотря на то, что процесс «несовершенен» и сосредоточен на установлении четырех критериев оценки джейлбрейка. К ним относятся оценка того, какие возможности предоставляет джейлбрейк, сколько атакующих задач он позволяет выполнять, насколько легко человеку использовать джейлбрейк в качестве оружия (джейлбрейки с одним запросом считаются наиболее рискованными) и требуются ли специальные знания для обнаружения джейлбрейка.
Как сообщается в блоге, используя эту структуру, компания Anthropic создала команду, которая будет круглосуточно отслеживать каналы отправки заявок на джейлбрейк. Компания, занимающаяся разработкой ИИ, также подтвердила запуск «новой программы HackerOne, в рамках которой исследователи безопасности смогут отправлять информацию о потенциальных кибер-джейлбрейках, обнаруженных ими в Fable 5», чтобы сделать тестирование на уязвимости (red-teaming) приоритетной задачей.
Антропогенные факторы укрепляют связи с правительством.
Для компании Anthropic одним из результатов государственных испытаний, по-видимому, стало улучшение отношений с правительством после того, как она подала в суд на США из-за присвоения ей статуса угрозы национальной безопасности, в результате чего компания, занимающаяся искусственным интеллектом, была внесена в черный список. Anthropic утверждала, что это решение было местью за отказ компании предоставить правительству доступ к моделям для целей создания автономного оружия или проведения массового наблюдения внутри страны.
В своем блоге компания Anthropic заявила о расширении сотрудничества с государственными партнерами в области предварительного тестирования и оценки. Эти усилия будут включать предоставление правительству раннего доступа к передовым моделям, оперативное распространение информации о новых методах взлома и выделение ресурсов на совместные исследования, которые «помогут продвинуться в области оценки ИИ», — говорится в заявлении Anthropic.
Как заявила организация Anthropic, это сотрудничество «закладывает основу для эффективной глобальной координации в отношении рисков и преимуществ ИИ», и призвала Конгресс принять законы, гарантирующие, что все разработчики передовых моделей будут придерживаться единого мнения.
Правительство действует слишком медленно, что не устраивает компанию Anthropic. Генеральный директор Anthropic Дарио Амодей в начале этого месяца выдвинул свой законопроект, подчеркнув свою точку зрения отсылкой к «Властелину колец»:
В одном из побочных сюжетов В «Властелине колец» двое хоббитов пытаются разбудить Древоборода — мудрое, но неповоротливое разумное дерево, — чтобы тот защитил свой лес от армии, которая его вырубает. Проблема в том, что Древобород действует с совершенно другой скоростью, чем хоббиты. Ему требуется целый день, чтобы просто поздороваться с другим деревом, поэтому заставить его и его сородичей действовать достаточно быстро практически невозможно. Пересечение искусственного интеллекта и наших политических институтов немного напоминает историю хоббитов и Древоборода.
Изначально Трамп планировал не вмешиваться в регулирование ИИ, чтобы стимулировать инновации. Однако публикация компанией Anthropic модели Mythos напугала Трампа, и в мае он потребовал добровольного тестирования безопасности перспективных моделей. С тех пор Трамп «все еще работает над структурой того, как компании должны официально представлять новые модели ИИ на рассмотрение и каким стандартам они должны соответствовать», — сообщили NYT два источника, знакомые с ходом обсуждений.
В своем сообщении Амодей призвал Конгресс незамедлительно пересмотреть правила безопасности для мира, в котором «искусственный интеллект может превратиться из забавной игрушки» в «целую страну гениев в центре обработки данных», иначе ему грозят «стратегические последствия национального масштаба».
Однако Исаак Харрис, исполнительный директор Frontier Security Institute, некоммерческой организации, занимающейся вопросами ИИ и национальной безопасности, заявил Reuters, что «самый большой вопросительный знак» после углубления партнерства Anthropic с правительством заключается в том, «как администрация будет реагировать на аналогичные опасные возможности, поступающие из Китая, но с меньшими ограничениями, на американском рынке».
Примечательно, что Anthropic недавно обвинила китайскую компанию Alibaba, занимающуюся разработкой искусственного интеллекта, в проведении крупнейшей атаки с использованием клонирования модели Claude. В ответ Anthropic призвала Конгресс принять законы, которые бы наказывали китайские фирмы, уличенные в краже разработок американских компаний. В противном случае злоумышленники, не имеющие доступа к моделям Anthropic, могут обратиться к китайским моделям с более низким уровнем защиты и все более близкими возможностями для проведения атак, которые застанут США врасплох.
Источник: arstechnica.com
Похожие записи
Оцените материал:
Похожие записи
Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email
Получайте свежие новости и идеи на почту. Без спама — только самое интересное.
Нажимая «Подписаться», вы соглашаетесь с политикой конфиденциальности.
