Компания Anthropic заявляет, что эти темы слишком опасны, чтобы позволять модели из Fable 5 обсуждать их.
Новая передовая модель отвергает запросы в области кибербезопасности, биологии и химии.

Компания Anthropic утверждает, что некоторые из самых «опасных» частей Mythos 5 недоступны в общедоступной модели Fable 5. (Фото : Getty Images)
Компания Anthropic во вторник публично представила Claude Fable 5, свою первую модель «класса Mythos», которая, по её словам, превосходит предыдущие модели Opus по общим возможностям. Однако запуск этой модели сопровождается мерами безопасности, призванными предотвратить ответы на запросы по таким темам, как кибербезопасность, биология и химия, где компания публично выражала опасения по поводу потенциального влияния на «поддержку» злоумышленников.
Компания Anthropic заявляет, что Fable 5 работает на «той же базовой модели», что и Mythos 5, который сегодня выходит из многомесячного периода «предварительного просмотра Mythos», но только для «небольшой группы киберзащитников», признанных заслуживающими доверия в рамках существующего проекта Glasswing. Однако, в отличие от Mythos 5, общедоступная версия Fable 5 предназначена для перенаправления запросов по определенным конфиденциальным темам в более раннюю модель Claude Opus 4.8 и предупреждения пользователя о таких запросах.
Среди множества заявленных улучшений в Fable 5 особенно заметным стал прогресс в области кибербезопасности. Источник: AnthropicКомпания Anthropic заявила, что настроила эти меры защиты на «более строгие, чем в идеале», а это означает, что система может иногда отклонять «безобидные запросы», что, как признает компания, может вызывать разочарование у обычных пользователей. Однако Anthropic утверждает, что такие ложные срабатывания встречаются менее чем в пяти процентах всех тестовых сессий, и это было оправдано, чтобы избежать ситуаций, когда Mythos мог бы помочь злоумышленникам «причинить серьезный вред, который они не могли бы получить из других источников».
Я не могу этого позволить, Дэйв.
Тематическая защита Fable 5 построена на основе системы классификаторов, предназначенной для широкого обнаружения запрещенных тем подсказок, а также любых потенциальных попыток взлома. По данным Anthropic, в ходе более чем 1000 часов тестирования с участием «красной команды» в рамках программы вознаграждения за обнаружение ошибок, внешним группам не удалось найти универсальных способов взлома Fable 5. Новая модель также в гораздо большей степени противостояла автоматическим попыткам взлома, чем предыдущие модели Claude Opus, заявили в Anthropic.
Компания заявила, что особенно обеспокоена способностью Mythos 5 осуществлять «агентный взлом», то есть выполнять многоэтапные кибератаки с гораздо большей легкостью, чем более ранние модели. Однако тестирование, проведенное британским Институтом безопасности ИИ в последние месяцы, показало, что Mythos Preview показал результаты, аналогичные GPT-5.5 от OpenAI в серии задач Capture the Flag, что говорит о том, что производительность Mythos не является «прорывом, характерным только для одной модели».
Компания Anthropic утверждает, что Fable 5 обладает гораздо более надежной защитой от автоматизированных и «красных» тестов на взлом. Источник: AnthropicВ дополнение к обычному набору улучшений в тестах производительности, о которых Anthropic сообщает для Mythos 5 по сравнению с предыдущими моделями Frontier, компания заявляет о значительном увеличении возможностей модели в тесте ExploitBench, ориентированном на кибербезопасность. Mythos 5 набрал 78 процентов в тестах уязвимого кода, что значительно выше 40 процентов, показанных Opus 4.8, и даже 69 процентов, достигнутых Mythos Preview.
В то время как более ранние антропные модели блокировали запросы, связанные с биологическим оружием, в Fable 5 этот классификатор применяется ко всем запросам, связанным с химией и биологией. Компания заявляет, что опасается, что «хорошо обеспеченные ресурсами злоумышленники» могут использовать даже, казалось бы, безобидные запросы по этим темам для проведения «крайне рискованных биологических исследований» гораздо более эффективным способом, чем это было возможно с предыдущими моделями.
Кому можно доверять?
Компания Anthropic, похоже, понимает, что ограничение доступа к определенным темам для Fable 5 — это палка о двух концах. Компания пишет, что «те же самые запросы, которые полезны в руках специалистов по кибербезопасности и исследователей в области биологии, могут быть опасны, если станут доступны злоумышленникам».
Это ставит Anthropic в несколько неловкое положение, заставляя компанию оценивать, кому можно доверять, а кому нет, чтобы предоставить доступ к модели, которая, по её словам, обладает потенциально опасными возможностями. Компания заявляет, что будет периодически расширять свою существующую программу Project Glasswing «в консультации с правительством США», чтобы допустить к участию больше специалистов по кибербезопасности. Это расширение также будет включать новую программу доверенного доступа для организаций, работающих в области биологических наук, которая отменяет меры защиты от биологических/химических угроз, используемые в Fable 5, сохраняя при этом меры защиты от киберугроз.
Начиная с сегодняшнего дня, пользователи API и корпоративные пользователи смогут получить доступ к модели Fable 5 по цене 10 долларов за миллион входных токенов и 50 долларов за миллион выходных токенов. Эти цены на 67–100 процентов выше, чем у недавно вышедшей модели GPT-5.5 от OpenAI, и эта разница может быть существенной в условиях, когда многие пользователи опасаются высокой стоимости новых моделей.
Существующие тарифные планы подписки Anthropic будут включать доступ к Fable 5 до 22 июня, после чего пользователям потребуется приобрести «кредиты использования» для доступа к новой модели. Anthropic заявляет, что в конечном итоге надеется восстановить доступ к Fable 5 в качестве стандартной части тарифных планов подписки, как только у компании появится «достаточная мощность» для этого.
Источник: arstechnica.com
Похожие записи
- Промпт-инъекции в реальных данных, широкие права доступа и другие способы сломать ИИ-агента
- Мнение The Guardian о детях и интернете: сдерживание неограниченной власти крупных технологических компаний | Редакционная статья
- Неожиданная победа: GPT-5.5 превзошла Claude Fable 5 в новом, невероятно сложном тесте Agents' Last Exam.
Похожие записи
Автор бестселлера «ИИ-2041» Чэнь Цюфань, писатель фантаст, работает с Гугл, Яндексом и другими крупнейшими компаниями
01.02.2026
Китайская CXMT начала поставки образцов памяти HBM3 для Huawei
28.10.2025
Чистая прибыль SERES за первые три квартала достигла 5,312 млрд юаней, сделав компанию первым производителем роскошных автомобилей на новой энергии с котировкой «A+H»
04.11.2025Подписка на рассылку
Получайте свежие новости и идеи на почту. Без спама — только самое интересное.
Нажимая «Подписаться», вы соглашаетесь с политикой конфиденциальности.
