Архив рубрики ~Лента новостей~

Компания Anthropic заявляет, что эти темы слишком опасны, чтобы позволять модели из Fable 5 обсуждать их.

Компания Anthropic заявляет, что эти темы слишком опасны, чтобы позволять модели из Fable 5 обсуждать их.

Новая передовая модель отвергает запросы в области кибербезопасности, биологии и химии.

44c8ccfe1dc0b5cf4e07ffd3f70baa12 Компания Anthropic утверждает, что некоторые из самых «опасных» частей Mythos 5 недоступны в общедоступной модели Fable 5. (Фото : Getty Images)

Компания Anthropic во вторник публично представила Claude Fable 5, свою первую модель «класса Mythos», которая, по её словам, превосходит предыдущие модели Opus по общим возможностям. Однако запуск этой модели сопровождается мерами безопасности, призванными предотвратить ответы на запросы по таким темам, как кибербезопасность, биология и химия, где компания публично выражала опасения по поводу потенциального влияния на «поддержку» злоумышленников.

Компания Anthropic заявляет, что Fable 5 работает на «той же базовой модели», что и Mythos 5, который сегодня выходит из многомесячного периода «предварительного просмотра Mythos», но только для «небольшой группы киберзащитников», признанных заслуживающими доверия в рамках существующего проекта Glasswing. Однако, в отличие от Mythos 5, общедоступная версия Fable 5 предназначена для перенаправления запросов по определенным конфиденциальным темам в более раннюю модель Claude Opus 4.8 и предупреждения пользователя о таких запросах.

1bd0c9390cbd6cd3f4168ed8c3c06274 Среди множества заявленных улучшений в Fable 5 особенно заметным стал прогресс в области кибербезопасности. Источник: Anthropic
Среди множества заявленных улучшений в Fable 5 особенно заметным стал прогресс в области кибербезопасности. Источник: Anthropic

Компания Anthropic заявила, что настроила эти меры защиты на «более строгие, чем в идеале», а это означает, что система может иногда отклонять «безобидные запросы», что, как признает компания, может вызывать разочарование у обычных пользователей. Однако Anthropic утверждает, что такие ложные срабатывания встречаются менее чем в пяти процентах всех тестовых сессий, и это было оправдано, чтобы избежать ситуаций, когда Mythos мог бы помочь злоумышленникам «причинить серьезный вред, который они не могли бы получить из других источников».

Я не могу этого позволить, Дэйв.

Тематическая защита Fable 5 построена на основе системы классификаторов, предназначенной для широкого обнаружения запрещенных тем подсказок, а также любых потенциальных попыток взлома. По данным Anthropic, в ходе более чем 1000 часов тестирования с участием «красной команды» в рамках программы вознаграждения за обнаружение ошибок, внешним группам не удалось найти универсальных способов взлома Fable 5. Новая модель также в гораздо большей степени противостояла автоматическим попыткам взлома, чем предыдущие модели Claude Opus, заявили в Anthropic.

Компания заявила, что особенно обеспокоена способностью Mythos 5 осуществлять «агентный взлом», то есть выполнять многоэтапные кибератаки с гораздо большей легкостью, чем более ранние модели. Однако тестирование, проведенное британским Институтом безопасности ИИ в последние месяцы, показало, что Mythos Preview показал результаты, аналогичные GPT-5.5 от OpenAI в серии задач Capture the Flag, что говорит о том, что производительность Mythos не является «прорывом, характерным только для одной модели».

a23f1a2033a8a97e49afe8be407258a8 Компания Anthropic утверждает, что Fable 5 обладает гораздо более надежной защитой от автоматизированных и «красных» тестов на взлом. Источник: Anthropic
Компания Anthropic утверждает, что Fable 5 обладает гораздо более надежной защитой от автоматизированных и «красных» тестов на взлом. Источник: Anthropic

В дополнение к обычному набору улучшений в тестах производительности, о которых Anthropic сообщает для Mythos 5 по сравнению с предыдущими моделями Frontier, компания заявляет о значительном увеличении возможностей модели в тесте ExploitBench, ориентированном на кибербезопасность. Mythos 5 набрал 78 процентов в тестах уязвимого кода, что значительно выше 40 процентов, показанных Opus 4.8, и даже 69 процентов, достигнутых Mythos Preview.

В то время как более ранние антропные модели блокировали запросы, связанные с биологическим оружием, в Fable 5 этот классификатор применяется ко всем запросам, связанным с химией и биологией. Компания заявляет, что опасается, что «хорошо обеспеченные ресурсами злоумышленники» могут использовать даже, казалось бы, безобидные запросы по этим темам для проведения «крайне рискованных биологических исследований» гораздо более эффективным способом, чем это было возможно с предыдущими моделями.

Кому можно доверять?

Компания Anthropic, похоже, понимает, что ограничение доступа к определенным темам для Fable 5 — это палка о двух концах. Компания пишет, что «те же самые запросы, которые полезны в руках специалистов по кибербезопасности и исследователей в области биологии, могут быть опасны, если станут доступны злоумышленникам».

Это ставит Anthropic в несколько неловкое положение, заставляя компанию оценивать, кому можно доверять, а кому нет, чтобы предоставить доступ к модели, которая, по её словам, обладает потенциально опасными возможностями. Компания заявляет, что будет периодически расширять свою существующую программу Project Glasswing «в консультации с правительством США», чтобы допустить к участию больше специалистов по кибербезопасности. Это расширение также будет включать новую программу доверенного доступа для организаций, работающих в области биологических наук, которая отменяет меры защиты от биологических/химических угроз, используемые в Fable 5, сохраняя при этом меры защиты от киберугроз.

Начиная с сегодняшнего дня, пользователи API и корпоративные пользователи смогут получить доступ к модели Fable 5 по цене 10 долларов за миллион входных токенов и 50 долларов за миллион выходных токенов. Эти цены на 67–100 процентов выше, чем у недавно вышедшей модели GPT-5.5 от OpenAI, и эта разница может быть существенной в условиях, когда многие пользователи опасаются высокой стоимости новых моделей.

Существующие тарифные планы подписки Anthropic будут включать доступ к Fable 5 до 22 июня, после чего пользователям потребуется приобрести «кредиты использования» для доступа к новой модели. Anthropic заявляет, что в конечном итоге надеется восстановить доступ к Fable 5 в качестве стандартной части тарифных планов подписки, как только у компании появится «достаточная мощность» для этого.

Источник: arstechnica.com

✅ Найденные теги: Anthropic, Заявляет, Компания, новости, Темы, Эти
Читайте также
Архив рубрики ~Коротко из Telegram~ Госдума приняла нормы, предусматривающие штрафы за нарушение новых требований к… Архив рубрики ~Обо всем~ Лучшие предложения на роботы-пылесосы в рамках Prime Day, которые я бы купил сейчас, после тестирования десятков вариантов. Архив рубрики ~Обо всем~ Мы профессионально отслеживаем выгодные предложения: вот лучшие предложения, которые нашли наши эксперты CNET на этой неделе. Архив рубрики ~Обо всем~ Как обучить модель оценки в эпоху искусственного интеллекта Архив рубрики ~Коротко из Telegram~ 🤖 Промышленным компаниям помогут внедрить ИИ На Архитектурном совете кластера… Архив рубрики ~Коротко из Telegram~ Шопоголикам выписали плацебо Любопытный тренд пришел из Южной Кореи. Там… Архив рубрики ~Коротко из Telegram~ Возвращаясь в мир без интернета Ozon Банк начал тестировать перевод… Архив рубрики ~Коротко из Telegram~ ♻️ Городские камеры подключат к борьбе с незаконными свалками NtechLab… Архив рубрики ~Коротко из Telegram~ Эксперты Data Insight выпустили новый рейтинг крупнейших интернет-магазинов России за… Архив рубрики ~Коротко из Telegram~ LLM delenda est или Язык до AGI не доведет Свежее… Архив рубрики ~Коротко из Telegram~ Обратил внимание, что ребята из Anthropic Institute (исследовательская лаба Антропиков)… Архив рубрики ~Коротко из Telegram~ Про Fable 5 еще. Сегодня уже была новость об этой… Архив рубрики ~Коротко из Telegram~ Pokémon Go помогал ловить покемонов, а теперь может помочь дронам… Архив рубрики ~Коротко из Telegram~ Учёные собрали полную карту нервной системы дрозофилы Исследователи полностью оцифровали… Архив рубрики ~Коротко из Telegram~ Госдума приняла нормы, предусматривающие штрафы за нарушение новых требований к… Архив рубрики ~Обо всем~ Лучшие предложения на роботы-пылесосы в рамках Prime Day, которые я бы купил сейчас, после тестирования десятков вариантов. Архив рубрики ~Обо всем~ Мы профессионально отслеживаем выгодные предложения: вот лучшие предложения, которые нашли наши эксперты CNET на этой неделе. Архив рубрики ~Обо всем~ Как обучить модель оценки в эпоху искусственного интеллекта Архив рубрики ~Коротко из Telegram~ 🤖 Промышленным компаниям помогут внедрить ИИ На Архитектурном совете кластера… Архив рубрики ~Коротко из Telegram~ Шопоголикам выписали плацебо Любопытный тренд пришел из Южной Кореи. Там… Архив рубрики ~Коротко из Telegram~ Возвращаясь в мир без интернета Ozon Банк начал тестировать перевод… Архив рубрики ~Коротко из Telegram~ ♻️ Городские камеры подключат к борьбе с незаконными свалками NtechLab… Архив рубрики ~Коротко из Telegram~ Эксперты Data Insight выпустили новый рейтинг крупнейших интернет-магазинов России за… Архив рубрики ~Коротко из Telegram~ LLM delenda est или Язык до AGI не доведет Свежее… Архив рубрики ~Коротко из Telegram~ Обратил внимание, что ребята из Anthropic Institute (исследовательская лаба Антропиков)… Архив рубрики ~Коротко из Telegram~ Про Fable 5 еще. Сегодня уже была новость об этой… Архив рубрики ~Коротко из Telegram~ Pokémon Go помогал ловить покемонов, а теперь может помочь дронам… Архив рубрики ~Коротко из Telegram~ Учёные собрали полную карту нервной системы дрозофилы Исследователи полностью оцифровали…

Оставить комментарий

Подписка на рассылку

Получайте свежие новости и идеи на почту. Без спама — только самое интересное.

Нажимая «Подписаться», вы соглашаетесь с политикой конфиденциальности.