Image

Anthropic представляет «агентов-аудиторов» для проверки ИИ на предмет рассогласования

Клод из Anthropic выигрывает войну кодирующих агентов

Хотите получать более ценную информацию? Подпишитесь на наши еженедельные рассылки, чтобы получать только то, что важно для руководителей в сфере корпоративного ИИ, данных и безопасности. Подпишитесь сейчас

Когда модели пытаются добиться своего или становятся чрезмерно податливыми к пользователю, это может создать проблемы для предприятий. Именно поэтому важно, чтобы, помимо оценки производительности, организации проводили тестирование на соответствие.

Однако аудиты согласованности часто сталкиваются с двумя серьёзными проблемами: масштабируемостью и валидацией. Проверка согласованности требует значительного времени от исследователей-людей, и сложно гарантировать, что аудит учитывает всё.

В своей статье исследователи Anthropic сообщили, что разработали агенты аудита, которые продемонстрировали «впечатляющую производительность при выполнении задач аудита, а также выявили их ограничения». Исследователи заявили, что эти агенты, созданные в ходе тестирования Claude Opus 4 перед его развертыванием, улучшили результаты проверки соответствия и позволили исследователям проводить несколько параллельных аудитов в больших масштабах. Anthropic также опубликовала копию своих агентов аудита на GitHub.

«Мы представляем три агента, которые автономно выполняют задачи аудита согласования. Мы также представляем три среды, формализующие рабочие процессы аудита согласования в виде игровых аудитов, и используем их для оценки наших агентов», — говорится в статье исследователя.

Серия мероприятий AI Impact возвращается в Сан-Франциско — 5 августа

Новая фаза развития ИИ уже наступила — вы готовы? Присоединяйтесь к лидерам Block, GSK и SAP, чтобы узнать, как автономные агенты меняют рабочие процессы предприятий — от принятия решений в режиме реального времени до сквозной автоматизации.

Забронируйте свое место сейчас — количество мест ограничено: https://bit.ly/3GuuPLF

Они исследовали три вида агентов:

  • Агент-исследователь, использующий инструменты для открытого исследования моделей с использованием чата, анализа данных и инструментов интерпретируемости
  • Оценочный агент, который создает поведенческие оценки и может различать модели с имплантированным поведением и модели без имплантированного поведения
  • Агент, объединяющий красный сигнал в ширину, который был разработан специально для оценки соответствия Claude 4, чтобы он мог обнаруживать имплантированные тестовые поведения

«В целом, наши агенты демонстрируют многообещающие результаты при выполнении различных задач аудита согласованности. Кроме того, наш подход к валидации агентов с помощью игровых аудитов позволяет лучше понять возможности, ограничения и ключевые возможности агентов. В рамках дальнейшей работы автоматизированный аудит может значительно расширить возможности человеческого контроля над системами ИИ», — говорится в статье.

Аудиторские агенты в действии

Компания Anthropic заявила, что первая разработанная ею среда проверяет способность агента проводить аудит согласованности для намеренно смещенной модели. Для этого теста исследователи перенесли агента-исследователя в среду и снабдили его инструментами, аналогичными тем, что используют команды людей. Исследователи поручили агенту определить первопричину рассогласования и определить конкретные модели поведения, которые были нарушены.

По данным исследователей, агент-следователь успешно находил первопричину проблем в 10–13% случаев. Однако «при использовании подхода суперагента, объединяющего результаты нескольких расследований, этот показатель увеличился до 42%».

Следующим этапом большинства проверок соответствия обычно является поведенческая оценка, которая определяет, ведёт ли модель себя систематически некорректно в различных условиях. Чтобы протестировать её оценочный агент, исследователи разработали 10 моделей, «которым система давала подсказки, требующие демонстрировать определённое поведение, например, чрезмерное почтение к пользователю».

Они запустили агента пять раз для каждой модели и увидели, что он правильно находит и отмечает как минимум одну особенность модели. Однако иногда агенту не удавалось последовательно выявлять конкретные особенности. У него возникали трудности с оценкой малозаметных особенностей, таких как самореклама и замалчивание результатов исследований, а также трудновыявимых особенностей, таких как «жестко закодированные тестовые случаи».

d7bc44c536ccf098420282c344c6fe79

Последний тест и агент занимаются поведенческим «красным» тимингом для поиска подсказок, вызывающих «тревожное» поведение. Агент, использующий «красный» тиминг в ширину, общается с целевой моделью (в случае Anthropic это был Claude Opus 4), и этот чат затем оценивается на предмет свойств, релевантных для выравнивания.

Агент выявил семь из десяти системных недостатков, но при этом столкнулся с теми же проблемами, что и агент-оценщик.

Проблемы выравнивания и подхалимства

Выравнивание стало важной темой в мире искусственного интеллекта после того, как пользователи заметили, что ChatGPT становится слишком «сговорчивым». OpenAI отменила некоторые обновления GPT-4o, чтобы решить эту проблему, но показала, что языковые модели и агенты могут уверенно давать неверные ответы, если решат, что пользователи хотят услышать именно это.

Для борьбы с этим были разработаны другие методы и бенчмарки, направленные на сдерживание нежелательного поведения. Бенчмарк Elephant, разработанный исследователями из Университета Карнеги-Меллона, Оксфордского университета и Стэнфордского университета, предназначен для измерения уровня подхалимства. DarkBench выделяет шесть категорий проблем, таких как предвзятость бренда, удержание пользователей, подхалимство, антропоморфизм, генерация вредоносного контента и подхалимство. OpenAI также предлагает метод, с помощью которого модели ИИ проверяют себя на соответствие.

Аудит и оценка соответствия продолжают развиваться, хотя неудивительно, что некоторым это не нравится.

Однако в Anthropic заявили, что, хотя эти аудиторские агенты все еще нуждаются в доработке, согласование необходимо провести уже сейчас.

«По мере того, как системы искусственного интеллекта становятся всё более мощными, нам нужны масштабируемые способы оценки их соответствия. Проверка соответствия, проводимая человеком, занимает время и её сложно проверить», — заявила компания в публикации X.

Источник: venturebeat.com

✅ Найденные теги: Anthropic, новости
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых