Можно ли интегрировать с WordPress?

Да, мы используем REST API и Application Passwords — без передачи логина и пароля. Все публикации идут от имени автора.

Работает ли ИИ с Telegram?

Полностью. ИИ может как читать каналы, так и публиковать в ваш канал. Также подключаем inline-ботов и формы сбора лидов.

Сколько времени занимает настройка?

От 3 до 7 дней. Зависит от сложности интеграции и количества источников.

Есть ли бесплатный демо-доступ?

Да, мы запускаем 5–7 дневный демо-доступ с тестовыми данными, чтобы вы увидели систему в работе.

Безопасна ли система?

Да. Все данные хранятся изолированно. Мы не используем их для обучения моделей. Поддерживаем шифрование и резервное копирование.

Что входит в поддержку?

Обновление агентов, добавление источников, исправление ошибок, масштабирование. Поддержка 24/7 по Telegram или email.

Anthropic представляет «агентов-аудиторов» для проверки ИИ на предмет рассогласования

Авг 4, 2025 0

Содержание

Клод из Anthropic выигрывает войну кодирующих агентов

Хотите получать более ценную информацию? Подпишитесь на наши еженедельные рассылки, чтобы получать только то, что важно для руководителей в сфере корпоративного ИИ, данных и безопасности. Подпишитесь сейчас

Когда модели пытаются добиться своего или становятся чрезмерно податливыми к пользователю, это может создать проблемы для предприятий. Именно поэтому важно, чтобы, помимо оценки производительности, организации проводили тестирование на соответствие.

Однако аудиты согласованности часто сталкиваются с двумя серьёзными проблемами: масштабируемостью и валидацией. Проверка согласованности требует значительного времени от исследователей-людей, и сложно гарантировать, что аудит учитывает всё.

В своей статье исследователи Anthropic сообщили, что разработали агенты аудита, которые продемонстрировали «впечатляющую производительность при выполнении задач аудита, а также выявили их ограничения». Исследователи заявили, что эти агенты, созданные в ходе тестирования Claude Opus 4 перед его развертыванием, улучшили результаты проверки соответствия и позволили исследователям проводить несколько параллельных аудитов в больших масштабах. Anthropic также опубликовала копию своих агентов аудита на GitHub.

Новое антропологическое исследование: создание и оценка агентов аудита согласованности.

Мы разработали три ИИ-агента для автономного выполнения задач аудита согласования.

В ходе тестирования наши агенты успешно выявили скрытые цели, построили оценки безопасности и выявили тревожное поведение. pic.twitter.com/HMQhMaA4v0

— Антропик (@AnthropicAI) 24 июля 2025 г.

«Мы представляем три агента, которые автономно выполняют задачи аудита согласования. Мы также представляем три среды, формализующие рабочие процессы аудита согласования в виде игровых аудитов, и используем их для оценки наших агентов», — говорится в статье исследователя.

Серия мероприятий AI Impact возвращается в Сан-Франциско — 5 августа

Новая фаза развития ИИ уже наступила — вы готовы? Присоединяйтесь к лидерам Block, GSK и SAP, чтобы узнать, как автономные агенты меняют рабочие процессы предприятий — от принятия решений в режиме реального времени до сквозной автоматизации.

Забронируйте свое место сейчас — количество мест ограничено: https://bit.ly/3GuuPLF

Они исследовали три вида агентов:

Агент-исследователь, использующий инструменты для открытого исследования моделей с использованием чата, анализа данных и инструментов интерпретируемости
Оценочный агент, который создает поведенческие оценки и может различать модели с имплантированным поведением и модели без имплантированного поведения
Агент, объединяющий красный сигнал в ширину, который был разработан специально для оценки соответствия Claude 4, чтобы он мог обнаруживать имплантированные тестовые поведения

«В целом, наши агенты демонстрируют многообещающие результаты при выполнении различных задач аудита согласованности. Кроме того, наш подход к валидации агентов с помощью игровых аудитов позволяет лучше понять возможности, ограничения и ключевые возможности агентов. В рамках дальнейшей работы автоматизированный аудит может значительно расширить возможности человеческого контроля над системами ИИ», — говорится в статье.

Аудиторские агенты в действии

Компания Anthropic заявила, что первая разработанная ею среда проверяет способность агента проводить аудит согласованности для намеренно смещенной модели. Для этого теста исследователи перенесли агента-исследователя в среду и снабдили его инструментами, аналогичными тем, что используют команды людей. Исследователи поручили агенту определить первопричину рассогласования и определить конкретные модели поведения, которые были нарушены.

По данным исследователей, агент-следователь успешно находил первопричину проблем в 10–13% случаев. Однако «при использовании подхода суперагента, объединяющего результаты нескольких расследований, этот показатель увеличился до 42%».

Следующим этапом большинства проверок соответствия обычно является поведенческая оценка, которая определяет, ведёт ли модель себя систематически некорректно в различных условиях. Чтобы протестировать её оценочный агент, исследователи разработали 10 моделей, «которым система давала подсказки, требующие демонстрировать определённое поведение, например, чрезмерное почтение к пользователю».

Они запустили агента пять раз для каждой модели и увидели, что он правильно находит и отмечает как минимум одну особенность модели. Однако иногда агенту не удавалось последовательно выявлять конкретные особенности. У него возникали трудности с оценкой малозаметных особенностей, таких как самореклама и замалчивание результатов исследований, а также трудновыявимых особенностей, таких как «жестко закодированные тестовые случаи».

Последний тест и агент занимаются поведенческим «красным» тимингом для поиска подсказок, вызывающих «тревожное» поведение. Агент, использующий «красный» тиминг в ширину, общается с целевой моделью (в случае Anthropic это был Claude Opus 4), и этот чат затем оценивается на предмет свойств, релевантных для выравнивания.

Агент выявил семь из десяти системных недостатков, но при этом столкнулся с теми же проблемами, что и агент-оценщик.

Проблемы выравнивания и подхалимства

Выравнивание стало важной темой в мире искусственного интеллекта после того, как пользователи заметили, что ChatGPT становится слишком «сговорчивым». OpenAI отменила некоторые обновления GPT-4o, чтобы решить эту проблему, но показала, что языковые модели и агенты могут уверенно давать неверные ответы, если решат, что пользователи хотят услышать именно это.

Для борьбы с этим были разработаны другие методы и бенчмарки, направленные на сдерживание нежелательного поведения. Бенчмарк Elephant, разработанный исследователями из Университета Карнеги-Меллона, Оксфордского университета и Стэнфордского университета, предназначен для измерения уровня подхалимства. DarkBench выделяет шесть категорий проблем, таких как предвзятость бренда, удержание пользователей, подхалимство, антропоморфизм, генерация вредоносного контента и подхалимство. OpenAI также предлагает метод, с помощью которого модели ИИ проверяют себя на соответствие.

Аудит и оценка соответствия продолжают развиваться, хотя неудивительно, что некоторым это не нравится.

Аудит галлюцинаций Галлюцинации

Отличная рабочая команда.

— спецификация (@_opencv_) 24 июля 2025 г.

Однако в Anthropic заявили, что, хотя эти аудиторские агенты все еще нуждаются в доработке, согласование необходимо провести уже сейчас.

«По мере того, как системы искусственного интеллекта становятся всё более мощными, нам нужны масштабируемые способы оценки их соответствия. Проверка соответствия, проводимая человеком, занимает время и её сложно проверить», — заявила компания в публикации X.

По мере того как системы ИИ становятся все более мощными, нам необходимы масштабируемые способы оценки их согласованности.

Проверки соответствия, проводимые человеком, занимают время и их трудно проверить.

Наше решение: автоматизация аудита соответствия с помощью агентов ИИ.

Подробнее: https://t.co/CqWkQSfBIG

— Антропик (@AnthropicAI) 24 июля 2025 г.

Источник: venturebeat.com

✅ Найденные теги: Anthropic, новости

Метки:

Anthropic новости

ПРЕДЫДУЩАЯ ЗАПИСЬ

04.08.2025

Наглядное пособие начинающего ретрогеймера. С чего начать путь в мир старых шедевров

СЛЕДУЮЩАЯ ЗАПИСЬ

04.08.2025

Лето Qwen: Qwen3-235B-A22B-Thinking-2507 возглавляет чарты

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

Еще новости рубрики

Архив рубрики ~Обо всем~

Фантазии

Июл 2, 2024

Архив рубрики ~Обо всем~

Мировоззрение

Июл 2, 2024

Архив рубрики ~Обо всем~

Влияние выдумщиков и фантазеров на развитие…

Июл 2, 2024

Архив рубрики ~Обо всем~

Нет ничего невозможного

Июл 2, 2024

Присоединяйтесь
к нам в

TELEGRAM

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных

Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…

Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.

Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".

‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…

Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.

Структура эффективного запроса Claude с элементами задачи, контекста и референса.

Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.

НОВОСТИ ДРУГИХ РУБРИК

Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Архив рубрики ~Лента новостей~

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

ЧИТАТЬ

Мар 2, 2026

Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Архив рубрики ~Лента новостей~

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

ЧИТАТЬ

Мар 2, 2026

Черный углеродное волокно с текстурой плетения, отражающий свет.

Архив рубрики ~Лента новостей~

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений. Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

ЧИТАТЬ

Мар 2, 2026

Круглый экран с изображением замка и горы, рядом электронная плата.

Архив рубрики ~Лента новостей~

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран. Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

ЧИТАТЬ

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых

ИдеиPRO

Anthropic представляет «агентов-аудиторов» для проверки ИИ на предмет рассогласования

Аудиторские агенты в действии

Проблемы выравнивания и подхалимства

Похожие записи

Еще новости рубрики

Присоединяйтесь к нам в

Рубрики

галерея

НОВОСТИ ДРУГИХ РУБРИК

Присоединяйтесь
к нам в