Можно ли интегрировать с WordPress?

Да, мы используем REST API и Application Passwords — без передачи логина и пароля. Все публикации идут от имени автора.

Работает ли ИИ с Telegram?

Полностью. ИИ может как читать каналы, так и публиковать в ваш канал. Также подключаем inline-ботов и формы сбора лидов.

Сколько времени занимает настройка?

От 3 до 7 дней. Зависит от сложности интеграции и количества источников.

Есть ли бесплатный демо-доступ?

Да, мы запускаем 5–7 дневный демо-доступ с тестовыми данными, чтобы вы увидели систему в работе.

Безопасна ли система?

Да. Все данные хранятся изолированно. Мы не используем их для обучения моделей. Поддерживаем шифрование и резервное копирование.

Что входит в поддержку?

Обновление агентов, добавление источников, исправление ошибок, масштабирование. Поддержка 24/7 по Telegram или email.

ROC-кривая: сравнение моделей XGBoost, CNN, Mixture of Experts и Agentic по AUC.

Агенты под кривой (AUC): преобразование агентного решения в непрерывную оценку

Янв 2, 2026 0

Содержание

Чтобы понять, действительно ли ваше агентское решение лучше.

Делиться

Вкратце

В здравоохранении агентные системы искусственного интеллекта часто выдают бинарные решения, такие как наличие или отсутствие заболевания, которые сами по себе не могут обеспечить значимый показатель AUC.
AUC по-прежнему является стандартным способом сравнения моделей оценки риска и обнаружения в медицине, и для его использования требуются непрерывные показатели, позволяющие ранжировать пациентов по степени риска.
В этой статье описаны несколько практических стратегий преобразования результатов работы агентов в непрерывные оценки, чтобы сравнения на основе AUC с традиционными моделями оставались достоверными и справедливыми.

Разрыв между агентом и площадью под кривой

Системы агентного искусственного интеллекта становятся все более распространенными, поскольку они снижают барьер для внедрения решений в области ИИ. Они достигают этого за счет использования базовых моделей, благодаря чему не всегда требуется тратить ресурсы на обучение пользовательской модели с нуля или на многократную тонкую настройку.

Я заметил, что примерно 20–25% докладов на NeurIPS 2025 были посвящены агентным решениям. Параллельно с этим растет популярность агентов для медицинских приложений. К таким системам относятся конвейеры обработки данных на основе LLM, агенты с расширенными возможностями поиска и многошаговые системы принятия решений. Они могут синтезировать разнородные данные, пошагово рассуждать и выдавать контекстные рекомендации или решения.

Большинство этих систем созданы для ответа на вопросы типа «Болен ли этот пациент этим заболеванием?» или «Следует ли назначить этот тест?», а не на вопрос «Какова вероятность того, что этот пациент болен этим заболеванием?». Другими словами, они, как правило, приводят к сложным решениям и объяснениям, а не к точно рассчитанным вероятностям.

В отличие от этого, традиционные медицинские модели оценки риска и выявления заболеваний обычно оцениваются с помощью площади под кривой рабочей характеристики приемника (AUC). AUC широко используется в клинической прогностической работе и является стандартным показателем для сравнения моделей во многих исследованиях, связанных с визуализацией, оценкой риска и скринингом.

Это создает пробел. Если наши новые модели являются агентными и ориентированы на принятие решений, но наши стандарты оценки основаны на вероятности, нам нужны методы, которые связывают эти два подхода. Остальная часть этой статьи посвящена тому, что на самом деле нужно AUC, почему бинарных выходных данных недостаточно и как получить непрерывные оценки из агентных моделей, чтобы AUC оставался пригодным для использования.

Почему AUC важен и почему бинарные выходные данные дают сбой

В медицинских приложениях AUC часто считается эталонным показателем, поскольку он лучше, чем простая точность, справляется с дисбалансом между случаями и контрольной группой, особенно в наборах данных, отражающих реальную распространенность заболевания.

Точность может быть обманчивым показателем, когда распространенность заболевания низка. Например, распространенность рака молочной железы в популяции, проходящей скрининг, составляет примерно 5 случаев на 1000. Модель, которая предсказывает «отсутствие рака» для каждого случая, все равно будет обладать очень высокой точностью, но частота ложноотрицательных результатов будет неприемлемо высокой. В реальных клинических условиях это явно плохая модель, несмотря на ее точность.

AUC измеряет, насколько хорошо модель разделяет положительные и отрицательные случаи. Для этого используется непрерывная оценка для каждого отдельного случая, и определяется, насколько хорошо эти оценки ранжируют положительные случаи выше отрицательных. Именно такой подход, основанный на ранжировании, делает AUC полезным даже при сильном дисбалансе классов.

Хотя на конференции NeurIPS я заметил множество инновационных работ на стыке агентных вычислений и здравоохранения, я не увидел много статей, в которых сообщалось бы о показателе AUC. Я также не видел много работ, в которых сравнивался бы новый агентный подход с существующими или устоявшимися моделями машинного обучения или глубокого обучения с использованием стандартных метрик. Без этого сложно откалибровать и понять, насколько лучше эти агентные решения на самом деле, если вообще лучше.

Большинство современных результатов работы агентных систем не позволяют естественным образом получить значения AUC. Цель этой статьи — предложить методы получения AUC для агентных систем, чтобы мы могли начать конкретное обсуждение повышения производительности по сравнению с предыдущими и существующими решениями.

Как вычисляется AUC

Чтобы полностью понять существующую проблему и оценить попытки ее решения, следует рассмотреть, как рассчитываются показатели AUC.

Позволять

Пусть y ∈ {0, 1} — истинная метка.
Пусть s ∈ ℝ — оценка модели для каждого отдельного пользователя.

Кривая ROC строится путем сканирования порогового значения t по всему диапазону значений и вычисления

Чувствительность на каждом пороговом значении
Специфичность на каждом пороговом значении

Значение AUC можно интерпретировать следующим образом:

Вероятность того, что случайно выбранный положительный случай имеет более высокий балл, чем случайно выбранный отрицательный случай.

Такая интерпретация имеет смысл только в том случае, если оценки содержат достаточно детализированные данные, чтобы обеспечить ранжирование отдельных лиц. На практике это означает, что нам нужны непрерывные или, по крайней мере, точно упорядоченные значения, а не только нули и единицы.

Почему бинарные результаты работы агентов нарушают AUC

Агентные системы часто выдают только бинарное решение. Например:

«Болезнь» соотнесена с 1
«Отсутствие заболевания» соответствует значению 0.

Если это единственно возможные результаты, то существует всего два уникальных значения. При изменении пороговых значений в этом наборе кривая ROC сужается максимум до одной нетривиальной точки плюс тривиальные конечные точки. Нет ни богатого набора пороговых значений, ни осмысленного ранжирования.

В этом случае значение AUC становится либо неопределенным, либо вырожденным. Кроме того, его нельзя корректно сравнивать со значениями AUC, полученными с помощью традиционных моделей, которые выдают непрерывные вероятности.

Для оценки эффективности агентных решений с использованием AUC необходимо создать непрерывную шкалу, отражающую степень уверенности агента в положительности того или иного случая.

Что нам нужно

Для вычисления AUC для агентной системы нам необходима непрерывная оценка, отражающая лежащую в её основе оценку риска, уверенность или ранжирование. Оценка не обязательно должна быть идеально откалиброванной вероятностью. Она должна лишь обеспечивать упорядочение по пациентам, соответствующее внутреннему представлению агента о риске.

Ниже приведён список практических стратегий для преобразования результатов деятельности субъектов в подобные оценки.

Методы получения непрерывных оценок из агентных систем

Извлечь вероятности из логарифмов внутренней модели.
Попросите агента вывести явную вероятность.
Используйте метод Монте-Карло с повторными выборками для оценки вероятности.
Преобразуйте показатели сходства результатов поиска в показатели риска.
Обучите калибровочную модель на основе выходных данных агента.
Изменяйте настраиваемый пороговый уровень или конфигурацию внутри агента, чтобы приблизительно построить ROC-кривую.

Таблица сравнения

Метод	Плюсы	Минусы
Логарифмические вероятности	Непрерывный, стабильный сигнал, соответствующий логике и ранжированию модели.	Требуется доступ к логам и может быть чувствителен к формату подсказки.
Явный вывод вероятности	Простой, интуитивно понятный и легко понятный для врачей и экспертов.	Качество калибровки зависит от подсказок и поведения модели.
Метод Монте-Карло	Позволяет зафиксировать истинную неопределенность принятия решений агентом без доступа к внутренним ресурсам.	Это более дорогостоящий с вычислительной точки зрения метод, требующий нескольких запусков на одного пациента.
Сходство при поиске	Идеально подходит для систем, основанных на поиске информации, и прост в вычислении.	Может не в полной мере отражать логику принятия решений на последующих этапах или общую аргументацию.
Модель калибровки	Преобразует структурированные или категориальные выходные данные в сглаженные показатели риска и может улучшить калибровку.	Требуется наличие размеченных данных и добавление вторичной модели в конвейер обработки данных.
Снятие порога	Работает даже тогда, когда агент предоставляет только бинарные выходные данные и настраиваемый параметр.	Получает приблизительное значение AUC, которое зависит от того, как параметр влияет на принимаемые решения.

В следующем разделе каждый метод будет описан более подробно, включая объяснение того, почему он работает, когда он наиболее уместен и какие ограничения следует учитывать.

Источник: towardsdatascience.com

✅ Найденные теги: AUC, Агенты, Агенты,, Кривая, новости, Оценка, преобразование

Метки:

AUC Агенты Агенты,Кривая новости Оценка преобразование

Клавиатура с подсвеченной клавишей ИИ на черном фоне.

ПРЕДЫДУЩАЯ ЗАПИСЬ

02.01.2026

В 2026 году искусственный интеллект перейдет из разряда ажиотажа в прагматизм.

СЛЕДУЮЩАЯ ЗАПИСЬ

02.01.2026

Фреймворки меняются каждый год: стоит ли за ними гнаться?

Дорога с указателями: React, Angular, Ember, Vue.js, Svelte, NEXT.js. Выбор фреймворка.

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ
Отменить ответ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

Еще новости рубрики

Архив рубрики ~Обо всем~

Фантазии

Июл 2, 2024

Архив рубрики ~Обо всем~

Мировоззрение

Июл 2, 2024

Архив рубрики ~Обо всем~

Влияние выдумщиков и фантазеров на развитие…

Июл 2, 2024

Архив рубрики ~Обо всем~

Нет ничего невозможного

Июл 2, 2024

Присоединяйтесь
к нам в

TELEGRAM

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных

Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…

Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.

Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".

‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…

Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.

Структура эффективного запроса Claude с элементами задачи, контекста и референса.

Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.

НОВОСТИ ДРУГИХ РУБРИК

Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Архив рубрики ~Лента новостей~

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

ЧИТАТЬ

Мар 2, 2026

Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Архив рубрики ~Лента новостей~

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

ЧИТАТЬ

Мар 2, 2026

Черный углеродное волокно с текстурой плетения, отражающий свет.

Архив рубрики ~Лента новостей~

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений. Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

ЧИТАТЬ

Мар 2, 2026

Круглый экран с изображением замка и горы, рядом электронная плата.

Архив рубрики ~Лента новостей~

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран. Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

ЧИТАТЬ

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых

ИдеиPRO

Агенты под кривой (AUC): преобразование агентного решения в непрерывную оценку

Вкратце

Разрыв между агентом и площадью под кривой

Почему AUC важен и почему бинарные выходные данные дают сбой

Как вычисляется AUC

Почему бинарные результаты работы агентов нарушают AUC

Что нам нужно

Методы получения непрерывных оценок из агентных систем

Таблица сравнения

Похожие записи

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ Отменить ответ

Еще новости рубрики

Присоединяйтесь к нам в

Рубрики

галерея

НОВОСТИ ДРУГИХ РУБРИК

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ
Отменить ответ

Присоединяйтесь
к нам в