Можно ли интегрировать с WordPress?

Да, мы используем REST API и Application Passwords — без передачи логина и пароля. Все публикации идут от имени автора.

Работает ли ИИ с Telegram?

Полностью. ИИ может как читать каналы, так и публиковать в ваш канал. Также подключаем inline-ботов и формы сбора лидов.

Сколько времени занимает настройка?

От 3 до 7 дней. Зависит от сложности интеграции и количества источников.

Есть ли бесплатный демо-доступ?

Да, мы запускаем 5–7 дневный демо-доступ с тестовыми данными, чтобы вы увидели систему в работе.

Безопасна ли система?

Да. Все данные хранятся изолированно. Мы не используем их для обучения моделей. Поддерживаем шифрование и резервное копирование.

Что входит в поддержку?

Обновление агентов, добавление источников, исправление ошибок, масштабирование. Поддержка 24/7 по Telegram или email.

Как мы тестируем наших агентов в разработке

Дек 6, 2025 0

Содержание

4 ключевых урока, усвоенных трудным путем

Делиться

Почему так сложно тестировать агентов

Проверить, работает ли ваш ИИ-агент ожидаемым образом, непросто. Даже небольшие изменения в таких компонентах, как версии подсказок, оркестровка агента и модели, могут иметь серьёзные и неожиданные последствия.

Некоторые из главных проблем включают в себя:

Недетерминированные выходы

Основная проблема заключается в том, что агенты недетерминированы. При одних и тех же входных данных на выходе могут быть два разных результата.

Как проверить ожидаемый результат, если неизвестно, каким он будет? Проще говоря, тестирование строго определённых результатов не работает.

Неструктурированные результаты

Вторая, менее обсуждаемая проблема тестирования агентных систем заключается в том, что выходные данные часто неструктурированы. В конце концов, в основе агентных систем лежат большие языковые модели.

Гораздо проще определить тест для структурированных данных. Например, поле идентификатора никогда не должно быть NULL или всегда быть целым числом. Как определить качество большого текстового поля?

Стоимость и масштаб

LLM-как-судья — наиболее распространённая методология оценки качества и надёжности агентов ИИ. Однако это дорогостоящая работа, и каждое взаимодействие с пользователем (трассировка) может состоять из сотен взаимодействий (интервалов).

Поэтому мы переосмыслили нашу стратегию тестирования агентов. В этой публикации мы поделимся полученными знаниями, включая новую ключевую концепцию, которая оказалась ключевой для обеспечения масштабируемой надёжности.

Тестирование нашего агента

У нас есть два работающих агента, которыми пользуются более 30 000 пользователей. Агент устранения неполадок анализирует сотни сигналов, чтобы определить первопричину инцидента, связанного с надёжностью данных, а агент мониторинга даёт рекомендации по интеллектуальному мониторингу качества данных.

Для агента по устранению неполадок мы тестируем три основных параметра: семантическое расстояние, обоснованность и использование инструментов. Вот как мы тестируем каждый из них.

Семантическое расстояние

Мы используем детерминированные тесты, когда это уместно, поскольку они понятны, объяснимы и экономичны. Например, сравнительно легко развернуть тест, чтобы убедиться, что один из выходных данных субагента представлен в формате JSON, не превышает определённую длину или вызывается корректно.

Однако бывают случаи, когда детерминированные тесты не справляются. Например, мы исследовали внедрение ожидаемых и новых результатов в виде векторов и использование косинусных тестов на сходство. Мы посчитали, что это будет более дешёвым и быстрым способом оценить семантическое расстояние (сходство значений) между наблюдаемыми и ожидаемыми результатами.

Однако мы обнаружили, что слишком часто формулировки были схожими, но значение различалось.

Вместо этого мы теперь предоставляем нашему судье LLM ожидаемый результат текущей конфигурации и просим его оценить по шкале от 0 до 1 сходство нового результата.

Заземленность

Для обоснованности мы проверяем, присутствует ли ключевой контекст, когда он должен быть, но также и то, откажется ли агент отвечать, если ключевой контекст отсутствует или вопрос выходит за рамки вопроса.

Это важно, поскольку обладатели степени магистра права стремятся угодить и у них возникают галлюцинации, если они не опираются на хороший контекст.

Использование инструмента

Для использования инструмента у нас есть LLM-судья, который оценивает, выполнил ли агент ожидаемый результат для заранее определенного сценария, что означает:

Никакого инструмента не ожидалось, и никакой инструмент не был вызван.
Ожидалось наличие инструмента, и был использован разрешенный инструмент.
Не было пропущено ни одного необходимого инструмента.
Неиспользованные инструменты не использовались.

Настоящее волшебство заключается не в развёртывании этих тестов, а в том, как они применяются. Вот наша текущая конфигурация, сформированная путём мучительных проб и ошибок.

Лучшие практики тестирования агентов

Важно помнить, что недетерминированными являются не только ваши агенты, но и ваши оценки LLM! Эти рекомендации в основном предназначены для борьбы с этими присущими им недостатками.

Мягкие неудачи

По очевидным причинам жёсткие пороги могут быть зашумлёнными при недетерминированных тестах. Поэтому мы придумали концепцию «мягкого отказа».

Оценка выставляется по шкале от 0 до 1. Оценка ниже 0,5 считается полной неудовлетворительной, выше 0,8 — удовлетворительной. Оценка от 0,5 до 0,8 считается частичной неудовлетворительной.

Изменения можно объединить для устранения мягкого сбоя. Однако при превышении определённого порога мягкого сбоя происходит серьёзный сбой, и процесс останавливается.

В настоящее время наш агент настроен таким образом, что если 33% тестов приводят к мягкому сбою или если в общей сложности происходит более двух мягких сбоев, то это считается жестким сбоем. Это предотвращает слияние изменений.

Переоценка незначительных сбоев

Мягкие сбои могут быть канарейкой в угольной шахте, а в некоторых случаях могут быть просто бессмысленными. Около 10% таких сбоев являются результатом галлюцинаций. В случае мягкого сбоя оценки автоматически повторяются. Если результаты тестов пройдены, мы предполагаем, что первоначальный результат был неверным.

Пояснения

Если тест провален, нужно понять, почему он провалился. Теперь мы просим каждого судью LLM не просто выставить оценку, но и объяснить её. Этот подход несовершенен, но он помогает повысить доверие к оценке и часто ускоряет отладку.

Удаление нестабильных тестов

Вам необходимо тестировать свои тесты. Особенно при оценке LLM в качестве судьи, структура задания может существенно повлиять на результаты. Мы проводим тесты несколько раз, и если разница в результатах слишком велика, мы корректируем задание или удаляем ненадёжный тест.

Мониторинг в производстве

Тестирование агентов — это новая и сложная задача, но это просто прогулка по сравнению с мониторингом поведения агентов и их результатов в рабочей среде. Входные данные более запутаны, нет ожидаемого результата, соответствующего базовому уровню, и всё происходит в гораздо большем масштабе.

Не говоря уже о том, что ставки гораздо выше! Проблемы с надёжностью системы быстро становятся проблемами для бизнеса.

Это наша текущая задача. Мы используем инструменты наблюдения за агентами для решения этих задач и расскажем о новых результатах в следующей публикации.

Агент устранения неполадок стал одной из самых впечатляющих функций, которые мы когда-либо реализовывали. Разработка надёжных агентов стала для нас определяющим этапом в карьере, и мы рады поделиться им с вами.

Источник: towardsdatascience.com

✅ Найденные теги: Как, новости

Метки:

Как новости

ПРЕДЫДУЩАЯ ЗАПИСЬ

06.12.2025

Нейробиолог-полиглот объясняет, как мозг обрабатывает язык

СЛЕДУЮЩАЯ ЗАПИСЬ

06.12.2025

Враждебный дискурс в национальном информационном пространстве (на примере интеллектуальных сервисов платформы Яндекс)

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ
Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

Еще новости рубрики

Архив рубрики ~Обо всем~

Фантазии

Июл 2, 2024

Архив рубрики ~Обо всем~

Мировоззрение

Июл 2, 2024

Архив рубрики ~Обо всем~

Влияние выдумщиков и фантазеров на развитие…

Июл 2, 2024

Архив рубрики ~Обо всем~

Нет ничего невозможного

Июл 2, 2024

Присоединяйтесь
к нам в

TELEGRAM

галерея

Компания SpaceX может избежать экологических проверок, развернув миллион спутников.

Исследование Йельского университета показало, что стресс родителей может незаметно способствовать развитию детского ожирения.

Компания Smith+Nephew представила пенную повязку для профилактики пролежней.

Недавно одобренный в Австралии ИИ для лечения рака легких и другие краткие обзоры | MobiHealthNews

STAT+: FDA присвоило статус «прорывного» чат-боту на основе генеративного искусственного интеллекта для хирургических пациентов.

Разработка кодекса поведения для клинических консультаций с использованием искусственного интеллекта.

Почему люди говорят громко по телефону в общественном транспорте

Прежде чем появятся квантовые вычисления, этот стартап хочет привлечь предприятия, которые уже используют эту технологию.

НОВОСТИ ДРУГИХ РУБРИК

Архив рубрики ~Лента новостей~

Компания SpaceX может избежать экологических проверок, развернув миллион спутников.

Экологические последствия запланированной компанией SpaceX гигантской мегагруппировки спутников до сих пор изучаются, но Федеральная комиссия по связи (FCC) не обязана проводить их исследование. Компания SpaceX планирует запустить гораздо больше спутников. Чарльз Бойер / Фото из архива Alamy…

ЧИТАТЬ

Мар 13, 2026

Архив рубрики ~Лента новостей~

Исследование Йельского университета показало, что стресс родителей может незаметно способствовать развитию детского ожирения.

Исследование Йельского университета предполагает, что одним из часто упускаемых из виду способов борьбы с детским ожирением может быть снижение уровня стресса у родителей. (Фото: Shutterstock) В последние годы наблюдается рост детского ожирения. По данным Центров по контролю…

ЧИТАТЬ

Мар 13, 2026

Архив рубрики ~Лента новостей~

Компания Smith+Nephew представила пенную повязку для профилактики пролежней.

Компания Smith+Nephew сообщает, что повязка удерживает больше экссудата и предотвращает размножение более 99% бактерий. Фото: ARTFULLY PHOTOGRAPHER / Shutterstock.com. Компания Smith+Nephew представила свою пенную повязку Allevyn Complete Care, которая призвана обеспечить передовые решения для лечения ран и…

ЧИТАТЬ

Мар 13, 2026

Архив рубрики ~Лента новостей~

Данные BridgeBio о мышечной слабости впечатляют в преддверии подачи заявки в FDA.

Компания BridgeBio Pharma сделала еще один шаг к потенциальному одобрению своего препарата-кандидата для лечения мышечной слабости BBP-418, сообщив о статистически значимых данных об эффективности на 3-й фазе клинических испытаний, которые аналитики сочли впечатляющими. Фармацевтическая компания сообщила, что…

ЧИТАТЬ

Мар 13, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых

ИдеиPRO

Как мы тестируем наших агентов в разработке

Почему так сложно тестировать агентов

Недетерминированные выходы

Неструктурированные результаты

Стоимость и масштаб

Тестирование нашего агента

Семантическое расстояние

Заземленность

Использование инструмента

Лучшие практики тестирования агентов

Мягкие неудачи

Переоценка незначительных сбоев

Пояснения

Удаление нестабильных тестов

Мониторинг в производстве

Похожие записи

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ Отменить ответ

Еще новости рубрики

Присоединяйтесь к нам в

Рубрики

галерея

НОВОСТИ ДРУГИХ РУБРИК

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ
Отменить ответ

Присоединяйтесь
к нам в