Можно ли интегрировать с WordPress?

Да, мы используем REST API и Application Passwords — без передачи логина и пароля. Все публикации идут от имени автора.

Работает ли ИИ с Telegram?

Полностью. ИИ может как читать каналы, так и публиковать в ваш канал. Также подключаем inline-ботов и формы сбора лидов.

Сколько времени занимает настройка?

От 3 до 7 дней. Зависит от сложности интеграции и количества источников.

Есть ли бесплатный демо-доступ?

Да, мы запускаем 5–7 дневный демо-доступ с тестовыми данными, чтобы вы увидели систему в работе.

Безопасна ли система?

Да. Все данные хранятся изолированно. Мы не используем их для обучения моделей. Поддерживаем шифрование и резервное копирование.

Что входит в поддержку?

Обновление агентов, добавление источников, исправление ошибок, масштабирование. Поддержка 24/7 по Telegram или email.

Как мы тестируем наших агентов в разработке

Дек 6, 2025 0

Содержание

4 ключевых урока, усвоенных трудным путем

Делиться

Почему так сложно тестировать агентов

Проверить, работает ли ваш ИИ-агент ожидаемым образом, непросто. Даже небольшие изменения в таких компонентах, как версии подсказок, оркестровка агента и модели, могут иметь серьёзные и неожиданные последствия.

Некоторые из главных проблем включают в себя:

Недетерминированные выходы

Основная проблема заключается в том, что агенты недетерминированы. При одних и тех же входных данных на выходе могут быть два разных результата.

Как проверить ожидаемый результат, если неизвестно, каким он будет? Проще говоря, тестирование строго определённых результатов не работает.

Неструктурированные результаты

Вторая, менее обсуждаемая проблема тестирования агентных систем заключается в том, что выходные данные часто неструктурированы. В конце концов, в основе агентных систем лежат большие языковые модели.

Гораздо проще определить тест для структурированных данных. Например, поле идентификатора никогда не должно быть NULL или всегда быть целым числом. Как определить качество большого текстового поля?

Стоимость и масштаб

LLM-как-судья — наиболее распространённая методология оценки качества и надёжности агентов ИИ. Однако это дорогостоящая работа, и каждое взаимодействие с пользователем (трассировка) может состоять из сотен взаимодействий (интервалов).

Поэтому мы переосмыслили нашу стратегию тестирования агентов. В этой публикации мы поделимся полученными знаниями, включая новую ключевую концепцию, которая оказалась ключевой для обеспечения масштабируемой надёжности.

Тестирование нашего агента

У нас есть два работающих агента, которыми пользуются более 30 000 пользователей. Агент устранения неполадок анализирует сотни сигналов, чтобы определить первопричину инцидента, связанного с надёжностью данных, а агент мониторинга даёт рекомендации по интеллектуальному мониторингу качества данных.

Для агента по устранению неполадок мы тестируем три основных параметра: семантическое расстояние, обоснованность и использование инструментов. Вот как мы тестируем каждый из них.

Семантическое расстояние

Мы используем детерминированные тесты, когда это уместно, поскольку они понятны, объяснимы и экономичны. Например, сравнительно легко развернуть тест, чтобы убедиться, что один из выходных данных субагента представлен в формате JSON, не превышает определённую длину или вызывается корректно.

Однако бывают случаи, когда детерминированные тесты не справляются. Например, мы исследовали внедрение ожидаемых и новых результатов в виде векторов и использование косинусных тестов на сходство. Мы посчитали, что это будет более дешёвым и быстрым способом оценить семантическое расстояние (сходство значений) между наблюдаемыми и ожидаемыми результатами.

Однако мы обнаружили, что слишком часто формулировки были схожими, но значение различалось.

Вместо этого мы теперь предоставляем нашему судье LLM ожидаемый результат текущей конфигурации и просим его оценить по шкале от 0 до 1 сходство нового результата.

Заземленность

Для обоснованности мы проверяем, присутствует ли ключевой контекст, когда он должен быть, но также и то, откажется ли агент отвечать, если ключевой контекст отсутствует или вопрос выходит за рамки вопроса.

Это важно, поскольку обладатели степени магистра права стремятся угодить и у них возникают галлюцинации, если они не опираются на хороший контекст.

Использование инструмента

Для использования инструмента у нас есть LLM-судья, который оценивает, выполнил ли агент ожидаемый результат для заранее определенного сценария, что означает:

Никакого инструмента не ожидалось, и никакой инструмент не был вызван.
Ожидалось наличие инструмента, и был использован разрешенный инструмент.
Не было пропущено ни одного необходимого инструмента.
Неиспользованные инструменты не использовались.

Настоящее волшебство заключается не в развёртывании этих тестов, а в том, как они применяются. Вот наша текущая конфигурация, сформированная путём мучительных проб и ошибок.

Лучшие практики тестирования агентов

Важно помнить, что недетерминированными являются не только ваши агенты, но и ваши оценки LLM! Эти рекомендации в основном предназначены для борьбы с этими присущими им недостатками.

Мягкие неудачи

По очевидным причинам жёсткие пороги могут быть зашумлёнными при недетерминированных тестах. Поэтому мы придумали концепцию «мягкого отказа».

Оценка выставляется по шкале от 0 до 1. Оценка ниже 0,5 считается полной неудовлетворительной, выше 0,8 — удовлетворительной. Оценка от 0,5 до 0,8 считается частичной неудовлетворительной.

Изменения можно объединить для устранения мягкого сбоя. Однако при превышении определённого порога мягкого сбоя происходит серьёзный сбой, и процесс останавливается.

В настоящее время наш агент настроен таким образом, что если 33% тестов приводят к мягкому сбою или если в общей сложности происходит более двух мягких сбоев, то это считается жестким сбоем. Это предотвращает слияние изменений.

Переоценка незначительных сбоев

Мягкие сбои могут быть канарейкой в угольной шахте, а в некоторых случаях могут быть просто бессмысленными. Около 10% таких сбоев являются результатом галлюцинаций. В случае мягкого сбоя оценки автоматически повторяются. Если результаты тестов пройдены, мы предполагаем, что первоначальный результат был неверным.

Пояснения

Если тест провален, нужно понять, почему он провалился. Теперь мы просим каждого судью LLM не просто выставить оценку, но и объяснить её. Этот подход несовершенен, но он помогает повысить доверие к оценке и часто ускоряет отладку.

Удаление нестабильных тестов

Вам необходимо тестировать свои тесты. Особенно при оценке LLM в качестве судьи, структура задания может существенно повлиять на результаты. Мы проводим тесты несколько раз, и если разница в результатах слишком велика, мы корректируем задание или удаляем ненадёжный тест.

Мониторинг в производстве

Тестирование агентов — это новая и сложная задача, но это просто прогулка по сравнению с мониторингом поведения агентов и их результатов в рабочей среде. Входные данные более запутаны, нет ожидаемого результата, соответствующего базовому уровню, и всё происходит в гораздо большем масштабе.

Не говоря уже о том, что ставки гораздо выше! Проблемы с надёжностью системы быстро становятся проблемами для бизнеса.

Это наша текущая задача. Мы используем инструменты наблюдения за агентами для решения этих задач и расскажем о новых результатах в следующей публикации.

Агент устранения неполадок стал одной из самых впечатляющих функций, которые мы когда-либо реализовывали. Разработка надёжных агентов стала для нас определяющим этапом в карьере, и мы рады поделиться им с вами.

Источник: towardsdatascience.com

✅ Найденные теги: Как, новости

Метки:

Как новости

ПРЕДЫДУЩАЯ ЗАПИСЬ

06.12.2025

Нейробиолог-полиглот объясняет, как мозг обрабатывает язык

СЛЕДУЮЩАЯ ЗАПИСЬ

06.12.2025

Враждебный дискурс в национальном информационном пространстве (на примере интеллектуальных сервисов платформы Яндекс)

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ
Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

Еще новости рубрики

Архив рубрики ~Обо всем~

Фантазии

Июл 2, 2024

Архив рубрики ~Обо всем~

Мировоззрение

Июл 2, 2024

Архив рубрики ~Обо всем~

Влияние выдумщиков и фантазеров на развитие…

Июл 2, 2024

Архив рубрики ~Обо всем~

Нет ничего невозможного

Июл 2, 2024

Присоединяйтесь
к нам в

TELEGRAM

галерея

Прежде чем появятся квантовые вычисления, этот стартап хочет привлечь предприятия, которые уже используют эту технологию.

«Загрузка»: роль ИИ в войне с Ираном и эскалация судебной тяжбы.

Обучение с помощью управляемых нейронных сетей позволяет «необучаемым» нейронным сетям реализовать свой потенциал.

Обнаружение штампов и подписей на документах с помощью ADE

Как сделать ваш товар в интернет-магазине видимым для агентов искусственного интеллекта? Используйте эту новую систему, которой доверяют L'Oréal, Unilever, Mars и Beiersdorf.

Вымирающих медососов из Австралии заново обучили традиционной песне. Птицы почти утратили ее из-за сокращения численности вида

НОВОСТИ ДРУГИХ РУБРИК

Архив рубрики ~Лента новостей~

Прежде чем появятся квантовые вычисления, этот стартап хочет привлечь предприятия, которые уже используют эту технологию.

Источник изображения: Matthias Balk/picture alliance via Getty Images / Getty Images Спустя восемнадцать месяцев после продажи своего стартапа производителю микросхем AMD за 665 миллионов долларов финский предприниматель Петер Сарлин покинул пост генерального директора подразделения, ныне известного как…

ЧИТАТЬ

Мар 13, 2026

Архив рубрики ~Лента новостей~

Вспышка кори в Южной Каролине замедляется.

Крупнейшая за последние десятилетия вспышка кори в США может закончиться раньше, чем ожидалось. Источник: www.wired.com ✅ Найденные теги: Вспышка, Кори, новости, Южная КаролинаПохожие записиПрежде чем появятся квантовые вычисления, этот стартап хочет привлечь предприятия, которые уже используют эту…

ЧИТАТЬ

Мар 13, 2026

Архив рубрики ~Лента новостей~

«Загрузка»: роль ИИ в войне с Ираном и эскалация судебной тяжбы.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Как искусственный интеллект превращает иранский конфликт в театрализованное представление В контексте иранского конфликта основное внимание уделялось моделям, подобным Claude,…

ЧИТАТЬ

Мар 13, 2026

Архив рубрики ~Лента новостей~

Представления, основанные на ожиданиях и акустических нейронных сетях, улучшают распознавание музыки по активности мозга.

arXiv:2603.03190v2 Тип объявления: замена-кросс Аннотация: Во время прослушивания музыки кортикальная активность кодирует как акустическую информацию, так и информацию, связанную с ожиданиями. Предыдущие работы показали, что представления ИНС напоминают кортикальные представления и могут служить в качестве сигналов-контролеров для…

ЧИТАТЬ

Мар 13, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых

ИдеиPRO

Как мы тестируем наших агентов в разработке

Почему так сложно тестировать агентов

Недетерминированные выходы

Неструктурированные результаты

Стоимость и масштаб

Тестирование нашего агента

Семантическое расстояние

Заземленность

Использование инструмента

Лучшие практики тестирования агентов

Мягкие неудачи

Переоценка незначительных сбоев

Пояснения

Удаление нестабильных тестов

Мониторинг в производстве

Похожие записи

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ Отменить ответ

Еще новости рубрики

Присоединяйтесь к нам в

Рубрики

галерея

НОВОСТИ ДРУГИХ РУБРИК

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ
Отменить ответ

Присоединяйтесь
к нам в