Абстрактный объемный узор синие и оранжевые линии, темный фон.

Почему ваша оценка результатов поиска с помощью ИИ, вероятно, неверна (и как это исправить)

Пятиэтапная методика построения строгих и воспроизводимых эталонных показателей для поиска с использованием ИИ — прежде чем принимать решения о вложении шестизначных сумм в инфраструктуру.

Делиться

1a9395a6f4cf47b531d6831ef5a7496f
Фотография от A Chosen Soul на Unsplash.

Я работаю в сфере оценки ИИ почти десять лет, и меня часто спрашивают: «Как узнать, оптимизирована ли наша текущая система ИИ?» Честный ответ? Многочисленные тесты. Четкие критерии позволяют измерять улучшения, сравнивать поставщиков и обосновывать окупаемость инвестиций.

Большинство команд оценивают эффективность поиска с использованием ИИ, выполняя несколько запросов и выбирая ту систему, которая «кажется» лучшей. Затем они тратят шесть месяцев на её интеграцию, только чтобы обнаружить, что точность на самом деле хуже, чем у их предыдущей системы. Вот как избежать этой ошибки стоимостью 500 000 долларов.

Проблема: тестирование «на ходу» не отражает реальную работу системы, не воспроизводимо, а корпоративные бенчмарки не адаптированы к вашим конкретным задачам. Эффективные бенчмарки должны быть разработаны с учетом специфики вашей предметной области, охватывать различные типы запросов, давать согласованные результаты и учитывать разногласия между оценщиками. После многолетних исследований в области оценки качества поиска, вот процесс, который действительно работает в реальных условиях.

Базовый стандарт оценки

Шаг 1: Определите, что означает «хорошо» в вашем конкретном случае.

Прежде чем запускать хотя бы один тестовый запрос, определите, как выглядит «правильный» ответ. К общим характеристикам относятся базовая точность, актуальность результатов и релевантность источников.

Для клиента из сферы финансовых услуг это может быть: «Числовые данные должны быть точными с погрешностью не более 0,1% по сравнению с официальными источниками, с указанием времени публикации». Для компании, разрабатывающей инструменты для разработчиков: «Примеры кода должны выполняться без изменений в указанной версии языка».

Затем задокументируйте свой порог для смены поставщика услуг. Вместо произвольного «улучшения на 5-15%» свяжите его с влиянием на бизнес: если улучшение точности на 1% экономит вашей команде поддержки 40 часов в месяц, а смена поставщика обходится в 10 000 долларов в виде затрат на инженерное время, вы выходите на точку безубыточности при улучшении на 2,5% уже в первый месяц.

Шаг 2: Создайте свой эталонный набор тестовых данных.

«Золотой набор» — это тщательно подобранная коллекция запросов и ответов, которая позволяет вашей организации прийти к единому мнению относительно качества. Начните сбор этих запросов с анализа журналов запросов в производственной среде. Я рекомендую заполнить «золотой набор» на 80% запросами, относящимися к распространенным шаблонам, а оставшиеся 20% — к крайним случаям. Для размера выборки стремитесь к минимуму в 100-200 запросов; это обеспечит доверительные интервалы ±2-3%, достаточно узкие для выявления значимых различий между поставщиками.

Затем разработайте оценочную шкалу для проверки точности каждого запроса. Для фактических запросов я определяю следующее: «4 балла, если результат содержит точный ответ с авторитетной ссылкой. 3 балла, если ответ верен, но требует выводов пользователя. 2 балла, если частично релевантно. 1 балл, если косвенно связано. 0 баллов, если не связано». Включите 5-10 примеров запросов с оцененными результатами для каждой категории.

После составления списка попросите двух независимых экспертов в данной области оценить 10 лучших результатов каждого запроса и измерить степень согласованности с помощью коэффициента Каппа Коэна. Если он ниже 0,60, возможно, существуют различные проблемы, такие как нечеткие критерии, недостаточное обучение или различия в суждениях, которые необходимо устранить. При внесении изменений используйте журнал изменений для фиксации новых версий каждой оценочной шкалы. Вам потребуется поддерживать отдельные версии для каждого теста, чтобы иметь возможность воспроизвести их в последующих тестах.

Шаг 3: Проведение контролируемых сравнений

Теперь, когда у вас есть список тестовых запросов и четкая критерия оценки точности, выполните свой набор запросов параллельно для всех поставщиков и соберите 10 лучших результатов, включая позицию, заголовок, фрагмент, URL и временную метку. Также следует регистрировать задержку запроса, коды состояния HTTP, версии API и количество результатов.

Для конвейеров RAG или тестирования агентного поиска пропустите каждый результат через одни и те же LLM с идентичными подсказками синтеза, установив температуру на 0 (поскольку вы изолируете качество поиска).

Большинство оценок не проходят, потому что каждый запрос выполняется только один раз. Системы поиска по своей природе стохастичны, поэтому случайность выборки, изменчивость API и поведение по таймауту вносят вариативность от попытки к попытке. Для корректного измерения этого параметра следует проводить несколько попыток для каждого запроса (я рекомендую начинать с n=8-16 попыток для задач структурированного поиска, n≥32 для задач сложного рассуждения).

Шаг 4: Оценка работ членами жюри программы LLM.

Современные LLM обладают значительно большей вычислительной мощностью, чем поисковые системы. Поисковые системы используют небольшие алгоритмы переранжирования, оптимизированные для задержки в миллисекунды, в то время как LLM используют более 100 миллиардов параметров, на рассуждение по каждому результату уходит несколько секунд. Эта асимметрия в вычислительной мощности означает, что LLM могут оценивать качество результатов более тщательно, чем системы, которые их создали.

Однако этот анализ работает только в том случае, если вы предоставите LLM подробную систему оценки, использующую те же критерии, что и эксперты-люди. В качестве демонстрации предоставьте примеры запросов с оцененными результатами и потребуйте структурированный вывод в формате JSON с оценкой релевантности (0-4) и кратким пояснением к каждому результату.

Одновременно с этим, проведите оценку с помощью LLM-эксперта, поручив двум экспертам оценить подмножество из 100 вопросов, охватывающих простые, средние и сложные запросы. После этого рассчитайте согласованность между экспертами, используя коэффициент Каппа Коэна (целевое значение: κ > 0,70) и коэффициент корреляции Пирсона (целевое значение: r > 0,80). Я видел, как Клод Сонне достигал согласованности 0,84 с экспертами, когда критерии оценки были четко определены.

Шаг 5: Оценка стабильности результатов оценки с помощью коэффициента внутриклассовой корреляции (ICC).

Одной лишь точности недостаточно, чтобы судить о достоверности вашей оценки. Вам также необходимо знать, отражает ли наблюдаемое вами расхождение в результатах поиска реальные различия в сложности запросов или просто случайный шум, вызванный непоследовательным поведением поставщика моделей.

Коэффициент внутриклассовой корреляции (ICC) разделяет дисперсию на две категории: дисперсия между запросами (некоторые запросы просто сложнее других) и дисперсия внутри запросов (непоследовательные результаты для одного и того же запроса при разных запусках).

Вот как интерпретировать ICC при проверке поставщиков поисковых услуг на основе ИИ:

  • ICC ≥ 0,75: Хорошая надежность. Ответы поставщиков услуг согласуются.
  • ICC = 0,50-0,75: Умеренная надежность. Смешанный вклад от сложности запроса и непоследовательности поставщика услуг.
  • ICC < 0,50: Низкая надежность. Результаты, полученные за один сеанс, ненадежны.

Рассмотрим двух поставщиков услуг, оба демонстрируют точность в 73%:

Точность МУС Интерпретация
73% 0,66 Последовательность поведения на протяжении всех испытаний.
73% 0.30 Непредсказуемо. Один и тот же запрос выдает разные результаты.

Без ICC вы бы развернули второго поставщика, полагая, что получаете 73% точности, но в производственной среде обнаружили бы проблемы с надежностью.

В ходе нашего исследования, оценивающего поставщиков услуг по задачам GAIA (задачи на логическое мышление) и FRAMES (задачи на поиск информации), мы обнаружили, что коэффициент внутриклассовой корреляции (ICC) резко меняется в зависимости от сложности задачи: от 0,30 для сложных задач на логическое мышление с использованием менее совершенных моделей до 0,71 для структурированного поиска информации. Часто улучшение точности без улучшения ICC отражало скорее удачную выборку, чем реальное повышение возможностей системы.

Как на самом деле выглядит успех

После такой проверки вы можете оценить поставщиков услуг по всему набору тестовых данных. Результаты могут выглядеть следующим образом:

  • Поставщик услуг A: точность 81,2% ± 2,1% (95% доверительный интервал: 79,1–83,3%), внутриклассовый коэффициент корреляции = 0,68
  • Поставщик B: точность 78,9% ± 2,8% (95% доверительный интервал: 76,1–81,7%), внутриклассовый коэффициент корреляции = 0,71

Интервалы не перекрываются, поэтому преимущество поставщика услуг A в точности статистически значимо при p<0,05. Однако более высокий коэффициент внутриклассовой корреляции (ICC) у поставщика услуг B означает, что он более стабилен — один и тот же запрос, более предсказуемые результаты. В зависимости от конкретного случая, стабильность может иметь большее значение, чем разница в точности в 2,3 процентных пункта.

  • Показатель точности поставщика услуг C: 83,1% ± 4,8% (95% доверительный интервал: 78,3–87,9%), внутриклассовый коэффициент корреляции = 0,42.
  • Показатель точности поставщика услуг D: 79,8% ± 4,2% (95% доверительный интервал: 75,6–84,0%), внутриклассовый коэффициент корреляции = 0,39.

Поставщик C выглядит лучше, но эти широкие доверительные интервалы существенно перекрываются. Что еще более важно, у обоих поставщиков коэффициент внутриклассовой корреляции (ICC) < 0,50, что указывает на то, что большая часть вариации обусловлена случайностью от испытания к испытанию, а не сложностью запроса. Когда вы видите подобную вариацию, вам необходимо отладить саму методологию оценки, прежде чем вы сможете доверять сравнению.

Это не единственный способ оценки качества поиска, но я считаю его одним из наиболее эффективных для достижения баланса между точностью и практической осуществимостью. Данная методика обеспечивает воспроизводимые результаты, позволяющие прогнозировать производительность в производственной среде, что дает возможность сравнивать поставщиков на равных условиях.

Сейчас мы находимся на этапе, когда полагаемся на выборочные демонстрации, и большинство сравнений поставщиков бессмысленны, потому что у всех разные показатели. Если вы принимаете решения о поисковой инфраструктуре на миллионы долларов, вы обязаны своей команде проводить правильные измерения.

Зайра Мустасан Посмотреть все от Зайры Мустасан

Источник: towardsdatascience.com

✅ Найденные теги: ИИ, Исправление, новости, Оценка, Поиск, Почему, Результаты

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

ideipro logotyp
Переосмысление системы здравоохранения на основе ценностной ориентации: Лекции из астронавтов
Мы использовали 5 методов обнаружения выбросов на реальном наборе данных: результаты разошлись в 96% случаев для помеченных образцов.
Дети смотрят планшет, сидя на ковре дома.
Абстрактное изображение атома с орбиталями на черном фоне.
dummy-img
Компания Vitestro привлекла 70 миллионов долларов для обеспечения глобальной коммерческой готовности своего робота для забора крови — Medical Device Network
ideipro logotyp
Рука из экрана указывает на медицинские иконки: сердце, таблетки, чат.
Image Not Found
ideipro logotyp

Новый подход на основе ИИ учитывает «температуру» данных для повышения точности прогнозирования.

Дебора Борфиц 12 февраля 2026 г. | Все, что можно определить как систему — список, включающий физические материалы, такие как кремний и графен, а также имплантируемые устройства, созданные с учетом индивидуальных особенностей пациента, и человеческий мозг —…

Мар 14, 2026
Переосмысление системы здравоохранения на основе ценностной ориентации: Лекции из астронавтов

Переосмысление системы здравоохранения на основе ценностной ориентации: Лекции из астронавтов

В ходе HIMSS26 участники использовали симуляции оказания медицинской помощи астронавтам в чрезвычайных ситуациях для изучения принятия решений, распределения ресурсов и стратегий оказания медицинской помощи, ориентированных на ценность, в условиях экстремальных ограничений. Медицинская помощь, ориентированная на ценность. Фото:…

Мар 14, 2026
Мы использовали 5 методов обнаружения выбросов на реальном наборе данных: результаты разошлись в 96% случаев для помеченных образцов.

Мы использовали 5 методов обнаружения выбросов на реальном наборе данных: результаты разошлись в 96% случаев для помеченных образцов.

Из 816 вин, отмеченных хотя бы одним методом, только 32 попали в единогласный список. У этих вин было нечто общее. Изображение предоставлено автором. # Введение Во всех руководствах по анализу данных обнаружение выбросов кажется довольно простым делом.…

Мар 14, 2026
Дети смотрят планшет, сидя на ковре дома.

Запрет детям пользоваться VPN и социальными сетями подорвет конфиденциальность взрослых.

В настоящее время в британском парламенте рассматривается законопроект, запрещающий детям пользоваться социальными сетями и виртуальными частными сетями, однако, по мнению юристов, эти предложения поставят под угрозу конфиденциальность в интернете и, возможно, не сделают детей более защищенными. Британские…

Мар 14, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых