Узнайте, как Google Stax тестирует модели ИИ и запросы на соответствие вашим собственным критериям. Сравните Gemini и GPT с помощью пользовательских инструментов оценки. Пошаговое руководство для начинающих.

Изображение предоставлено автором.
# Введение
Если вы разрабатываете приложения с использованием больших языковых моделей (LLM), вы, вероятно, сталкивались с ситуацией, когда вы меняете подсказку, запускаете её несколько раз, и результат кажется лучше. Но действительно ли он лучше? Без объективных метрик вы застреваете в том, что сейчас в индустрии называют «тестированием на основе интуиции», то есть принимаете решения, основываясь на интуиции, а не на данных.
Проблема заключается в фундаментальной характеристике моделей ИИ: неопределенности. В отличие от традиционного программного обеспечения, где одни и те же входные данные всегда дают одинаковый результат, модели с линейными функциями могут генерировать разные ответы на схожие запросы. Это делает традиционное модульное тестирование неэффективным и заставляет разработчиков гадать, действительно ли их изменения улучшили производительность.
Затем появился Google Stax, новый экспериментальный инструментарий от Google DeepMind и Google Labs, разработанный для повышения точности оценки ИИ. В этой статье мы рассмотрим, как Stax позволяет разработчикам и специалистам по обработке данных тестировать модели и подсказки на основе собственных критериев, заменяя субъективные суждения повторяемыми, основанными на данных решениями.
# Понимание Google Stax
Stax — это инструмент для разработчиков, упрощающий оценку моделей и приложений генеративного ИИ. Рассматривайте его как тестовую среду, специально разработанную для решения уникальных задач, связанных с работой с моделями LLM.
По своей сути, Stax решает простую, но критически важную проблему: как определить, какая модель или запрос лучше подходит для конкретного случая? Вместо того чтобы полагаться на общие критерии, которые могут не отражать потребности вашего приложения, Stax позволяет определить, что означает «хорошо» для вашего проекта, и оценивать результаты по этим стандартам.
// Изучение ключевых возможностей
- Это помогает определить собственные критерии успеха, выходящие за рамки общих показателей, таких как беглость речи и безопасность.
- Вы можете тестировать различные подсказки на разных моделях одновременно.
- Вы можете принимать решения на основе данных, визуализируя собранные показатели производительности, включая качество, задержку и использование токенов.
- Она позволяет проводить масштабные оценки, используя ваши собственные наборы данных.
Stax отличается гибкостью и поддерживает не только модели Google Gemini, но и GPT от OpenAI, Claude от Anthropic, Mistral и другие благодаря интеграции через API.
# Выход за рамки стандартных бенчмарков
Общие бенчмарки для ИИ выполняют важную функцию, например, помогают отслеживать прогресс модели на высоком уровне. Однако они часто не отражают специфические требования предметной области. Модель, которая преуспевает в рассуждениях в открытой предметной области, может показывать плохие результаты в специализированных задачах, таких как:
- Резюмирование, ориентированное на соблюдение нормативных требований
- Анализ юридических документов
- Вопросы и ответы, специфичные для конкретного предприятия.
- Соответствие фирменному стилю
Именно в разрыве между общими эталонными показателями и реальными приложениями Stax представляет свою ценность. Он позволяет оценивать системы искусственного интеллекта на основе ваших данных и критериев, а не абстрактных глобальных оценок.
# Начало работы со Stax
// Шаг 1: Добавление ключа API
Для генерации результатов работы модели и проведения оценок вам потребуется добавить ключ API. Stax рекомендует начать с ключа API Gemini , поскольку встроенные средства оценки используют его по умолчанию, хотя вы можете настроить их для использования других моделей. Вы можете добавить свой первый ключ во время регистрации или позже в настройках.
Для сравнения нескольких поставщиков добавьте ключи для каждой модели, которую вы хотите протестировать; это позволит проводить параллельное сравнение без переключения между инструментами.

Получение ключа API
// Шаг 2: Создание проекта оценки
Проекты — это центральное рабочее пространство в Stax. Каждый проект соответствует отдельному оценочному эксперименту, например, тестированию новой системной подсказки или сравнению двух моделей.
Вам будет предложен выбор между двумя типами проектов:
| Тип проекта | Лучше всего подходит для |
|---|---|
| Единая модель | Определение базовых показателей производительности или тестирование итерации модели или системного запроса |
| Рядом | Прямое сравнение двух разных моделей или запросов на одном и том же наборе данных. |

Рисунок 1: Сравнительная блок-схема, показывающая две модели, получающие одинаковые входные сигналы, и их выходные данные, поступающие в оценщик, который формирует сравнительные метрики.
// Шаг 3: Создание набора данных
Качественная оценка начинается с точных данных, отражающих ваши реальные сценарии использования. Stax предлагает два основных метода для достижения этой цели:
Вариант А: Добавление данных вручную в окне Prompt Playground
Если у вас нет готового набора данных, создайте его с нуля:
- Выберите модель (модели), которую (которые) вы хотите протестировать.
- Установите системную подсказку (необязательно), чтобы определить роль ИИ.
- Добавьте подсказки для пользователей, которые имитируют реальные действия пользователя.
- Предоставьте оценки, данные людьми (по желанию), для создания базовых показателей качества.
Каждый входной, выходной параметр и оценка автоматически сохраняются как тестовый пример.
Вариант B: Загрузка существующего набора данных
Для команд, работающих с производственными данными, загружайте CSV-файлы напрямую. Если ваш набор данных не содержит результатов работы модели, нажмите «Сгенерировать результаты» и выберите модель для их генерации.
Рекомендация: включите в набор данных крайние случаи и противоречивые примеры, чтобы обеспечить всестороннее тестирование.
# Оценка результатов работы ИИ
// Проведение ручной оценки
Вы можете оценивать отдельные результаты работы непосредственно в тестовой среде или в рамках эталонного показателя проекта. Хотя оценка человеком считается «золотым стандартом», она медленная, дорогостоящая и трудно масштабируемая.
// Выполнение автоматизированной оценки с помощью авторизованных оценщиков
Для одновременной оценки множества результатов Stax использует оценку LLM в качестве судьи, где мощная модель ИИ оценивает результаты другой модели на основе ваших критериев.
Stax включает в себя предустановленные инструменты оценки для распространенных метрик:
- Свободное владение языком
- Фактическая согласованность
- Безопасность
- Инструкция следующая
- Краткость

Интерфейс оценки Stax отображает столбец с результатами работы модели, а также смежные столбцы с оценками от различных оценщиков и кнопку «Запустить оценку».
// Использование пользовательских оценщиков
Хотя предустановленные инструменты оценки представляют собой отличную отправную точку, создание собственных инструментов оценки — лучший способ измерить то, что важно для вашего конкретного случая.
Пользовательские оценщики позволяют задавать конкретные критерии, такие как:
- «Ответ полезен, но не слишком фамильярный?»
- «Содержит ли полученный результат какую-либо информацию, позволяющую идентифицировать личность (PII)?»
- «Соответствует ли сгенерированный код нашему внутреннему руководству по стилю?»
- «Соответствует ли фирменный стиль нашим рекомендациям?»
Для создания собственного оценщика: определите четкие критерии, напишите подсказку для модели оценки, включающую контрольный список для выставления баллов, и протестируйте ее на небольшой выборке результатов, оцененных вручную, чтобы убедиться в соответствии.
# Изучение практических вариантов применения
// Рассмотрение варианта использования 1: Чат-бот для службы поддержки клиентов
Представьте, что вы разрабатываете чат-бота для службы поддержки клиентов. Ваши требования могут включать следующее:
- Профессиональный тон
- Точные ответы, основанные на ваших знаниях.
- Галлюцинаций нет.
- Разрешение общих проблем в рамках трех обменов
С компанией Stax вы бы:
- Загрузите набор данных реальных запросов клиентов.
- Генерируйте ответы на основе различных моделей (или различных версий подсказок).
- Создайте собственный оценщик, который будет оценивать профессионализм и точность.
- Сравните результаты, чтобы выбрать лучшего участника.
// Обзор варианта использования 2: Инструмент для составления кратких обзоров контента
Для приложения, занимающегося составлением новостных сводок, важны следующие факторы:
- Краткость (краткие изложения менее 100 слов)
- Фактическое соответствие оригинальной статье.
- Сохранение ключевой информации
Использование встроенного в Stax инструмента оценки качества суммаризации позволяет мгновенно получать метрики, а пользовательские инструменты оценки могут устанавливать определенные ограничения по длине или требованиям к стилю изложения бренда.

Рисунок 2: Визуализация модели Stax Flywheel, показывающая три этапа: Эксперимент (тестирование подсказок/моделей), Оценка (запуск оценочных инструментов) и Анализ (анализ метрик и принятие решения).
# Интерпретация результатов
После завершения оценок Stax добавляет в ваш набор данных новые столбцы, отображающие оценки и обоснования для каждого результата. Раздел «Метрики проекта» предоставляет сводную информацию о:
- Оценки, данные людьми
- Средние оценки экспертов
- Задержка вывода
- Количество токенов
Используйте эти количественные данные для:
- Сравните результаты нескольких итераций: превосходит ли вариант А вариант Б на протяжении всего времени?
- Выберите подходящую модель: стоит ли более быстрая модель небольшого снижения качества?
- Отслеживайте прогресс: действительно ли ваши оптимизации улучшают производительность?
- Выявление сбоев: Какие входные данные постоянно приводят к неудовлетворительным результатам?

Рисунок 3: Панель мониторинга с гистограммами, сравнивающими две модели по нескольким показателям (оценка качества, задержка, стоимость).
# Внедрение передовых методов для эффективной оценки
- Начните с малого, затем масштабируйте: вам не нужны сотни тестовых случаев, чтобы получить пользу. Набор тестов всего из десяти высококачественных подсказок гораздо ценнее, чем полагаться только на тестирование атмосферы. Начните с узкоспециализированного набора и расширяйте его по мере обучения.
- Создайте регрессионные тесты: ваши оценки должны включать тесты, которые защищают существующее качество. Например, «всегда выводить корректный JSON» или «никогда не включать названия конкурентов». Это предотвратит появление новых изменений, которые могут нарушить работу уже существующих функций.
- Создавайте наборы задач: формируйте наборы данных, ориентированные на те области, в которых вы хотите улучшить свой ИИ. Если ваша модель испытывает трудности со сложным мышлением, создайте набор задач, специально предназначенный для этой области.
- Не отказывайтесь от ручной проверки: хотя автоматизированная оценка хорошо масштабируется, использование вашей команды продукта на основе ИИ остается крайне важным для развития интуиции. Используйте Stax для сбора убедительных примеров из тестирования людьми и включения их в ваши формальные наборы данных для оценки.
# Ответы на часто задаваемые вопросы
- Что такое Google STAX? STAX — это инструмент для разработчиков от Google, предназначенный для оценки приложений, использующих LLM-технологии. Он помогает тестировать модели и запросы на основе собственных критериев, а не полагаться на общие бенчмарки.
- Как работает Stax AI? Stax использует подход «LLM-в-качестве судьи», где вы определяете критерии оценки, а модель ИИ оценивает результаты на основе этих критериев. Вы можете использовать готовые инструменты оценки или создавать собственные.
- Какой инструмент от Google позволяет пользователям создавать собственные модели машинного обучения? Хотя Stax ориентирован на оценку, а не на создание моделей, он работает совместно с другими инструментами Google AI. Для построения и обучения моделей обычно используются TensorFlow или Vertex AI. Затем Stax помогает оценить производительность этих моделей.
- Что является аналогом ChatGPT от Google? Основной разговорный ИИ от Google — это Gemini (ранее Bard). Stax может помочь вам протестировать и оптимизировать подсказки для Gemini и сравнить его производительность с другими моделями.
- Могу ли я обучать ИИ на своих собственных данных? Stax не обучает модели, а оценивает их. Однако вы можете использовать свои собственные данные в качестве тестовых примеров для оценки предварительно обученных моделей. Для обучения пользовательских моделей на ваших данных вы будете использовать такие инструменты, как Vertex AI.
# Заключение
Эпоха тестирования на основе атмосферы подходит к концу. По мере перехода ИИ от экспериментальных демонстраций к производственным системам детальная оценка становится важной. Google Stax предоставляет основу для определения того, что означает «хорошо» для вашего уникального случая, а также инструменты для систематического измерения этого показателя.
Заменив субъективные суждения повторяемыми, основанными на данных оценками, Stax помогает вам:
- С уверенностью внедряйте функции искусственного интеллекта.
- Принимайте взвешенные решения о выборе модели.
- Ускорьте процесс итерации с учетом подсказок и системных инструкций.
- Создавайте продукты на основе искусственного интеллекта, которые надежно удовлетворяют потребности пользователей.
Независимо от того, являетесь ли вы начинающим специалистом по анализу данных или опытным инженером машинного обучения, внедрение структурированных методов оценки изменит ваш подход к разработке приложений с использованием ИИ. Начните с малого, определите, что важно для вашего приложения, и позвольте данным направлять ваши решения.
Готовы выйти за рамки простого тестирования атмосферы? Посетите stax.withgoogle.com, чтобы изучить инструмент и присоединиться к сообществу разработчиков, создающих лучшие приложения на основе ИИ.
// Ссылки
- Краткое руководство по началу работы с Google Stax
- Документация Google Stax
Шитту Олумиде — инженер-программист и технический писатель, увлеченный использованием передовых технологий для создания захватывающих повествований, обладающий острым вниманием к деталям и умением упрощать сложные концепты. Шитту также можно найти в Твиттере.
Источник: www.kdnuggets.com





















