Tau² Benchmark: как переписывание промпта подняло точность GPT 5 mini на 22%

30.09.2025 ideipro.ru

В недавней публикации мы представили Tau² — инструмент для оценки больших языковых моделей. Сегодня же хотим поделиться неожиданным открытием: простое переписывание промпта увеличило успешность небольшой модели более чем на 20%. Ниже — подробный разбор того, как мы нашли и устранили узкое место в её работе, внеся всего несколько тонких изменений в политику агентов.

LLM-тесты с помощью Tau²

В недавнем летнем обновлении OpenAI стало очевидно, что GPT 5 значительно продвинулся в решении агентных задач. Чтобы проверить эти заявления, использовали именно Tau², ведь он имитирует реальные сценарии взаимодействия с агентами в таких сферах, как телеком, розничная торговля и авиаперевозки.

Наиболее ощутимый скачок ChatGPT 5 показал в направлении телеком.

В агентных взаимодействиях точность не предмет спора, но не менее важна и скорость работы модели: от этого напрямую зависит пользовательский опыт. Именно поэтому логично присмотреться к альтернативам флагманских решений, например к недавно выпущенной ChatGPT 5 mini.

У неё масса преимуществ: она почти вдвое быстрее по задержке, заметно эффективнее по пропускной способности, выдаёт 85–95% качества от старшей GPT 5 и при этом стоит в пять раз дешевле.

Поэтому мы поставили себе цель проверить две вещи: во‑первых, насколько GPT 5 mini справится с этим бенчмарком; а во‑вторых, можно ли улучшить результаты, слегка подправив саму постановку задач — например, переписав политики агентов или описания заданий.

Базовый уровень

Для начала мы решили зафиксировать исходный показатель качества GPT 5 mini. Так как полный телеком‑бенчмарк насчитывает свыше сотни тестов, мы ограничились его компактной версией — telecom_small, где всего 20 сценариев.

Запуск выглядел так:

tau2 run —domain telecom —agent-llm gpt-5-mini —user-llm gpt-5-mini —num-trials 2 —task-set-name telecom_small

Результаты оказались следующими:

Всего вышло 40 симуляций:

Результаты задач симуляции с зелёными галочками и красными крестиками, показывающими успехи и провалы

Начальный успех оказался низким — лишь 55%. С ограниченными возможностями рассуждений GPT 5 mini даже близко не дотянула до флагманской версии.

Интересную метрику ввёл этот бенчмарк — pass^k. Она показывает, насколько хорошо агент справляется, если дать ему повторно одну и ту же задачу k раз. По сути, это показатель надёжности AI‑агента.

Взлом системы: как Claude переписал промпты для GPT 5 mini

Экспериментируя с GPT 5 mini, мы пытались ответить на три вопроса: можно ли повысить общий процент успешных решений у этой ограниченной модели? Удастся ли «разблокировать» больше задач, с которыми она раньше не справлялась? Улучшится ли её надёжность?

Прелесть генеративного ИИ в том, что он позволяет часть тяжёлой работы переложить на плечи других моделей. Поэтому мы обратились к Claude: попросили его проанализировать политики агентов в домене телеком, которые лежат в основе промпта, и переписать их с оглядкой на то, что этот текст будет использоваться не флагманской, а более быстрой, облегчённой LLM. Получившиеся документы (main_policy.md и tech_support_manual.md) должны были стать проще для восприятия и, как следствие, улучшить поведение агента.

Вот краткий «экзекьютив‑саммари» улучшений:

Я создал две AI-оптимизированные версии документации по телеком-домену: Ключевые улучшения: 1. Структура и логика — Деревья решений: чёткое ветвление с обозначениями ├── и └──. — Последовательные шаги: пронумерованные процедуры вместо разрозненных пояснений. — Предварительные условия: явная проверка зависимостей перед началом работы. 2. Оптимизация для ИИ-агента — Ясность вызова инструментов: точные названия функций и параметры. — Бинарные решения: чёткие «да/нет»-условия вместо расплывчатых формулировок. — Обработка ошибок: конкретные сценарии сбоев и дальнейшие шаги. — Этапы проверки: перепроверочные инструкции после каждого исправления. 3. Снижение когнитивной нагрузки — Справочные таблицы: быстрый доступ к инструментам и их назначению. — Узнавание шаблонов: типовые комбинации проблем и их решения. — Критические напоминания: раздел о частых ошибках ИИ для их предотвращения. 4. Прикладной язык — Удалены пространные объяснения, смешанные с инструкциями. — Логика нескольких документов объединена в единые рабочие процессы. — Использованы повелительные конструкции: «Проверь X», «Если Y, то Z». — Добавлены шаги немедленной проверки.ОригиналI’ve created two AI-optimized versions of the telecom domain documentation: Key Improvements Made: 1. Structure & Flow — Decision Trees: Clear branching logic with ├── and └── notation — Sequential Steps: Numbered, ordered procedures instead of scattered explanations — Prerequisites: Explicit dependency checks before proceeding 2. AI Agent Optimizations — Tool Call Clarity: Exact function names and parameters — Binary Decisions: Clear yes/no conditions instead of ambiguous language — Error Handling: Specific failure conditions and next steps — Verification Steps: «Recheck» instructions after each fix 3. Cognitive Load Reduction — Reference Tables: Quick lookup for tools and purposes — Pattern Recognition: Common issue combinations and their solutions — Critical Reminders: Common AI mistakes section to prevent errors 4. Actionable Language — Removed verbose explanations mixed with instructions — Consolidated multiple documents’ logic into single workflows — Used imperative commands: «Check X», «If Y then Z» — Added immediate verification steps

Мы ушли от длинных деклараций политик к ясным, директивным указаниям. Вместо многословных описаний теперь используются пошаговая логика, условия и шаблоны. Для промптов это работает скорее как чек‑лист: «Проверь X → Если Y, то Z», а не как размытые описательные инструкции.

Результат: рост точности на 22% и вдвое меньше невыполнимых задач

Посмотрим, что получилось после обновления:

Результаты симуляции: метрики агента с наградами, коэффициентами pass и стоимостью диалога

Новые промпты дали мощный прирост. Метрика pass^k заметно подросла:

При k = 1: с 0,55 до 0,675 (плюс 22,73%) → проще говоря, GPT 5 mini теперь справляется с 67,5% задач вместо 55%.
При k = 2: с 0,4 до 0,5 (плюс 25%) → значит, повторные попытки тоже стали продуктивнее.

Для сравнения: флагманский GPT 5 набирает около 97% на этом бенчмарке, o3 — 58%, а GPT 4.1 всего 34%. После оптимизации промптов GPT 5 mini не только поднялась выше своей базы, но и обогнала o3, приблизившись к старшей модели.

Построчное сравнение показывает, где именно мы добились прироста. Слева — стандартные результаты агента, справа — версия, оптимизированная именно под нашу модель GPT 5 mini.

Сравнительные журналы консоли: стандартные результаты агента GPT 5 mini против улучшенных

Скриншот наглядно демонстрирует: благодаря обновлённым промптам и политикам мы «разблокировали» часть тестов, которые раньше модель проваливала. Теперь осталось всего три задачи, которые агент не смог выполнить ни в одной из двух попыток — против шести ранее.

Что это значит для ваших моделей

Этот опыт показал: вдумчивый дизайн промптов способен серьёзно улучшить работу небольших моделей вроде GPT 5 mini. Переписав политики в виде чётких пошаговых инструкций, мы не только повысили процент успешных решений, но и «открыли» задачи, которые раньше казались для модели безнадёжными.

Главный секрет был в упрощении языка, устранении двусмысленностей и разбиении рассуждений на понятные, применимые шаги. Небольшие модели плохо разбирают пространные или расплывчатые инструкции, но прекрасно работают, когда им дают структурированные схемы, бинарные решения и лёгкие проверки на каждом этапе.

Вывод очевиден: использование флагманской модели для автоматической оптимизации промптов открывает путь к серьёзным улучшениям в работе облегчённых LLM. При грамотной настройке они способны давать достойный результат за малую долю стоимости — и это делает их особенно привлекательными там, где важны не только точность, но и эффективность с доступностью.

Если эта работа оказалась вам полезной — дайте знать. Искусство инженерии промптов всё ещё открыто для экспериментов, и нам крайне любопытно, какие ещё творческие подходы будут искать другие.

Пока версталась статья

После публикации этой статьи и выхода её на главную HN читатели проявили интерес к тому, чтобы увидеть реальные версии политик «до» и «после» (именно они служат строительным материалом для промпта агента). Сначала мне казалось, что они будут слишком громоздкими для статьи, и никому не захочется вникать, но раз уж появился интерес — делюсь ими в этом пулл‑реквесте.

Источник: habr.com

Оцените материал:

#Tau² #новости

LLM-тесты с помощью Tau²

Базовый уровень

Взлом системы: как Claude переписал промпты для GPT 5 mini

Результат: рост точности на 22% и вдвое меньше невыполнимых задач

Что это значит для ваших моделей

Похожие записи

Похожие записи

Наступает эра убеждения ИИ на выборах

Nike создала ускоряющий ходьбу и бег модуль для кроссовок

Сотрудники Агентства по охране окружающей среды всё ещё в неведении, поскольку агентство ликвидирует научно-исследовательский офис

Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email