Image

Tau² Benchmark: как переписывание промпта подняло точность GPT 5 mini на 22%

5e954d27e0832e0793e84d3bb5c7052d

В недавней публикации мы представили Tau² — инструмент для оценки больших языковых моделей. Сегодня же хотим поделиться неожиданным открытием: простое переписывание промпта увеличило успешность небольшой модели более чем на 20%. Ниже — подробный разбор того, как мы нашли и устранили узкое место в её работе, внеся всего несколько тонких изменений в политику агентов.

LLM-тесты с помощью Tau²

В недавнем летнем обновлении OpenAI стало очевидно, что GPT 5 значительно продвинулся в решении агентных задач. Чтобы проверить эти заявления, использовали именно Tau², ведь он имитирует реальные сценарии взаимодействия с агентами в таких сферах, как телеком, розничная торговля и авиаперевозки.

Наиболее ощутимый скачок ChatGPT 5 показал в направлении телеком.

ef63d8c6fade8160ea93462c8038905a

В агентных взаимодействиях точность не предмет спора, но не менее важна и скорость работы модели: от этого напрямую зависит пользовательский опыт. Именно поэтому логично присмотреться к альтернативам флагманских решений, например к недавно выпущенной ChatGPT 5 mini.

У неё масса преимуществ: она почти вдвое быстрее по задержке, заметно эффективнее по пропускной способности, выдаёт 85–95% качества от старшей GPT 5 и при этом стоит в пять раз дешевле.

Поэтому мы поставили себе цель проверить две вещи: во‑первых, насколько GPT 5 mini справится с этим бенчмарком; а во‑вторых, можно ли улучшить результаты, слегка подправив саму постановку задач — например, переписав политики агентов или описания заданий.

Базовый уровень

433db35c8a19dbf4fd32cea12b952bc6

Для начала мы решили зафиксировать исходный показатель качества GPT 5 mini. Так как полный телеком‑бенчмарк насчитывает свыше сотни тестов, мы ограничились его компактной версией — telecom_small, где всего 20 сценариев.

Запуск выглядел так:

tau2 run —domain telecom —agent-llm gpt-5-mini —user-llm gpt-5-mini —num-trials 2 —task-set-name telecom_small

Результаты оказались следующими:

f6669741faf6c8ca02d31ce9c24be840

Всего вышло 40 симуляций:

Результаты задач симуляции с зелёными галочками и красными крестиками, показывающими успехи и провалы
Результаты задач симуляции с зелёными галочками и красными крестиками, показывающими успехи и провалы

Начальный успех оказался низким — лишь 55%. С ограниченными возможностями рассуждений GPT 5 mini даже близко не дотянула до флагманской версии.

Интересную метрику ввёл этот бенчмарк — pass^k. Она показывает, насколько хорошо агент справляется, если дать ему повторно одну и ту же задачу k раз. По сути, это показатель надёжности AI‑агента.

Взлом системы: как Claude переписал промпты для GPT 5 mini

Экспериментируя с GPT 5 mini, мы пытались ответить на три вопроса: можно ли повысить общий процент успешных решений у этой ограниченной модели? Удастся ли «разблокировать» больше задач, с которыми она раньше не справлялась? Улучшится ли её надёжность?

Прелесть генеративного ИИ в том, что он позволяет часть тяжёлой работы переложить на плечи других моделей. Поэтому мы обратились к Claude: попросили его проанализировать политики агентов в домене телеком, которые лежат в основе промпта, и переписать их с оглядкой на то, что этот текст будет использоваться не флагманской, а более быстрой, облегчённой LLM. Получившиеся документы (main_policy.md и tech_support_manual.md) должны были стать проще для восприятия и, как следствие, улучшить поведение агента.

Вот краткий «экзекьютив‑саммари» улучшений:

Я создал две AI-оптимизированные версии документации по телеком-домену: Ключевые улучшения: 1. Структура и логика — Деревья решений: чёткое ветвление с обозначениями ├── и └──. — Последовательные шаги: пронумерованные процедуры вместо разрозненных пояснений. — Предварительные условия: явная проверка зависимостей перед началом работы. 2. Оптимизация для ИИ-агента — Ясность вызова инструментов: точные названия функций и параметры. — Бинарные решения: чёткие «да/нет»-условия вместо расплывчатых формулировок. — Обработка ошибок: конкретные сценарии сбоев и дальнейшие шаги. — Этапы проверки: перепроверочные инструкции после каждого исправления. 3. Снижение когнитивной нагрузки — Справочные таблицы: быстрый доступ к инструментам и их назначению. — Узнавание шаблонов: типовые комбинации проблем и их решения. — Критические напоминания: раздел о частых ошибках ИИ для их предотвращения. 4. Прикладной язык — Удалены пространные объяснения, смешанные с инструкциями. — Логика нескольких документов объединена в единые рабочие процессы. — Использованы повелительные конструкции: «Проверь X», «Если Y, то Z». — Добавлены шаги немедленной проверки.ОригиналI’ve created two AI-optimized versions of the telecom domain documentation: Key Improvements Made: 1. Structure & Flow — Decision Trees: Clear branching logic with ├── and └── notation — Sequential Steps: Numbered, ordered procedures instead of scattered explanations — Prerequisites: Explicit dependency checks before proceeding 2. AI Agent Optimizations — Tool Call Clarity: Exact function names and parameters — Binary Decisions: Clear yes/no conditions instead of ambiguous language — Error Handling: Specific failure conditions and next steps — Verification Steps: «Recheck» instructions after each fix 3. Cognitive Load Reduction — Reference Tables: Quick lookup for tools and purposes — Pattern Recognition: Common issue combinations and their solutions — Critical Reminders: Common AI mistakes section to prevent errors 4. Actionable Language — Removed verbose explanations mixed with instructions — Consolidated multiple documents’ logic into single workflows — Used imperative commands: «Check X», «If Y then Z» — Added immediate verification steps

Мы ушли от длинных деклараций политик к ясным, директивным указаниям. Вместо многословных описаний теперь используются пошаговая логика, условия и шаблоны. Для промптов это работает скорее как чек‑лист: «Проверь X → Если Y, то Z», а не как размытые описательные инструкции.

Результат: рост точности на 22% и вдвое меньше невыполнимых задач

Посмотрим, что получилось после обновления:

Результаты симуляции: метрики агента с наградами, коэффициентами pass и стоимостью диалога
Результаты симуляции: метрики агента с наградами, коэффициентами pass и стоимостью диалога

Новые промпты дали мощный прирост. Метрика pass^k заметно подросла:

  • При k = 1: с 0,55 до 0,675 (плюс 22,73%) → проще говоря, GPT 5 mini теперь справляется с 67,5% задач вместо 55%.

  • При k = 2: с 0,4 до 0,5 (плюс 25%) → значит, повторные попытки тоже стали продуктивнее.

Для сравнения: флагманский GPT 5 набирает около 97% на этом бенчмарке, o3 — 58%, а GPT 4.1 всего 34%. После оптимизации промптов GPT 5 mini не только поднялась выше своей базы, но и обогнала o3, приблизившись к старшей модели.

Построчное сравнение показывает, где именно мы добились прироста. Слева — стандартные результаты агента, справа — версия, оптимизированная именно под нашу модель GPT 5 mini.

Сравнительные журналы консоли: стандартные результаты агента GPT 5 mini против улучшенных
Сравнительные журналы консоли: стандартные результаты агента GPT 5 mini против улучшенных

Скриншот наглядно демонстрирует: благодаря обновлённым промптам и политикам мы «разблокировали» часть тестов, которые раньше модель проваливала. Теперь осталось всего три задачи, которые агент не смог выполнить ни в одной из двух попыток — против шести ранее.

Что это значит для ваших моделей

Этот опыт показал: вдумчивый дизайн промптов способен серьёзно улучшить работу небольших моделей вроде GPT 5 mini. Переписав политики в виде чётких пошаговых инструкций, мы не только повысили процент успешных решений, но и «открыли» задачи, которые раньше казались для модели безнадёжными.

Главный секрет был в упрощении языка, устранении двусмысленностей и разбиении рассуждений на понятные, применимые шаги. Небольшие модели плохо разбирают пространные или расплывчатые инструкции, но прекрасно работают, когда им дают структурированные схемы, бинарные решения и лёгкие проверки на каждом этапе.

Вывод очевиден: использование флагманской модели для автоматической оптимизации промптов открывает путь к серьёзным улучшениям в работе облегчённых LLM. При грамотной настройке они способны давать достойный результат за малую долю стоимости — и это делает их особенно привлекательными там, где важны не только точность, но и эффективность с доступностью.

Если эта работа оказалась вам полезной — дайте знать. Искусство инженерии промптов всё ещё открыто для экспериментов, и нам крайне любопытно, какие ещё творческие подходы будут искать другие.

ee85712e65ab8862b16ea8efeec08212

Пока версталась статья

После публикации этой статьи и выхода её на главную HN читатели проявили интерес к тому, чтобы увидеть реальные версии политик «до» и «после» (именно они служат строительным материалом для промпта агента). Сначала мне казалось, что они будут слишком громоздкими для статьи, и никому не захочется вникать, но раз уж появился интерес — делюсь ими в этом пулл‑реквесте.

Источник: habr.com

✅ Найденные теги: Tau², новости
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых