Исследователи автоматизировали разработку стратегии логического мышления с использованием LLM и сократили использование токенов на 69,5%.

29.05.2026 ideipro.ru

Бен Диксон

стратегия масштабирования во время тестирования

Масштабирование во время тестирования (TTS) зарекомендовало себя как проверенный метод повышения производительности больших языковых моделей в реальных приложениях за счет предоставления им дополнительных вычислительных циклов во время вывода. Однако стратегии TTS исторически разрабатывались вручную, в значительной степени полагаясь на человеческую интуицию при определении правил рассуждений модели.

Для решения этой проблемы исследователи из Meta, Google и нескольких университетов представили AutoTTS — фреймворк, который автоматически определяет оптимальные стратегии преобразования текста в речь. Этот автоматизированный подход позволяет корпоративным организациям динамически оптимизировать распределение вычислительных ресурсов без ручной настройки эвристических алгоритмов.

Внедрение оптимальных стратегий, разработанных AutoTTS, позволяет организациям напрямую сократить использование токенов и операционные затраты на развертывание сложных моделей логического вывода в производственных средах. В экспериментальных исследованиях AutoTTS эффективно управлял бюджетами логического вывода, успешно сократив потребление токенов до 69,5% без ущерба для точности.

Узкое место, возникающее при ручной настройке масштабируемости во время тестирования.

Масштабирование во время тестирования повышает эффективность линейных моделей логического мышления, предоставляя им дополнительные вычислительные ресурсы при генерации ответов. Эти дополнительные вычислительные ресурсы позволяют модели генерировать несколько путей рассуждений или оценивать промежуточные шаги, прежде чем прийти к окончательному ответу.

Основная сложность при разработке стратегий преобразования текста в речь (TTS) заключается в определении оптимального распределения этих дополнительных вычислительных ресурсов. Исторически исследователи разрабатывали эти стратегии вручную, полагаясь на догадки для создания жестких эвристических моделей. Инженеры же должны выдвигать гипотезы о правилах и пороговых значениях, определяющих, когда модель должна разветвляться на новые пути рассуждений, углубляться в существующий путь, обрезать неперспективную ветвь или полностью прекратить рассуждения.

Поскольку этот процесс ручной настройки ограничен человеческой интуицией, огромное количество возможных подходов остается неисследованным. Это часто приводит к неоптимальному компромиссу между точностью модели и вычислительными затратами.

Современные алгоритмы преобразования текста в речь (TTS) можно отобразить в управляющее пространство «ширина-глубина» — «ширина» обозначает количество исследуемых ветвей рассуждений, а «глубина» — насколько далеко развивается каждая из них. Самосогласованность (SC) выбирает фиксированное количество траекторий и голосует большинством голосов за правильный ответ. Адаптивная согласованность (ASC) экономит вычислительные ресурсы, останавливаясь досрочно после достижения порогового значения достоверности. Параллельный зонд использует более детальный подход, отсеивая неперспективные ветви и углубляя остальные. Все три алгоритма создаются вручную, и именно это ограничение призван преодолеть AutoTTS.

Хотя некоторые более продвинутые методы используют более сложные структуры, такие как поиск по дереву или внешние верификаторы, все они обладают одной ключевой характеристикой: они тщательно создаются вручную. Такой ручной подход ограничивает область поиска стратегий, оставляя огромную часть потенциального пространства распределения ресурсов нетронутой.

Автоматизация поиска стратегий с помощью AutoTTS

AutoTTS переосмысливает подход к оптимизации масштабирования во время тестирования. Вместо того чтобы рассматривать разработку стратегии как задачу, выполняемую человеком, AutoTTS подходит к ней как к алгоритмической задаче поиска в контролируемой среде.

Эта концепция переосмысливает роли как инженера-человека, так и модели ИИ. Вместо того чтобы вручную создавать конкретные правила для определения того, когда модель линейного логического мышления должна разветвляться, обрезаться или прекращать рассуждения, роль инженера смещается в сторону построения среды поиска. Человек определяет границы, включая пространство управления состояниями и действиями, цели оптимизации, балансирующие точность и стоимость, а также конкретные механизмы обратной связи.

Исследовательская модель LLM, такая как модель Клода Кода, разрабатывает стратегию. Этот исследователь действует как автономный агент, который итеративно предлагает «контроллеры» TTS. Эти контроллеры представляют собой определенные кодом политики или алгоритмы, которые определяют, как модель ИИ распределяет свой вычислительный бюджет во время вывода. Исследователь тестирует и совершенствует эти контроллеры на основе обратной связи, пока не найдет оптимальную политику распределения ресурсов.

Чтобы сделать этот автоматизированный поиск вычислительно доступным, AutoTTS использует «среду офлайн-воспроизведения». Если бы исследовательской модели LLM приходилось каждый раз запускать базовую модель рассуждений для генерации новых токенов при проверке новой стратегии, вычислительные затраты были бы астрономическими. Вместо этого она использует тысячи траекторий рассуждений, предварительно собранных базовой моделью LLM. Эти траектории включают «сигналы зондирования», которые представляют собой промежуточные ответы, помогающие контроллеру оценить прогресс в различных ветвях рассуждений.

В процессе поиска агент-исследователь предлагает контроллер и оценивает его на основе полученных офлайн-данных. Агент наблюдает за трассировками выполнения предложенного контроллера, которые показывают, как он распределял вычислительные ресурсы во времени. Анализируя эти трассировки, агент может диагностировать конкретные режимы сбоев, например, определить, слишком ли агрессивно контроллер обрезал ветви в определенном сценарии. Это дает преимущество по сравнению с простым просмотром конечного результата. Затем агент итеративно переписывает свой код для улучшения соотношения точности и стоимости.

Внутри контроллера, разработанного с помощью ИИ.

Поскольку агент-исследователь не ограничен человеческой интуицией, он может обнаруживать высоко скоординированные, сложные правила, которые инженер-человек, вероятно, никогда бы не написал вручную. Один из оптимальных контроллеров, обнаруженных AutoTTS и названный Confidence Momentum Controller, использует несколько неочевидных механизмов для управления вычислениями:

Остановка на основе тренда : В стратегиях, разработанных вручную, часто указывается, что модель должна прекратить рассуждения, как только будет достигнут определенный мгновенный порог уверенности. Агент AutoTTS обнаружил, что мгновенная уверенность может вводить в заблуждение из-за временных всплесков. Вместо этого контроллер отслеживает экспоненциальное скользящее среднее (EMA) уровня уверенности и останавливается только в том случае, если общий уровень уверенности высок и тренд не находится в стадии активного снижения.
Сопряженное управление шириной и глубиной : алгоритмы, разработанные вручную, обычно рассматривают «расширение» новых путей рассуждений и «углубление» текущих путей как отдельные решения. AutoTTS обнаружил замкнутый контур обратной связи, в котором эти два действия связаны. Если уверенность в текущих ветвях замирает или снижается, контроллер автоматически запускает создание новых ветвей.
Распределение вычислительных ресурсов с учетом выравнивания : вместо того, чтобы выделять всем активным ветвям рассуждений одинаковый вычислительный бюджет, контроллер динамически определяет, какие ветви согласны с текущим ведущим ответом. Затем он предоставляет этим ветвям приоритетные «всплески» дополнительных вычислений. Это концентрирует вычислительный бюджет на формирующемся консенсусе, чтобы быстро проверить его правильность.

Экономия затрат и повышение точности в реальных условиях тестирования.

Чтобы проверить, может ли ИИ самостоятельно найти более эффективную стратегию масштабирования времени тестирования, исследователи разработали строгую систему оценки. Основные эксперименты проводились на моделях Qwen3 с количеством параметров от 0,6 млрд до 8 млрд. Исследователи также проверили способность системы к обобщению на упрощенной версии модели DeepSeek-R1 с 8 млрд параметров.

Первоначально перед агентом искусственного интеллекта-исследователем стояла задача найти оптимальную стратегию, используя математический тест AIME24. Найденная стратегия затем была протестирована на двух исключенных математических тестах, AIME25 и HMMT25, а также на тесте общего логического мышления уровня аспирантуры GPQA-Diamond.

Разработанный AutoTTS контроллер сравнивали с четырьмя алгоритмами масштабирования времени тестирования, созданными вручную и используемыми в отрасли. В число этих базовых алгоритмов входили самосогласованность с 64 параллельными путями рассуждений (SC@64), адаптивная согласованность (ASC), параллельное зондирование и самосогласованность с ранней остановкой (ESC). ESC — это гибридный подход, который генерирует траектории параллельно и останавливается на ранней стадии, когда ответ кажется стабильным.

В сбалансированном, экономичном режиме контроллер, обнаруженный AutoTTS, сократил общее потребление токенов примерно на 69,5% по сравнению с SC@64. При этом контроллер сохранил ту же среднюю точность для всех четырех моделей Qwen. При увеличении бюджета на вывод AutoTTS достиг пиковой точности, превышающей все созданные вручную базовые показатели в пяти из восьми тестовых случаев.

VB Transform · 14–15 июля · Менло-Парк · Агентная оркестровка

Компания Intuit перестроила свою многоагентную систему за 60 дней. Что именно они изменили и почему?

На конференции Transform руководители инженерных подразделений из Intuit, Target и Instacart рассказывают о том, как они перепроектировали свои архитектуры оркестрации для повышения надежности, масштабируемости и удовлетворения потребностей реальных клиентов.

Ознакомиться с полной программой →

Эта эффективность отразилась и на других задачах. В бенчмарке GPQA-Diamond сбалансированный вариант AutoTTS снизил стоимость токенов для вывода результатов с 510 000 до всего лишь 151 000 токенов, при этом немного улучшив общую точность. В модели DeepSeek AutoTTS показал наивысшую общую точность в бенчмарке HMMT25, сократив при этом расход токенов почти вдвое.

Для специалистов, разрабатывающих корпоративные приложения на основе искусственного интеллекта, эти эксперименты выявляют два основных операционных преимущества:

Повышение максимальной производительности: AutoTTS не просто экономит деньги на потреблении токенов. Он активно повышает максимально достижимую производительность базовой модели. Разработанный с помощью ИИ контроллер удивительно хорошо обнаруживает шумные или непродуктивные ветви рассуждений на лету и постоянно перенаправляет свой вычислительный бюджет на ветви, генерирующие наиболее полезные сигналы рассуждений.
Экономически эффективная разработка на заказ : поскольку платформа основана на среде воспроизведения в автономном режиме, весь процесс исследования обошелся всего в 39,90 долларов и занял 160 минут. Для корпоративных команд это означает, что оптимизированные стратегии рассуждений, адаптированные к собственным моделям и внутренним задачам, теперь доступны — без выделенного бюджета на исследования.

Как фреймворк AutoTTS, так и контроллер Confidence Momentum доступны на GitHub; CMC можно использовать в качестве прямой замены для других контроллеров TTS.

Подпишитесь, чтобы получать самые свежие новости!

Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.

VB Daily AI Weekly Еженедельник AGI Еженедельник по безопасности Еженедельник по инфраструктуре данных Мероприятия VB Все они

Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.

Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.

Источник: venturebeat.com

Оцените материал:

Оставить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Исследователи автоматизировали разработку стратегии логического мышления с использованием LLM и сократили использование токенов на 69,5%.

Узкое место, возникающее при ручной настройке масштабируемости во время тестирования.

Автоматизация поиска стратегий с помощью AutoTTS

Внутри контроллера, разработанного с помощью ИИ.

Экономия затрат и повышение точности в реальных условиях тестирования.

Подпишитесь, чтобы получать самые свежие новости!

Оставить комментарий Отменить ответ

🤖 Нельсон AI

Гайды, руководства и полезные статьи

Узкое место, возникающее при ручной настройке масштабируемости во время тестирования.

Автоматизация поиска стратегий с помощью AutoTTS

Внутри контроллера, разработанного с помощью ИИ.

Экономия затрат и повышение точности в реальных условиях тестирования.

Подпишитесь, чтобы получать самые свежие новости!

Похожие записи

Похожие записи

В прошлом году компания Meta потратила 19 миллиардов долларов на виртуальную реальность, и 2026 год не станет лучше.

Секрет воспроизводимой и переносимой оптимизации: промежуточное представление (IR) ORPilot.

Python, JavaScript или Go: что учить, чтобы быстро найти работу

Оставить комментарий Отменить ответ

Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email

🤖 Нельсон AI