График win rate DeepConsult и задержки алгоритмов TTD-DR и OAI DR.

Глубокий исследователь, специализирующийся на распространении знаний в условиях ограниченного времени.

a5b08413077c17c1357f5ea246abf421

Мы представляем Test-Time Diffusion Deep Researcher (TTD-DR) — фреймворк, использующий глубокого исследовательского агента для составления и редактирования собственных черновиков на основе высококачественной полученной информации. Этот подход позволяет достичь новых передовых результатов в написании объемных исследовательских отчетов и выполнении сложных задач логического мышления.

Быстрые ссылки

Последние достижения в области больших языковых моделей (LLM) способствовали появлению агентов глубокого исследования (DR). Эти агенты демонстрируют замечательные возможности, включая генерацию новых идей, эффективный поиск информации, выполнение экспериментов и последующее составление исчерпывающих отчетов и научных статей.

В настоящее время большинство общедоступных агентов DR используют множество хитрых методов для улучшения своих результатов, например, проводят рассуждения по принципу логической цепочки или генерируют несколько ответов и выбирают лучший. Несмотря на впечатляющий прогресс, они часто объединяют различные инструменты, не учитывая итеративный характер человеческих исследований. Им не хватает ключевого процесса (т.е. планирования, составления черновика, исследования и итерации на основе обратной связи), на который люди полагаются при написании работы на сложную тему. Ключевой частью этого процесса редактирования является проведение дополнительных исследований для поиска недостающей информации или усиления аргументов. Эта человеческая модель удивительно похожа на механизм моделей диффузионного поиска с дополненной реальностью, которые начинают с «шумного» или некачественного результата и постепенно улучшают его до высококачественного результата. Что если черновик агента ИИ — это шумная версия, а инструмент поиска выступает в качестве этапа шумоподавления, очищая её новыми фактами?

Сегодня мы представляем Test-Time Diffusion Deep Researcher (TTD-DR), агента глубокого исследования, имитирующего способ проведения исследований человеком. Насколько нам известно, TTD-DR — это первый исследовательский агент, моделирующий написание исследовательского отчета как процесс диффузии, где неряшливый первый черновик постепенно дорабатывается до высококачественной финальной версии. Мы представляем два новых алгоритма, которые работают вместе, чтобы обеспечить работу TTD-DR. Во-первых, покомпонентная оптимизация посредством самоэволюции повышает качество каждого шага в исследовательском процессе. Затем, уточнение на уровне отчета посредством шумоподавления с использованием полученных данных применяет вновь полученную информацию для пересмотра и улучшения черновика отчета. Мы демонстрируем, что TTD-DR достигает самых современных результатов в задачах написания длинных отчетов и многошагового рассуждения.

Исследователь, занимающийся распространением знаний в условиях ограниченного времени тестирования.

TTD-DR разработан таким образом, чтобы принимать запрос пользователя в качестве входных данных и создавать предварительный черновик, который служит развивающейся основой для плана исследования. Этот развивающийся черновик итеративно уточняется с помощью процесса шумоподавления с поиском информации (уточнение на уровне отчета), который использует найденную информацию для улучшения черновика на каждом этапе. Это происходит в непрерывном цикле, улучшая отчет с каждым циклом. Вдобавок ко всему, алгоритм самосовершенствования постоянно улучшает весь процесс, от первоначального плана до окончательного отчета. Это мощное сочетание уточнения и самосовершенствования приводит к более согласованному процессу написания отчетов.

Deep-Researcher-1

Иллюстрация TTD-DR. Мы разработали ее таким образом, чтобы имитировать типичные исследовательские практики, выполняя итеративные циклы составления и редактирования черновиков.

Проектирование магистральной сети DR

Проектирование магистральной сети аварийного восстановления состоит из трех этапов, которые мы опишем ниже.

  1. Разработка плана исследования: Создает структурированный план исследования по запросу пользователя. Этот план содержит список ключевых областей, необходимых для итогового отчета, и служит первоначальным руководством для последующего процесса сбора информации.
  2. Итеративный поиск: включает два подагента: генерация поискового вопроса (этап 2a на рисунке ниже) формирует поисковый запрос на основе плана исследования, запроса пользователя и контекста предыдущих итераций поиска (т.е. прошлых вопросов и ответов). Поиск ответа (этап 2b) осуществляет поиск в доступных источниках для нахождения релевантных документов и возвращает сводный ответ, аналогично системам генерации с расширенным поиском (RAG).
  3. Создание итогового отчета: формирует всеобъемлющий и связный итоговый отчет путем объединения всей собранной структурированной информации, то есть плана и серии пар вопросов и ответов.
Deep-Researcher-2

Наш основной агент аварийного восстановления работает в три этапа. Этап 1 генерирует подробный план исследования; Этап 2a итеративно генерирует поисковые вопросы, а затем использует систему, подобную RAG, для синтеза точных ответов из полученных документов (2b); Этап 3 синтезирует всю собранную информацию для составления окончательного отчета.

Компонентная самоэволюция

Мы используем самоэволюционный алгоритм для повышения производительности агентов на каждом этапе с целью поиска и сохранения высококачественного контекста.

  • Начальные состояния: Крайние левые блоки на диаграмме ниже представляют собой множество различных вариантов ответов, основанных на результатах предыдущих этапов, которые используются для исследования более широкого пространства поиска. В идеале это приводит к обнаружению более ценной информации.
  • Обратная связь от пользователя: Каждый вариант ответа оценивается судьей, имеющим степень магистра права (LLM), с использованием автоматизированных систем оценки таких показателей, как полезность и полнота. Эти системы оценки не только выставляют баллы за соответствие, но и генерируют текстовые комментарии, которые помогают улучшить ответ.
  • Корректировка: На основе оценок и обратной связи, полученных на предыдущем этапе, каждый вариант проходит этап корректировки для улучшения показателей пригодности. Этапы обратной связи и корректировки повторяются до достижения максимального числа итераций или до тех пор, пока агент не определит, что дальнейшие корректировки не требуются.
  • Пересечение: Наконец, несколько переработанных вариантов объединяются в единый высококачественный результат. Этот процесс объединения консолидирует лучшую информацию из всех эволюционных путей, создавая превосходный контекст для основного процесса генерации отчетов.
Deep-Researcher-3

Иллюстрация алгоритма самоэволюции по компонентам, применяемого к задаче поиска ответа (этап 2b). Процесс начинается с множества вариантов исходных ответов, каждый из которых проходит эпизод самоэволюции, в ходе которого сначала взаимодействует с окружающей средой для получения оценки пригодности и обратной связи. Затем он корректируется на основе полученной обратной связи. Этот процесс повторяется до достижения максимального числа итераций. Наконец, несколько скорректированных вариантов из всех эпизодов объединяются для получения окончательного ответа.

Шумоподавление на уровне отчета с возможностью поиска

Поскольку предварительный черновой вариант с шумом бесполезен для сложных тем без реального исследования, TTD-DR использует инструмент поиска, который очищает черновой вариант от шума и дорабатывает его.

В частности, мы передаем текущий черновой отчет на этап генерации поиска (этап 2a) основного рабочего процесса DR, чтобы использовать его для генерации следующего поискового запроса. После получения синтезированного ответа на этапе поиска ответа (этап 2b) новая информация используется для пересмотра чернового отчета путем добавления новых деталей или проверки существующей информации. Этот процесс передачи очищенного от шума отчета обратно для генерации следующего поискового запроса повторяется. Черновик постепенно очищается от шума до завершения процесса поиска, после чего конечный агент составляет окончательный отчет на основе всех исторических ответов на поисковые запросы и внесенных изменений (этап 3).

Результаты

Мы оцениваем производительность TTD-DR, используя эталонные наборы данных, ориентированные на две основные задачи: 1) сложные запросы, требующие от агентов-исследователей составления подробного отчета (DeepConsult), и 2) многошаговые запросы, требующие обширного поиска и логического вывода для ответа (Humanity's Last Exam [HLE] и GAIA). Мы отбираем 200 запросов из HLE, требующих более тщательного поиска и логического вывода (HLE-Search). Обе категории соответствуют нашей цели — созданию универсального, применимого в реальных условиях инструмента для проведения исследований. Мы сравниваем наши системы DR с OpenAI Deep Research.

TTD-DR неизменно демонстрирует лучшие результаты по всем показателям. В частности, по сравнению с OpenAI DR, TTD-DR достигает 74,5% успеха в задачах генерации длинных исследовательских отчетов. Кроме того, он превосходит OpenAI DR на 7,7% и 1,7% на двух обширных наборах данных для исследований с краткими эталонными ответами.

Deep-Researcher-4

Производительность TTD-DR по сравнению с различными базовыми системами на эталонных наборах данных. Слева : процент выигрышей (%) рассчитан на основе OpenAI DR. Справа : правильность вычисляется как совпадение между предсказанным системой ответом и эталонным ответом. TTD-DR значительно превосходит OpenAI DR.

Исследование абляции

Для исследования методом абляции мы постепенно добавляем три метода, описанные в разделе выше. Наши агенты DR используют Gemini-2.5-pro в качестве базовой модели. Все остальные базовые агенты используют свои стандартные LLM. На диаграммах ниже показано исследование методом абляции для наших агентов DR. Базовый агент DR показывает худшие результаты, чем OpenAI DR. С добавлением предложенного алгоритма самоэволюции мы наблюдаем, что для DeepConsult наша система превосходит OpenAI Deep Research с показателем успешности 59,8%. Показатели корректности на наборах данных HLE-Search и GAIA также демонстрируют улучшение на 4,4% и 1,2% соответственно. Наконец, включение диффузии в процесс поиска приводит к существенному улучшению по всем показателям.

Deep-Researcher-5

Производительность TTD-DR повышается за счет постепенного добавления 1) базовой архитектуры DR, 2) самоэволюции и 3) диффузии с поиском. Мы наблюдаем поэтапные улучшения по всем параметрам, которые помогают нам достичь новых передовых результатов.

Приведенная ниже диаграмма Парето-границы дополнительно демонстрирует эффективность масштабирования времени тестирования TTD-DR по сравнению с другими агентами DR. Мы обнаружили, что TTD-DR более эффективен, чем OpenAI DR, поскольку при той же задержке он обеспечивает лучшее качество на единицу процента выигрышей. Подробнее см. статью.

Deep-Researcher-6

Граница Парето качества отчетов об исследованиях в зависимости от задержки в секундах. Синяя линия обозначает TTD-DR, а серые точки — сравниваемые агенты DR.

Заключение

Deep Researcher with Test-Time Diffusion (TTD-DR) — это новая платформа, вдохновленная итеративным методом проведения исследований человеком. Этот агент устраняет ограничения существующих агентов DR, рассматривая генерацию отчетов как процесс распространения информации. Платформа TTD-DR значительно превосходит существующие агенты DR по различным показателям, требующим интенсивного поиска и многошагового анализа. Она демонстрирует передовые результаты в генерации исчерпывающих отчетов и поиске кратких ответов для задач многошагового поиска и анализа. Мы считаем, что ее успех обусловлен концепцией «сначала черновик», которая обеспечивает сфокусированность и согласованность всего процесса исследования, предотвращая потерю важной информации.

Доступно на платформе Google Cloud.

Продуктовая версия этой работы доступна на Google Agentspace и реализована с использованием Google Cloud Agent Development Kit.

Благодарности

Это исследование провели Руджун Хань, Яньфэй Чен, Гуань Сунь, Лесли Микуличич, Зои ЦуйЧжу, Юаньцзюнь (София) Би, Вэймин Вэнь, Хуэй Ван, Чуньфэн Вэнь, Солен Мэтр, Джордж Ли, Виши Тирумалашетти, Сяовей Ли, Эмили Сюэ, Цзыжао Чжан, Салем Хайкал, Бурак Гоктюрк, Томас. Пфистер и Чен-Ю Ли.

    Источник: research.google

    ✅ Найденные теги: Глубокий, Знания, Исследователь, новости, Ограниченное Время

    ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

    Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

    галерея

    Силуэт человека с телефоном на фоне логотипа Atlassian.
    ideipro logotyp
    Логотип "X" на текстурированной бетонной стене, черно-белое изображение.
    ideipro logotyp
    Ночное фото освещенного дата-центра с высоты, видны здания и освещение.
    ideipro logotyp
    Мужчина в галерее с крупными яркими абстрактными картинами на стене.
    Диаграмма продаж: очки, зонты, лимонад, солнцезащитный крем, с общим разделителем.
    ideipro logotyp
    Image Not Found
    Силуэт человека с телефоном на фоне логотипа Atlassian.

    Компания Atlassian запускает инструменты визуального искусственного интеллекта и сторонних агентов в Confluence.

    Источник изображений: Rafael Henrique/SOPA Images/LightRocket / Getty Images В среду программный гигант Atlassian анонсировал новые инструменты и агентов на основе искусственного интеллекта, ориентированные на преобразование данных в визуальные ресурсы и приложения. Это включает в себя запуск инструмента…

    Апр 8, 2026
    ideipro logotyp

    Никто не знает, как подавать налоговую декларацию на выигрыши на рынке прогнозов.

    В прошлом году американцы массово участвовали в рынках прогнозов. Теперь пришло время платить налоги с выигрышей. Как это сделать? Отличный вопрос. Источник: www.wired.com ✅ Найденные теги: «Никто, Выигрыши, Налоговая Декларация, новости, Рынок ПрогнозовПохожие записиКомпания Atlassian запускает инструменты…

    Апр 8, 2026
    Логотип "X" на текстурированной бетонной стене, черно-белое изображение.

    X внедряет функции автоматического перевода и редактирования фотографий на базе Grok.

    Источник изображений: TechCrunch Социальная медиаплатформа X запускает новую функцию автоматического перевода постов. Компания также представляет новый фоторедактор с возможностью редактирования изображений на основе естественного языка. Обе функции работают на основе моделей Grok от xAI. С помощью этих…

    Апр 8, 2026
    ideipro logotyp

    Европа всерьез занялась онлайн-проверкой возраста.

    Поиск системы проверки возраста, защищающей данные пользователей, может начаться и закончиться в ЕС. Источник: www.wired.com ✅ Найденные теги: возраст, Европа, новости, Онлайн-Проверка, 🇪🇺ЕвропаПохожие записиКомпания Atlassian запускает инструменты визуального искусственного интеллекта и сторонних агентов в Confluence.Никто не знает,…

    Апр 8, 2026

    Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых