Исследователи обучили поискового агента с открытым исходным кодом, Harness-1, который превосходит GPT-5.4 по показателю извлечения релевантной информации.
Карл Франзен

В результате совместной исследовательской работы ученых из Университета Иллинойса в Урбана-Шампейн (UIUC), Калифорнийского университета в Беркли и открытой платформы векторных баз данных Chroma, использующей искусственный интеллект, был представлен Harness-1 — поисковый агент с открытым исходным кодом, содержащий 20 миллиардов параметров и построенный на основе открытой модели gpt-oss-20B от OpenAI. Этот агент коренным образом меняет подход ИИ к выполнению сложных задач поиска.
Модель Harness-1 демонстрирует колоссальный скачок в производительности, показывая в среднем 73% точности в извлечении релевантной информации из тщательно подобранного набора данных, превосходя даже GPT-5.4 (70,9%) и следующего по точности поискового агента с открытым исходным кодом, Tongyi DeepResearch 30B, на 11,4 процентных пункта. (Хотя GPT-5.5 также существует уже более месяца, исследователи не тестировали его на этой модели, поскольку она не была доступна на момент создания их собственной.)

Что особенно важно для разработчиков, модель и ее окружение доступны сразу же под очень либеральной лицензией Apache 2.0, а код модели и веса доступны на Hugging Face.
Harness-1 также служит доказательством эффективности другого проекта — Tinker, распределенного веб-ориентированного API для обучения и тонкой настройки моделей ИИ, разработанного компанией Thinking Machines. Tinker использовался специально для обучения и выполнения инференции для Harness-1, демонстрируя, как интерактивная инфраструктура активно способствует развитию следующего поколения автономных моделей.
Итак, как же исследователям это удалось?
Анализ контрольных показателей (и почему Harness-1 может оказать огромную помощь предприятиям)
Чтобы проверить эти модели на практике, исследователи оценили Harness-1 и его конкурентов по восьми очень сложным поисковым задачам. Вместо простых вопросов на эрудицию, эти тесты требовали от ИИ действовать как настоящий исследователь, просеивающий разнообразные и объемные источники данных.
Тестирование охватывало несколько различных областей, включая поиск в открытом интернете, сложные финансовые отчеты из Комиссии по ценным бумагам и биржам США (SEC), технические базы данных патентов из Ведомства по патентам и товарным знакам США (USPTO), а также задачи на ответы на вопросы с несколькими шагами, где ИИ должен был логически объединить разрозненные подсказки из множества различных документов, чтобы прийти к правильному ответу.
Когда были получены результаты, Harness-1 доминировала в конкурсе с открытым исходным кодом благодаря своей способности успешно находить и обрабатывать правильные факты. Еще более впечатляющим было то, что эта относительно небольшая модель с 20 миллиардами параметров на равных конкурировала с огромными и дорогостоящими проприетарными системами искусственного интеллекта. Она даже превзошла таких тяжеловесов, как GPT-5.4, Sonnet-4.6 и Kimi-K2.5 — модели, которые, как считается, содержат сотни миллиардов или триллионы параметров. Только одна гигантская передовая модель — Opus-4.6 — смогла немного опередить ее по общей средней производительности.
Harness-1 добивается повышения производительности за счет переноса исчерпывающей «бухгалтерской работы» поисковой сессии из рабочей памяти модели в структурированную программную среду.
По мере того как сценарии использования в корпоративной среде становятся все более сложными, требуя от моделей автономного анализа тысяч корпоративных документов или финансовых отчетов, эти системы часто страдают от «поисковой амнезии» — забывают свои первоначальные запросы, зацикливаются на отклоненных документах или теряют из виду конкретные утверждения, которые они пытаются проверить.
До сих пор основным решением этой проблемы была грубая сила. Инженеры обычно заставляют модели постоянно перечитывать постоянно расширяющуюся, только добавляемую запись своих собственных действий, складывая каждый поиск, каждое прочтение и каждую мысль обратно в огромное контекстное окно.
Harness-1 представляет собой кардинальный сдвиг парадигмы, отходя от этого метода и доказывая, что узким местом для истинной искусственной автономности является не обязательно размер модели, а то, насколько эффективно ее рабочая среда управляет состоянием. Он еще раз подчеркивает, как это сделал и Claude Code от Anthropic, что сама модель, возможно, менее важна, чем «оборудование» — или набор условий, — в рамках которых она работает.
Технологии: Ведение документации в контексте охраны окружающей среды.
Чтобы понять технический прорыв, связанный с системой Harness-1, рассмотрим аналогию из реальной жизни.
Представьте, что вы наняли блестящего научного сотрудника и поместили его в пустую комнату без стола, блокнотов и картотек. Вы просите его написать подробный отчет по очень сложной теме, для чего ему необходимо прочитать десятки книг, при этом идеально запомнив каждую цитату, ссылку и тупиковый поисковый запрос. В конце концов, независимо от интеллекта сотрудника, его когнитивная нагрузка достигнет предела, и он начнет забывать факты или терять нить задания.
Именно так сегодня работают традиционные поисковые агенты. Они обучаются как стратегии на основе постоянно увеличивающегося объема текста, то есть модель ищет, читает, снова ищет и добавляет все в собственное контекстное окно.
Как отметил ведущий исследователь Патрик (Пэнчэн) Цзян из Университета Иллинойса на сайте X: «В какой-то момент модель перестает быть просто „поиском“. От нее также требуется быть системой памяти, вести записи, проверять и выполнять функции библиотекаря».
Harness-1 решает эту проблему, предоставляя ИИ стол и картотечный шкаф — то, что исследовательская группа называет «устройством для вынесения состояния за пределы системы».
Эта система представляет собой активную окружающую среду, которая берет на себя рутинные бухгалтерские операции, поддерживая восстанавливаемую рабочую память, включающую пул документов-кандидатов, тщательно отобранный набор доказательств с метками важности, компактные ссылки на доказательства и записи о проверке.
Разделение семантических решений и управления структурным состоянием позволяет ИИ сосредоточиться на том, что у него получается лучше всего.
Политика по-прежнему определяет, что именно следует обыскивать, какие документы сохранять и когда следует остановиться, в то время как окружающая среда просто поддерживает государство.
Ниже приведён подраздел, в котором подробно описывается методология обучения и её отличия от предыдущих моделей агентного поиска:
Тренировочный пояс-1: Мастер-класс по эффективной обработке данных
Процесс обучения Harness-1 представляет собой фундаментальный сдвиг в подходах индустрии искусственного интеллекта к обучению агентов.
Исторически сложилось так, что разработчики рассматривали поисковых агентов как политики, работающие с огромными, постоянно растущими массивами данных, заставляя алгоритмы обучения с подкреплением одновременно оптимизировать как семантическое рассуждение, так и запоминание состояния поиска.
Создатели Harness-1 выбрали совершенно иной подход: поскольку их собственная «система управления» берет на себя всю рутинную работу по учету данных — например, поддержание связей между доказательствами, пулов кандидатов и записей о проверке — процессу обучения нужно было лишь научить модель работать с этим структурированным интерфейсом.
Такое разделение труда значительно упростило то, чему на самом деле должна была научиться базовая модель с 20 миллиардами параметров.
Процесс начался с удивительно узкого этапа контролируемой тонкой настройки (Supervised Fine-Tuning, SFT). Вместо того чтобы обрабатывать петабайты новых поведенческих данных, команда сгенерировала всего 899 отфильтрованных траекторий, используя агента-учителя GPT-5.4, подключенного к той же самой среде, которую в конечном итоге будет использовать модель-ученик.
Цель этого этапа SFT заключалась не в том, чтобы внедрить в модель огромные объемы предметных знаний, а просто в том, чтобы научить ее механическим ритмам хорошего исследователя: как форматировать вызовы инструментов, как помечать документы по важности и дисциплинированно проверять утверждение, прежде чем включить его в окончательный отобранный набор.
После применения SFT модель подверглась обучению с подкреплением (RL) с использованием алгоритма CISPO, применяемого на протяжении полных поисковых эпизодов, ограничивающихся 40 ходами.
Команда разработала очень специфическую функцию конечного вознаграждения, которая явно разделяла обнаружение и выбор . Модель вознаграждалась не только за обнаружение релевантного документа, но и за его успешное включение в окончательный набор ответов, и наказывалась, если находила ответ, но не могла его отфильтровать.
Исследователи также ввели бонус за «разнообразие инструментов»; без этого конкретного стимула, как они обнаружили, политика быстро превратилась бы в ленивую, ориентированную на поиск стратегию, когда запросы рассылались бы спамом, но более сложная работа по чтению и проверке текста игнорировалась.
Что делает Harness-1 по-настоящему инновационным по сравнению с предыдущими работами, так это беспрецедентная эффективность использования данных. Вся модель была обучена примерно на 4400 уникальных элементах — 899 траекториях SFT и 3453 запросах RL.
В отличие от этого, конкурирующие модели с открытым исходным кодом требовали значительно больших наборов данных для достижения худших результатов: Context-1 использовала более 17 200 обучающих элементов, в то время как Search-R1 полагалась на ошеломляющие 221 300 элементов для изучения поискового поведения.
Доказав, что более интеллектуальная внешняя когнитивная архитектура может заменить грубое масштабирование данных, Harness-1 предполагает, что будущее агентного ИИ заключается в создании более совершенных сред для работы моделей, а не просто в обучении более крупных моделей на большем объеме данных.
Продукт: Применимость и обобщение в масштабах предприятия
С точки зрения продукта, Harness-1 представляет собой высокоэффективный агент 20B, интегрированный в базовую архитектуру openai/gpt-oss-20b.
Для корпоративных технологических платформ область применения ИИ огромна, поскольку предприятиям необходим ИИ для выполнения многоэтапных исследований в собственных базах данных без необходимости искусственного интеллекта или непомерных затрат на вычислительные ресурсы.
Harness-1 обеспечивает производительность на уровне передовых технологий, что, по словам создателей, соответствует «стоимости и задержке уровня Context-1». Поскольку контекстное окно строго управляется самим Harness-1, а не постоянно расширяется, предприятия могут развертывать этого агента автономно, не неся экспоненциальных затрат на токены, обычно связанных с долгосрочными задачами ИИ.
Что еще более впечатляет, Harness-1 доказывает свою способность к обобщению, выходящее далеко за рамки обучающих данных. По данным исследовательской группы, обучение модели оказалось невероятно дешевым, используя всего 899 отфильтрованных траекторий контролируемой тонкой настройки (SFT) и всего 3453 запроса в рамках обучения с подкреплением (RL).
«Вместо того чтобы обучать модель работе с огромным массивом транскриптов, содержащим только дополнения, мы обучаем ее использованию структурированного интерфейса поиска: поиск, отбор, повторное рассмотрение, проверка и отправка», — пояснил Цзян.
Эта лаконичность является критически важным моментом для индустрии ИИ: разработчикам вовсе не обязательно нужны петабайты новых поведенческих данных, если они создадут более совершенную когнитивную структуру для работы модели.
Лицензирование: Мощь Apache 2.0
Одним из наиболее важных аспектов выпуска Harness-1 является его лицензирование. Проще говоря, Apache 2.0 — это очень либеральная, удобная для корпоративного использования лицензия на программное обеспечение, которая принципиально способствует коммерциализации.
В отличие от лицензий типа «copyleft» (таких как GPL), которые могут вынуждать компании открывать исходный код собственного проприетарного программного обеспечения, если они интегрируют в него код, или лицензий «только для исследований», которые полностью запрещают коммерческое использование, Apache 2.0 дает предприятиям зеленый свет на свободное создание, модификацию и монетизацию технологий.
Для разработчиков и стартапов это означает, что Harness-1 может быть беспрепятственно интегрирован в коммерческие корпоративные поисковые продукты, внутренние инструменты поиска данных или приложения искусственного интеллекта, ориентированные на клиентов, без опасения юридических последствий.
Единственное важное требование заключается в том, что пользователи должны включить оригинальное уведомление об авторских правах и четко указать любые существенные изменения, внесенные ими в исходный код, что позиционирует Harness-1 как весьма перспективный базовый строительный блок для предприятия.
Реакция сообщества: убедительное подтверждение.
Это объявление явно задело за живое сообщество разработчиков, подтвердив реальные проблемы, с которыми сталкиваются инженеры при создании агентных систем. Многочастное объявление Цзяна на X быстро набрало огромную популярность, собрав более 256,1 тыс. просмотров, 3,7 тыс. лайков, 2,9 тыс. закладок и почти 300 репостов за считанные дни.
Высокий уровень вовлеченности подчеркивает растущее согласие в сфере ИИ в том, что перебор контекстных окон — это проигрышная стратегия.
Когда Цзян написал на X: «Мне вот интересно: может быть, поисковые агенты плохо справляются с поиском отчасти потому, что мы заставляем их всю бумажную работу мысленно выполнять», — отклик последовал незамедлительно.
Для разработчиков, которые последний год боролись с агентами ИИ, уверенно забывающими свои основные инструкции на полпути к завершению поиска в базе данных, подход Harness-1 кажется крайне необходимым изменением курса.
В конечном итоге, настроения сообщества указывают на сдвиг в приоритетах отрасли. Разработчики перестают задаваться вопросом о том, насколько большим может быть контекстное окно модели ИИ, и вместо этого начинают интересоваться тем, насколько эффективно среда модели ИИ может управлять этим контекстом. Снимая с себя бумажную волокиту, Harness-1 доказывает, что более мелкие и интеллектуальные системы могут превзойти гигантов — при условии, что у них есть подходящее рабочее место.
Подпишитесь, чтобы получать самые свежие новости!
Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.
Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.
Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.
Источник: venturebeat.com

Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.