Можно ли интегрировать с WordPress?

Да, мы используем REST API и Application Passwords — без передачи логина и пароля. Все публикации идут от имени автора.

Работает ли ИИ с Telegram?

Полностью. ИИ может как читать каналы, так и публиковать в ваш канал. Также подключаем inline-ботов и формы сбора лидов.

Сколько времени занимает настройка?

От 3 до 7 дней. Зависит от сложности интеграции и количества источников.

Есть ли бесплатный демо-доступ?

Да, мы запускаем 5–7 дневный демо-доступ с тестовыми данными, чтобы вы увидели систему в работе.

Безопасна ли система?

Да. Все данные хранятся изолированно. Мы не используем их для обучения моделей. Поддерживаем шифрование и резервное копирование.

Что входит в поддержку?

Обновление агентов, добавление источников, исправление ошибок, масштабирование. Поддержка 24/7 по Telegram или email.

Длинное мышление против жёстких пайплайнов: как DeepAgent превращает рассуждение в действие

Окт 29, 2025 0

Содержание

LLM-агенты умеют рассуждать, но этого недостаточно в решении реальных задач. Необходимо уметь вызывать сторонние инструменты, справляться с длинными сценариями и оставаться автономными на протяжении десятков шагов. Этому мешают строгие пайплайны с фиксированными режимами и классические подходы вроде ReAct и Plan-and-Solve. Эти подходы задают один и тот же цикл действий и хорошо работают на задачах в два-три шага. Но если дать агенту обширный набор API или MCP, позволить ему самому искать новые инструменты и поставить сложную цель, которую нужно решить за 20–30 вызовов сторонних инструментов, такой подход начинает мешать вместо того, чтобы помогать. Агент теряет автономность, раздувает контекст и накапливает ошибки на длинных траекториях.

Что предлагают исследователи?

В исследовании предлагают не дробить рассуждение на этапы, а вести единый поток: размышляя об инструменте, сразу искать подходящие вариантом с помощью ретривера, читать сжатое описание найденных API и сразу их вызывать. Для этого агент имеет два действия: специальный вызов для ретривера и один шаг для инструментов. При этом набор инструментов обширный и может пополняться за счет ретривера. Все это построено на базе одной модели и одного трека рассуждения.

Как DeepAgent отличается от традиционных подходов: вместо фиксированного цикла — сплошное рассуждение с динамическим поиском инструментов

DeepAgent: мыслит, находит и вызывает инструменты, при необходимости сворачивает память; end-to-end обучение методом ToolPO

Память, которая помогает действовать

Иногда длинные траектории мешают агенту из-за потери внимания на ненужных деталях. Для этого в DeepAgent предложено автономное сворачивание памяти: по сигналу агент вставляет шаг fold, и вспомогательная модель сжимает историю взаимодействия в три структурированных блока: рабочая память (что за подцель мы сейчас решаем и какие препятствия возникли), эпизодическая память (что уже произошло и какие решения мы предприняли) и инструментальная память (какие API мы вызывали, с какими параметрами и к чему это привело.) Память хранится в компактной структуре, поэтому после сворачивания агент не теряет важные факты о задаче.

Как обучали

Обычное обучение с подкреплением (RL) на агентных сценариях часто неустойчиво: внешние инструменты отвечают по-разному, и ошибки сильно бьют по обучению. В статье предложено сквозное RL с двумя улучшениями. Во-первых, симулятор API на базе LLM — он имитирует ответы реальных сервисов, ускоряя и удешевляя обучение на тысячах вызовов. Во-вторых, обучающие сценарии, в которых инструментальный вызов заслуживает награды. В итоге финальная функция атрибуции преимущества комбинирует награду за решения заданий, за вызовы инструментов и за сворачивание памяти. При этом итоговая награда от задания приписывается тем токенам, которые отвечают за вызов API. Так обучение становится более точечным. Авторы называют этот подход ToolPO.

Динамика обучения: ToolPO достигает более высокого потолка наград и даёт меньшую вариативность по сравнению с альтернативами

Что в экспериментах?

Авторы тестируют DeepAgent в двух режимах: когда все инструменты уже доступны и когда нужные инструменты сперва нужно найти в большой базе. Для обоих случаев используются бенчмарки ToolBench, API-Bank, TMDB, Spotify b ToolHop. На всех наборах новый агент обходит альтернативные сценарии использования инструментов. В режиме открытого поиска API преимущество особенно велико. Например, на сложном ToolBench DeepAgent-32B-RL достигает 64% успеха против лучших пайплайнов, которые находятся около отметки 54%, а на самом сложном ToolHop имеет 40,6% успеха против 29–36% для альтернатив. Авторы также тестируют агент на реальных задачах, для этого в ALFWorld, WebShop и GAIA встроена поддержка вызова инструментов. И в этих задачах новый подход также обгоняет альтернативы. Например, на GAIA DeepAgent-32B-RL показывает 53,3% успешных решения задач против 42,5% у сильного иерархического агента.

Сводные результаты: в задачах использования инструментов и прикладных сценариях DeepAgent уверенно обходит альтернативы

Важная деталь — как сценарии масштабирутся с увеличением лимита действий. Авторы тестируют разные лимиты на задачах WebShop. Оказывается, что при большом ограничении по действиям агенты сопоставимы, но чем больше разрешать агенту делать вызовов, тем больше отрыв DeepAgent от того же ReAct.

Масштабирование по лимиту действий: преимущество DeepAgent увеличивается с длиной сессии

Почему это важно

Для реальных ассистентов мало уметь рассуждать, нужно еще ориентироваться в богатом наборе API, уметь менять сценарий при ошибках и держать цель в долгом диалоге. DeepAgent показывает, что для этого нужно не дробить сценарий на искусственные этапы, а вести одно рассуждение с единым вызовом — побочным инструментом, расширяя инструменты за счет поиска и контролируя память, чтобы не терять важные факты на долгом горизонте. Кроме того, обучать такие модели можно дешево и стабильно за счет API-симуляции и адресного RL со сворачиванием памяти.

Ограничения — агент все еще зависит от качества поиска инструментов. Симулятор полезен на этапе обучения, но не полностью заменяет внешний инструменты. Тем не менее переход к одному сценарию вместо набора встроенных конвейеров выглядит разумным продолжением развития инструментальных LLM-агентов.

DeepAgent — это шаг к настоящему «длинному мышлению» ИИ. Он не просто рассуждает, а действует в непрерывном потоке, сам находит нужные инструменты, управляет памятью и учится напрямую на своих вызовах. Такой подход убирает искусственные границы между размышлениями и действием, превращая LLM из разговорного партнёра в автономного оператора. Это фундамент для следующего поколения ассистентов — тех, кто не просто красиво отвечает, а успешно завершает задачи.

📜 Полная статья

💾 Код

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Источник: habr.com

✅ Найденные теги: Длинное, новости

Метки:

Длинное новости

ПРЕДЫДУЩАЯ ЗАПИСЬ

29.10.2025

Собаки переживают фазы сна REM и эмоциональную память, как люди

СЛЕДУЮЩАЯ ЗАПИСЬ

29.10.2025

Вот как работает крылатая ракета с ядерным двигателем

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ
Отменить ответ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

Еще новости рубрики

Архив рубрики ~Обо всем~

Фантазии

Июл 2, 2024

Архив рубрики ~Обо всем~

Мировоззрение

Июл 2, 2024

Архив рубрики ~Обо всем~

Влияние выдумщиков и фантазеров на развитие…

Июл 2, 2024

Архив рубрики ~Обо всем~

Нет ничего невозможного

Июл 2, 2024

Присоединяйтесь
к нам в

TELEGRAM

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных

Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…

Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.

Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".

‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…

Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.

Структура эффективного запроса Claude с элементами задачи, контекста и референса.

Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.

НОВОСТИ ДРУГИХ РУБРИК

Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Архив рубрики ~Лента новостей~

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

ЧИТАТЬ

Мар 2, 2026

Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Архив рубрики ~Лента новостей~

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

ЧИТАТЬ

Мар 2, 2026

Черный углеродное волокно с текстурой плетения, отражающий свет.

Архив рубрики ~Лента новостей~

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений. Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

ЧИТАТЬ

Мар 2, 2026

Круглый экран с изображением замка и горы, рядом электронная плата.

Архив рубрики ~Лента новостей~

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран. Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

ЧИТАТЬ

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых

ИдеиPRO

Длинное мышление против жёстких пайплайнов: как DeepAgent превращает рассуждение в действие

Что предлагают исследователи?

Память, которая помогает действовать

Как обучали

Что в экспериментах?

Почему это важно

Похожие записи

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ Отменить ответ

Еще новости рубрики

Присоединяйтесь к нам в

Рубрики

галерея

НОВОСТИ ДРУГИХ РУБРИК

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ
Отменить ответ

Присоединяйтесь
к нам в