Иллюстрация о ключевых концепциях автономных агентов с различными элементами и метафорами.

Выход из миража прототипов: почему развитие корпоративной искусственной интеллекта застопорилось.

Слишком много прототипов, слишком мало готовых продуктов.

Делиться

415b9028ce554d9d3b2793e4cbeb0aee

Данная статья написана в соавторстве с Реей Вир и Рахулом Виром.

В эпоху GenAI разработка программного обеспечения претерпела коренные изменения. Благодаря повсеместному распространению инструментов для создания кода на основе Vibe и IDE, ориентированных на агентов, таких как Antigravity от Google, разработка новых приложений стала как никогда быстрой. Кроме того, мощные концепции, вдохновленные популярными фреймворками с открытым исходным кодом, такими как OpenClaw, позволяют создавать автономные системы. Мы можем помещать агентов в защищенные «гарнитуры» , предоставлять им исполняемые навыки Python и определять их системные персоны в простых файлах Markdown. Мы используем рекурсивный агентный цикл (наблюдение-мышление-действие) для выполнения, настраиваем безголовые шлюзы для их подключения через чат-приложения и полагаемся на Molt State для сохранения памяти после перезагрузки, поскольку агенты самосовершенствуются. Мы даже предоставляем им токен «без ответа» , чтобы они могли молчать вместо своей обычной разговорчивости.

Создание автономных агентов всегда было очень простым делом. Но остается вопрос: если сегодня разработка настолько проста, почему предприятия видят такой наплыв прототипов, и лишь удивительно малая их часть превращается в реальные продукты?

f05f65f50bdf6e57c69ab2fb840d3033

1. Иллюзия успеха:

В ходе моих бесед с руководителями предприятий я вижу бесчисленные прототипы, разработанные различными командами, что доказывает огромный интерес снизу вверх к преобразованию устаревших, негибких программных приложений в вспомогательные и полностью автоматизированные агенты. Однако этот ранний успех обманчив. Агент может блестяще работать в блокноте Jupyter или на постановочной демонстрации, вызывая достаточный ажиотаж, чтобы продемонстрировать инженерную экспертизу и получить финансирование, но он редко выживает в реальном мире.

В значительной степени это связано с внезапным ростом популярности Vibe Coding, в котором приоритет отдается быстрой экспериментальной разработке, а не тщательному проектированию. Эти инструменты отлично подходят для создания демо-версий, но без структурной дисциплины полученный код не обладает необходимыми возможностями и надежностью для создания продукта производственного уровня [Почему Vibe Coding терпит неудачу]. Как только инженеры возвращаются к своей основной работе, прототип забрасывается и начинает разрушаться, подобно неподдерживаемому программному обеспечению.

На самом деле, проблема со технической поддержкой гораздо глубже. В то время как люди вполне способны адаптироваться к естественной эволюции рабочих процессов, агенты — нет. Незначительное изменение бизнес-процесса или изменение базовой модели может сделать агента непригодным для использования.

Пример из сферы здравоохранения : Допустим, у нас есть агент по приему пациентов, предназначенный для сортировки пациентов, проверки страхового полиса и записи на прием. В демонстрационном примере, созданном с помощью Vibe Code, он отлично справляется со стандартными осмотрами. Используя шлюз , он общается с пациентами посредством текстовых сообщений. Он использует базовые навыки для доступа к API страховых компаний, а его системный образ задает вежливый, клинический тон. Но в реальной клинике среда является хаотичной и неорганизованной. Если пациент упоминает о боли в груди в середине обычного приема, цикл обработки информации агента должен мгновенно распознать срочность, прервать процесс записи на прием и запустить эскалацию по вопросам безопасности. Он должен использовать токен No-Reply для подавления чата записи на прием, перенаправляя контекст к медсестре. Большинство прототипов с треском проваливают этот тест.

Сегодня подавляющее большинство перспективных инициатив гонятся за «миражем прототипа» — бесконечным потоком агентов, демонстрирующих работоспособность на ранних этапах испытаний, но теряющих свою актуальность, когда сталкиваются с реальностью производственной среды.

2. Определение прототипа «Мираж»

«Мираж прототипа» — это явление, когда предприятия оценивают успех, основываясь на результатах демонстраций и ранних испытаний, но затем сталкиваются с неудачами в производственной среде из-за проблем с надежностью, высокой задержки, непомерных затрат и фундаментального отсутствия доверия. Однако это не ошибка, которую можно исправить, а системный сбой в архитектуре.

К основным симптомам относятся:

  • Неизвестная надежность : Большинство агентов не соответствуют строгим требованиям соглашений об уровне обслуживания (SLA), предъявляемым к корпоративным системам. Поскольку ошибки в одно- или многоагентных системах накапливаются с каждым действием (так называемый стохастический распад), разработчики ограничивают их возможности. Пример: Если агент приема пациентов полагается на общий реестр состояний для координации между «суб-агентом планирования» и «суб-агентом страхования», то сбой на 12-м шаге 15-шагового процесса проверки страхования нарушает весь рабочий процесс. Недавнее исследование показывает, что 68% агентов в производственной среде намеренно ограничены 10 шагами или меньше, чтобы предотвратить сбои.
  • Хрупкость оценки : Надежность остается неизвестной переменной, поскольку 74% агентов полагаются на оценку с участием человека (HITL). Хотя это разумная отправная точка, учитывая использование агентов в этих узкоспециализированных областях, где общедоступных эталонов недостаточно, такой подход не масштабируем и не поддерживается. Переход к структурированным оценкам и использованию LLM в качестве судьи — единственный устойчивый путь вперед (Pan et al., 2025).
  • Изменение контекста : Агенты часто создаются для фиксации устаревших рабочих процессов, выполняемых людьми. Однако бизнес-процессы естественным образом меняются. Пример: если больница обновляет принятые уровни Medicaid, агенту не хватает цикла самоанализа или метакогнитивного цикла для анализа собственных ошибок и адаптации. Его жесткие цепочки подсказок разрываются, как только среда отклоняется от контекста обучения, что делает агента устаревшим.

3. Согласование с корпоративными OKR.

Каждое предприятие работает, исходя из набора определенных целей и ключевых результатов (OKR). Чтобы избавиться от этой иллюзии, мы должны рассматривать этих агентов как сущности, призванные оптимизировать конкретные бизнес-показатели.

Поскольку мы стремимся к большей автономии, позволяющей агентам понимать окружающую среду и постоянно адаптироваться для решения задач без постоянного вмешательства человека, они должны четко понимать истинную цель оптимизации.

OKR (цели и ключевые результаты) обеспечивают более четкую цель (например, сократить критически важное время ожидания пациентов на 20%), чем промежуточный показатель (например, обрабатывать 50 анкет в час). Понимая OKR, наш специалист по приему пациентов может заблаговременно выявлять сигналы, противоречащие целевому показателю времени ожидания пациентов, и устранять их с минимальным участием человека.

Недавние исследования Центра управления и маркетинга Беркли рассматривают это в рамках теории принципала-агента. «Принципал» — это заинтересованная сторона, ответственная за OKR (цели и ключевые результаты). Успех зависит от делегирования полномочий агенту таким образом, чтобы согласовать стимулы и гарантировать, что он будет действовать в интересах принципала даже в условиях отсутствия контроля.

19642a5d45dc3b002784b34a8f7ac1b9

Однако автономию нужно заслужить, а не получить в первый же день. Успех достигается по модели управляемой автономии:

  • Известные факты : Начните с проверенных сценариев использования со строгими ограничениями (например, агент занимается только плановыми медицинскими осмотрами и базовой проверкой страховых полисов).
  • Эскалация : Агент распознает крайние случаи (например, противоречивые симптомы) и передает информацию медсестрам, проводящим первичный осмотр, вместо того, чтобы гадать.
  • Эволюция : По мере того, как агент получает более полную информацию о происхождении данных и демонстрирует соответствие целям и ключевым результатам, ему предоставляется больше полномочий (например, обработка направлений к специалистам).

4. Дальнейшие шаги

Тщательно продуманная долгосрочная стратегия необходима для превращения этих прототипов в настоящие продукты, которые будут развиваться со временем. Мы должны понимать, что агентные приложения необходимо разрабатывать, развивать и поддерживать, чтобы они выросли из простых помощников в автономные сущности — так же, как и программные приложения. Миражи, созданные на основе эмоциональных сигналов, не являются продуктами, и не стоит доверять тем, кто утверждает обратное. Это всего лишь экспериментальные образцы для получения ранней обратной связи.

Чтобы избавиться от этой иллюзии и добиться реального успеха, мы должны обеспечить согласованность продукта и инженерную дисциплину при разработке этих агентов. Мы должны создать системы для борьбы со специфическими проблемами, с которыми сталкиваются эти модели, например, с теми, которые описаны в 9 критических моделях отказов.

2c029289280626ff4bbb0e621f7007f9

В течение следующих нескольких недель эта серия статей познакомит вас с техническими основами, необходимыми для трансформации вашего предприятия.

  • Надежность : переход от «визуальных ощущений» к эталонным наборам данных и использованию LLM в качестве эксперта (чтобы наш агент по приему пациентов мог непрерывно тестироваться на тысячах смоделированных сложных историй болезни пациентов).
  • Экономика : освоение токеномики для оптимизации затрат на рабочие процессы агентов.
  • Безопасность : Внедрение агентной безопасности посредством отслеживания происхождения данных и контроля потоков.
  • Производительность : Достижение высокой производительности агентов в масштабе предприятия для повышения эффективности работы.

Переход от «прототипа» к «внедрению» — это не исправление ошибок, а создание принципиально лучшей архитектуры .

Ссылки

  1. Вир, Р., Ма Дж., Сахни Р., Чилтон Л., Ву, Э., Ю З., Columbia DAPLab. (2026, 7 января). Почему кодирование Vibe дает сбои и как это исправить. Лаборатория данных, агентов и процессов, Колумбийский университет. https://daplab.cs.columbia.edu/general/2026/01/07/why-vibe-coding-fails-and-how-to-fix-it.html
  2. Пан, М.З., Арабзаде, Н., Кого, Р., Чжу, Ю., Сюн, А., Агравал, Л.А.,… и Эллис, М. (2025). Измерители на производстве. arXiv. https://arxiv.org/abs/2512.04123
  3. Джаррахи, М.Х., и Ритала, П. (2025, 23 июля). Переосмысление агентов ИИ: перспектива принципала-агента. Berkeley California Management Review. https://cmr.berkeley.edu/2025/07/rethinking-ai-agents-a-principal-agent-perspective/
  4. Вир, Р., Лаборатория данных, агентов и процессов Колумбийского университета. (2026, 8 января). 9 критических моделей отказов кодирующих агентов. Лаборатория данных, агентов и процессов, Колумбийский университет. https://daplab.cs.columbia.edu/general/2026/01/08/9-critical-failure-patterns-of-coding-agents.html

Все изображения созданы программой Nano Banana 2.

Рейя Вир Посмотреть все Рейя Вир

Источник: towardsdatascience.com

✅ Найденные теги: Выход, искусственный интеллект, Корпоративный, Мираж, новости, Прототип, Развитие

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Космический аппарат вблизи астероида в космосе, миссия по изменению траектории.
Робот пишет ручкой текст на бумаге рядом с компьютерной клавиатурой и мониторами.
Два аксолотля с розовыми жабрами на тёмном фоне в аквариуме.
Рука в пиджаке кладет устройство ARCH в рюкзак на фоне офиса.
Женщина на прогулке в джинсовой куртке держит серого кота на поводке в саду.
Схема преобразования биомассы в электричество и водород с выделением тепла.
Мужчина в очках и свитере выступает перед аудиторией, улыбаясь.
ideipro logotyp
«Умный» дизайн больниц: переход от аппаратного обеспечения к программному обеспечению и данным | MobiHealthNews
Image Not Found
Рука в пиджаке кладет устройство ARCH в рюкзак на фоне офиса.

Симулятор ARCH для здоровья ног при сидячем ритме жизни

Новая носимая система-симулятор ходьбы ARCH создана для активизации кровообращения в ногах во время длительного сидения.  Устройство надевается ниже колена, где расположены ключевые мышцы и сосуды, участвующие в перекачивании крови, и создаёт имитацию ходьбы со скоростью до 60…

Мар 10, 2026
Женщина на прогулке в джинсовой куртке держит серого кота на поводке в саду.

Использование больших данных во благо

В области генетики домашних животных, исследований рака и других сферах Чарли Лью, магистр делового администрирования (выпуск 2005 г.), посвятила свою карьеру использованию огромных массивов данных для улучшения мира для всех. 24 февраля 2026 г. Чарли Лью, MBA…

Мар 10, 2026
Схема преобразования биомассы в электричество и водород с выделением тепла.

Ученые научились превращать отходы одновременно в три вида энергии

Графическое представление работы © ТПУ Ученые Томского политехнического университета совместно с коллегами из Кузбасского технического университета разработали систему полигенерации. Она позволяет из отходов сельского хозяйства вырабатывать одновременно три вида энергии – «зеленый» водород, тепло- и электроэнергию. Исследования…

Мар 10, 2026
Мужчина в очках и свитере выступает перед аудиторией, улыбаясь.

Компания Google выплатила Сундару Пичаи компенсационный пакет в размере 692 миллионов долларов.

Вкратце Источник изображения: Камиль Коэн / AFP / Getty Images Новый пакет вознаграждения Сундара Пичаи может составить 692 миллиона долларов. Согласно документам, впервые попавшим в поле зрения Financial Times, Alphabet заключила трехлетний контракт с генеральным директором Google,…

Мар 10, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых