Создание самосовершенствующихся налоговых агентов с помощью Codex | OpenAI
Члены технического персонала: Аравинд Шринивасан и Самай Шамдасани (Thrive Holdings), Артур Фернандес Араужо и Джон де Вассейдж (OpenAI)
Как компании Thrive Holdings и OpenAI совместно разработали Tax AI для бухгалтеров на Крите, объединив опыт практикующих специалистов с циклом, основанным на Кодексе.
В реальных условиях системы ведут себя иначе, чем в лабораторных условиях, ломаясь таким образом, который трудно предвидеть до развертывания. Команды часто обнаруживают эти сбои после запуска, а затем тратят недели на изучение граничных случаев, корректировку подсказок и преобразование отзывов из производственной среды в устойчивые улучшения продукта. Цикл обратной связи ручной и медленный, и улучшение происходит только тогда, когда его продвигает инженер. Но сегодня, благодаря продуманной инфраструктуре оценки, прямому доступу к специалистам и реальным условиям эксплуатации, а также передовым возможностям агентных систем Codex, вы можете создавать агентов, которые самосовершенствуются.
В этом посте мы подробно расскажем, как мы использовали Codex для создания такого рода агентов. В течение последних шести месяцев инженеры и исследователи OpenAI, работающие по принципу «прямого развертывания», совместно с инженерами Thrive Holdings создавали Tax AI для сети из более чем 30 бухгалтерских фирм Crete (открывается в новом окне) , чтобы помочь им подготовить все более сложные налоговые декларации. Вместо того чтобы полагаться на инженеров в поиске и исправлении каждой ошибки, Tax AI использует Codex для преобразования производственного опыта в структурированные сигналы, которые способствуют автономному улучшению.
На Крите специалисты ежегодно готовят десятки тысяч налоговых деклараций, что требует обработки миллионов документов. Для деклараций средней и высокой сложности ввод данных может занимать до восьми часов, часто с использованием сложных источников данных, документов прошлых лет, а также ручного извлечения и расчета информации. Они указали нам на подготовку налоговых деклараций как на существенное узкое место в самый напряженный период налогового сезона.
Для решения этой проблемы компания Tax AI обработала 7000 налоговых деклараций от фирм Крита, участвовавших в пилотном проекте в этом налоговом сезоне. Система автоматизирует большую часть трудоемкого процесса подготовки налоговых деклараций по формам 1040 и 1041, но еще более убедительным, чем повышение эффективности, является то, что сама система заметно лучше, чем версия, которая была впервые внедрена три месяца назад.
Измеримое самосовершенствование
В Tax AI специалисты загружают исходные файлы вместе с любыми примечаниями, специфичными для клиента. Затем Tax AI создает заявку в налоговую службу, готовую к проверке. Это экономит специалистам около трети времени, затрачиваемого на подготовку налоговых деклараций, обеспечивает точность составления деклараций до 97% и увеличивает производительность примерно на 50%, освобождая им больше времени для работы с клиентами.
Мы можем количественно оценить это улучшение, поняв, насколько точно Tax AI может заполнять налоговую декларацию без необходимости последующих исправлений. Мы измеряем точность, проверяя, какая доля деклараций достигает 75%, 90% или 100% правильного заполнения полей. На момент запуска только четверть деклараций достигла 75% правильного заполнения полей, но в течение шести недель этот показатель достиг 86%. Система показала еще более быстрый рост на уровнях 90% и 100% правильного заполнения полей. Эти пороговые значения дают нам практическое представление о том, сколько дополнительной работы по проверке различных деклараций еще требуется специалистам.
На начальном этапе Tax AI справлялся с более простыми задачами, такими как заполнение форм W-2 и 1099. По мере развития налогового сезона он перешел к более сложным декларациям, включающим формы K-1, приложения и более сложные частные случаи. Каждая новая функция экономила больше времени на каждую декларацию, чем предыдущая, поскольку задачи, которые он брал на себя, были сложнее и трудоемче при выполнении вручную. Мы продолжаем наблюдать прогресс и сегодня.
Далее мы рассмотрим, как наши команды совместно разработали Tax AI, сделав его самосовершенствующимся, опираясь на три важнейших столпа: 1) обратную связь от экспертов-практиков, 2) отслеживание производственных процессов (структурированная история от входных данных до конечного результата) и 3) цикл итераций, основанный на Кодексе и использующий индивидуально разработанные оценки для обеспечения непрерывной и более быстрой разработки продукта. Мы надеемся, что наш опыт будет полезен другим разработчикам в областях, где экспертные знания специалистов-практиков играют ключевую роль в формировании качества всей системы и обрабатываемых ею данных.
По мере того как Tax AI внедрялся в более сложные налоговые декларации, доля деклараций с оценкой, достигающих 75%, 90% и полной полноты, продолжала расти в течение всего налогового сезона.
Проблема
По мере того, как мы углублялись в более сложные этапы подготовки налоговой отчетности (формы K-1, приложения к налоговым декларациям по арендной недвижимости и налоговые формы, где необходимо было сверять значения из нескольких исходных файлов), становилось очевидно, что настоящая проблема заключается в том, сможет ли продукт сделать сложные производственные ошибки видимыми, понятными и пригодными для принятия мер.
На ранних этапах разработки продукта большая часть исправлений производилась вручную. Специалисты могли исправлять системные ошибки, но продукт не учитывал полный контекст: измененное значение перед отправкой могло отражать истинную ошибку извлечения данных, проблему сопоставления, отсутствие поддержки продукта или ожидаемые отклонения в рабочем процессе. Для решения этих проблем по-прежнему требовались дальнейшие действия со стороны инженерной команды. Инженеры могли использовать агентов кодирования, но система еще не была разработана для осмысленного использования ИИ в рамках цикла улучшения. У нас не было сигнала, чтобы определить правильную задачу, которую нужно решить.
Наш подход: трехэтапный цикл
Это привело нас к разработке системы, основанной на трех основных принципах:
- Поддерживайте тесную связь с практиками: люди, выполняющие работу, должны направлять процесс обучения продукта. Их интуиция и понимание показывают, какие ошибки имеют значение, и помогают определить, на каких этапах рабочего процесса стоит сосредоточиться в дальнейшем.
- Создавайте продукт таким образом, чтобы производство предоставляло доказательства: продукт должен фиксировать не только входные и выходные данные; он должен охватывать весь путь от исходного материала, извлеченных полей и происхождения, до последующей подачи и экспертной корректировки.
- Создайте цикл улучшения, основанный на Кодексе: как только производственные проблемы станут видимыми и структурированными, они могут превратиться в выводы, индивидуальные оценки и конкретные инженерные задачи. Затем Кодекс может помочь в расследовании, предложении изменений, их проверке с помощью целевых и регрессионных оценок и продвижении продукта вперед быстрее, чем при чисто ручном цикле итераций.
Приведенный ниже пример с арендной недвижимостью демонстрирует, как этот цикл работает на практике, показывая, как исправление, внесенное специалистом, превращается в структурированное заключение, затем в цель оценки и, наконец, в инженерную задачу, соответствующую требованиям Кодекса.
Пример сдаваемой в аренду недвижимости
Доход от сдачи недвижимости в аренду отражается в Приложении E к индивидуальной налоговой декларации. С точки зрения инженерии, задача извлечения этого дохода проста в описании, но сложна в качественном выполнении. Система должна считывать неструктурированные исходные материалы (рукописные заметки, электронные письма, электронные таблицы и другие файлы клиентов), извлекать поля, относящиеся к сдаче недвижимости в аренду, которые система может уверенно сопоставить с налоговым механизмом, и сохранять достаточно доказательств, чтобы специалист мог утвердить или исправить результат. Приведенный ниже упрощенный пример показывает, как могут выглядеть эти исходные файлы и извлеченные данные.
Исходный пакет данных по сдаваемой в аренду недвижимости нормализуется в указанные поля, прежде чем они будут сопоставлены с концепциями, используемыми в последующих налоговых системах.
1. Коррекция со стороны специалиста выявляет ошибку.
Разница между прогнозируемым агентом значением и фактическим значением из поданной налоговой декларации может отражать истинную ошибку при извлечении данных, но также может быть связана с предпочтениями специалиста, значением, перенесенным из декларации предыдущего года в налоговую систему, или значением, введенным или измененным в другом месте процесса подачи декларации. Специалисты помогли нам выявить такие случаи, чтобы мы могли определить, какие действия требовали исправления со стороны специалиста или блокировали подачу декларации.
Благодаря возможности детально отслеживать эти исправления, мы преобразовали процесс проверки из заключительного этапа после сбоя в непрерывный цикл обучения. Мы разработали рабочий процесс таким образом, чтобы фиксировать действия экспертов в виде структурированных данных. Теперь каждое вмешательство подпитывает цикл улучшения продукта, точно записывая, что предложил Tax AI, что изменил специалист и что в конечном итоге было учтено в поданной декларации.
2. Отслеживание продукции превращает исправления в оценки.
Для сложного рабочего процесса, такого как работа с арендной недвижимостью, система должна сохранять информацию о том, что происходит между исходными файлами и поданной декларацией. На этом пути документы организуются, разделяются и классифицируются; извлекаются поля, относящиеся к арендной недвижимости, с указанием ссылок на исходные материалы; эти значения сопоставляются с налоговым механизмом; и специалисты могут вносить в них исправления перед подачей декларации. Эти следы на уровне продукта позволяют исследовать, где произошла ошибка. Чтобы превратить исправления специалистов в полезные цели для оценки, система обрабатывает их в три этапа:
- Выявление различий: результаты работы Tax AI сравниваются с поданной налоговой декларацией для создания строк проверки на уровне полей, которые отражают ожидаемое значение, прогнозируемое значение и то, представляется ли разница требующей принятия мер.
- Сбои, связанные с группировкой: похожие строки проверки группируются, чтобы отделить повторяющиеся сбои продукта от ожидаемых ошибок в рабочем процессе. Например, повторные исправления со стороны специалистов могут показать, что Tax AI часто пропускает поля, относящиеся к справедливой арендной плате, неправильно обрабатывает «прочие расходы» или путает несколько объектов недвижимости, сдаваемых в аренду, в одном и том же исходном пакете.
- Превратите повторяющиеся закономерности в цели оценки : после анализа и оценки повторяющиеся результаты становятся четкими целями оценки для улучшения Кодекса.
В разделах обзора арендуемой недвижимости разделяются повторяющиеся сбои в работе оборудования и ожидаемые проблемы, а затем эти случаи, требующие принятия мер, преобразуются в целевые показатели оценки, которые ставят перед Codex задачу достижения цели.
3. Это открытие станет серьезной проблемой для Кодекса.
Третий столп — создание инженерного цикла, способного реагировать на эти новые оценки. Именно здесь Кодекс становится центральным элементом.
Предположим, наш конвейер оценки выявляет, что Tax AI постоянно пропускает поле «справедливые дни аренды», в то время как специалисты-практики надежно его заполняют. Поскольку эта информация уже включена в целевой набор данных для оценки, содержащий репрезентативные исходные пакеты и ожидаемые результаты, Codex может исследовать первопричину непосредственно в рамках структуры продукта.
Codex работает не только с некачественным конечным результатом. Он анализирует трассировку, оценку, репозиторий и навыки в совокупности:
- Проведите исследование конвейера обработки данных: проверьте исходные пакеты, схемы извлечения, поведение маппера и пути выполнения кода, чтобы определить, связана ли проблема с неподдерживаемым полем, пропущенным шаблоном извлечения, проблемой выбора источника, несоответствием в работе маппера или проблемой в системе проверки кода.
- Внедрите целенаправленные исправления: расширьте схему извлечения данных, улучшите выбор источника для документов по аренде недвижимости, обновите сопоставитель налоговой информации или доработайте систему оценки, если ожидаемый шум в рабочем процессе учитывается как ошибка.
- Проверка и предложение: Повторно запустить целевую оценку, провести более широкие наборы регрессионных тестов и подготовить потенциальный запрос на слияние для рассмотрения инженерами.
- Замкните цикл: превратите повторяющуюся ошибку специалиста в измеримую инженерную задачу. Если доказательства неоднозначны или не поддаются безопасной автоматизации, дело возвращается в команду разработчиков продукта, а не проходит через весь цикл обработки.
Сквозной цикл самосовершенствования: производственные трассировки выявляют повторяющиеся исправления на уровне отдельных полей, которые становятся сигналами сбоев, которые Codex может анализировать вместе с трассировкой, оценками, репозиторием и навыками. Практически применимые шаблоны становятся ограниченными оценками и потенциальными изменениями продукта; неоднозначные случаи возвращаются инженерам для проверки. Каждое выпущенное улучшение создает новые производственные доказательства для следующего цикла.
Как использовать Codex для построения этого цикла
Пример с арендой недвижимости является показательным примером более широкой модели повторного использования: использование производственных артефактов и трассировок для улучшения возможностей агента. Имея в качестве входных данных результаты анализа производственных данных, трассировки исходного кода, ожидаемый результат работы налогового механизма, соответствующие примеры кода и команды eval, Codex может существенно повысить производительность и точность в течение недель и месяцев. Это основано на принципах, описанных в нашей работе по проектированию систем управления и Symphony , где подробно объясняется, как сделать задачи понятными для Codex, обеспечить контекст и инструменты, а также сохранить валидацию и проверку человеком в рамках рабочей среды.
Эти данные не автоматически становятся задачей для Кодекса. Исправление со стороны специалиста может отражать ошибку извлечения, проблему сопоставления, неподдерживаемое поведение продукта, налоговое решение или ожидаемые отклонения в рабочем процессе. Только после того, как повторяющиеся различия будут рассмотрены и сгруппированы в действенное заключение, система преобразует их в ограниченную задачу с четким условием успеха.
Мы применяем эту автоматизацию к ограниченному слою продукта. Этот слой выполняет извлечение данных и сопоставляет исходные документы с налоговыми рабочими процессами. Инженеры по-прежнему отвечают за архитектуру, решения по продукту и выпуск. Специалисты управляют циклом улучшения, выполняя уже свою работу: исправляя извлеченные значения, проверяя декларации и утверждая окончательные отчеты.
Для Codex результатом является не расплывчатое предупреждение, а четко определенная инженерная задача с подтверждающими данными, редактируемыми поверхностями продукта и явными этапами проверки. Контекст типичной задачи, связанной с арендой недвижимости, можно резюмировать следующим образом:
Простой текст
1 /candidates/FIND-RENTAL-0042/ 2 │ 3 ├── repo/ [1] 4 │ └── branch: codex/fix-rental-0042 5 │ │ 6 │ ├── AGENTS.md 7 │ │ 8 │ ├── tasks/FIND-RENTAL-0042/ 9 │ │ ├── task.yaml 10 │ │ ├── EXEC_PLAN.md 11 │ │ └── RESULTS.md 12 │ │ 13 │ ├── app/tax-ai/rental-income/ [2] 14 │ │ ├── agent.ts 15 │ │ ├── schema.ts 16 │ │ ├── provenance.ts 17 │ │ └── mapper.ts 18 │ │ 19 │ ├── evals/ [3] 20 │ │ ├── datasets/fair-rental-days.yaml 21 │ │ ├── suites/fair-rental-days.yaml 22 │ │ ├── suites/rental-income-regression.yaml 23 │ │ └── graders/rental-income.yaml 24 │ │ 25 │ ├── skills/ [4] 26 │ │ ├── eval-runner/ 27 │ │ └── tax-field-docs/ 28 │ │ 29 │ └── docs/ [4] 30 │ ├── architecture/ 31 │ └── task-environments/ 32 │ 33 └── scoped-tools/ [5] 34 ├── production-trace 35 ├── source-artifacts 36 └── tax-engine-docs
Ограниченная среда выполнения задач Codex отделяет записываемое рабочее дерево [1] от контекста производства, доступного только для чтения [5]. Рабочее дерево содержит ограниченную область продукта, которую Codex может проверять или изменять [2], целевые и регрессионные оценки, определяющие успех [3], а также многократно используемые навыки/документы, которые кодируют, как выполнять задачу и учитывать предыдущие решения [4]. Контекст, доступный только для чтения, предоставляет трассировку производства, исходные документы, прогноз Tax AI, окончательную декларацию и полевую документацию налогового механизма, поэтому Codex может расследовать сбой без изменения базовых доказательств.
Расширение на новые области
Тот же цикл применим и к объектам недвижимости, сдаваемым в аренду. Для достижения 90% точности и полноты при работе с объектами недвижимости, сдаваемыми в аренду, потребовалось около шести недель и значительный инженерный контроль, но эта работа позволила создать многократно используемые абстракции, артефакты проверки, соглашения об оценке и шаблоны реализации, которые упростили поддержку аналогично сложных графиков, таких как График C и График A.
Искусственный интеллект в налоговой сфере открывает путь к созданию самосовершенствующихся агентов. Специалисты генерируют ценные сигналы обратной связи, предоставляя услуги. Рабочие процессы продукта сохраняют эти сигналы в виде структурированных доказательств. Системы проектирования, основанные на оценке, подтверждают улучшения до их внедрения в производство, а цикл, управляемый агентом, поддерживает систему в непрерывном потоке самосовершенствования.
Структура Thrive Holdings позволяет нам воспроизводить подобную среду в конкретных отраслях. Компания является одновременно и владельцем, и оператором, поэтому наши объединенные инженерные команды могут напрямую работать с практикующими специалистами и производственными данными из таких компаний, как Crete, не в качестве поставщика, а в качестве партнера. Это означает, что технологии, продукт и услуги находятся под одной крышей, что помогает нам быстрее развиваться и создавать исключительные продукты.
Одна опытная бухгалтерша, которая в прошлом году потратила 180 часов на подготовку налоговой отчетности, в этом году потратила на это всего 15 часов. Часть этого времени она посвятила обзвону каждого из своих клиентов и подробному разъяснению им порядка заполнения налоговых деклараций — уровень индивидуального подхода, который был невозможен еще год назад. Остальное время она использовала для привлечения новых клиентов и расширения спектра предоставляемых услуг.
Теперь наши команды совместно используют ту же трехкомпонентную модель от Tax AI в качестве основы для построения рабочих процессов в других областях деятельности Thrive Holdings (открывается в новом окне) ; это касается как бухгалтерских процессов, таких как ведение бухгалтерского учета и аудит, так и операционных процессов, таких как автоматизация службы поддержки ИТ. В различных областях и отраслях сохраняется более широкий потенциал самосовершенствующихся агентов. Лучшие агенты получают поддержку от людей, которые помогают им учиться, чтобы со временем становиться более компетентными, более надежными и более ценными.
Чтобы узнать больше о команде OpenAI, работавшей над этим проектом, свяжитесь с нами .
Источник: openai.com

Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.