• Главная
  • Архив рубрики ~Лента новостей~
  • Созданный двумя инженерами агент обработки данных на основе искусственного интеллекта от OpenAI уже обслуживает тысячи сотрудников, и, по словам компании, любой может его воспроизвести.
Image

Созданный двумя инженерами агент обработки данных на основе искусственного интеллекта от OpenAI уже обслуживает тысячи сотрудников, и, по словам компании, любой может его воспроизвести.

Майкл Нуньес

nuneybits — светящийся ретро-компьютер 1980-х годов, парящий в космосе, и f59f85b9-99b7-42ab-aede-6bcb07c1846e

Источник: VentureBeat, создано с помощью Midjourney

Когда в прошлом году финансовому аналитику OpenAI потребовалось сравнить выручку по географическим регионам и группам клиентов, это заняло у него несколько часов работы — поиск информации в 70 000 наборах данных, написание SQL-запросов, проверка схем таблиц. Сегодня же тот же аналитик задает простой вопрос в Slack и получает готовый график за считанные минуты.

Инструмент, лежащий в основе этой трансформации, был создан двумя инженерами за три месяца. Семьдесят процентов его кода было написано с использованием ИИ. И теперь им ежедневно пользуются тысячи сотрудников OpenAI, что делает его одним из самых масштабных проектов по внедрению ИИ-агента в любой компании.

В эксклюзивном интервью VentureBeat Эмма Танг, руководитель отдела инфраструктуры данных в OpenAI, чья команда разработала этот агент, приоткрыла завесу тайны над системой — как она работает, в чем заключаются ее сбои и что она говорит о будущем корпоративных данных. Эта беседа, в сочетании с сообщением в блоге компании, анонсирующим инструмент, рисует картину компании, которая обратила свой собственный ИИ против самой себя и обнаружила то, с чем вскоре столкнется каждое предприятие: узким местом на пути к более интеллектуальным организациям являются не лучшие модели, а лучшие данные.

«Этот агент используется для любых видов анализа, — сказал Тан. — Его использует практически каждая команда в компании».

Простой и понятный интерфейс для доступа к 600 петабайтам корпоративных данных.

Чтобы понять, почему OpenAI создала эту систему, представьте масштаб проблемы. Платформа данных компании охватывает более 600 петабайт данных, распределенных по 70 000 наборам данных. Даже поиск нужной таблицы может занять у специалиста по анализу данных несколько часов. Команда Танга по платформе данных, которая отвечает за инфраструктуру и курирует системы обработки больших данных, потоковую обработку и уровень инструментов для работы с данными, обслуживает огромную внутреннюю базу пользователей. «Сейчас в OpenAI работает 5000 сотрудников, — сказал Танг. — Более 4000 из них используют инструменты для работы с данными, которые предоставляет наша команда».

Агент, созданный на основе GPT-5.2 и доступный везде, где уже работают сотрудники — в Slack, через веб-интерфейс, IDE, Codex CLI и внутреннее приложение OpenAI ChatGPT — принимает вопросы на простом английском языке и возвращает диаграммы, панели мониторинга и подробные аналитические отчеты. В последующих ответах, предоставленных VentureBeat на условиях анонимности, команда оценила, что это экономит от двух до четырех часов работы на каждый запрос. Но Тан подчеркнул, что более масштабный эффект сложнее измерить: агент предоставляет людям доступ к анализу, который они просто не могли провести раньше, независимо от того, сколько у них было времени.

«Инженеры, специалисты по развитию, продуктовые команды, а также нетехнические сотрудники, которые могут не знать всех тонкостей корпоративных систем данных и схем таблиц, теперь могут самостоятельно получать ценные аналитические данные», — отметила ее команда.

От анализа доходов до устранения задержек — один агент справляется со всем.

Танг привела несколько конкретных примеров использования, иллюстрирующих возможности агента. Финансовая команда OpenAI запрашивает у него данные о доходах в разных регионах и группах клиентов. «Он может буквально в текстовом виде отправить агенту запрос, и тот сможет ответить, предоставить графики и панели мониторинга — все это», — сказала она.

Но настоящая сила заключается в стратегическом, многоэтапном анализе. Тан описала недавний случай, когда пользователь обнаружил расхождения между двумя панелями мониторинга, отслеживающими рост числа подписчиков Plus. «Агент по обработке данных может предоставить вам диаграмму и показать, по каждому пункту, в чем именно заключаются различия», — сказала она. «Оказалось, что существует пять различных факторов. Человеку на это потребовались бы часы, если не дни, а агент может сделать это за несколько минут».

Менеджеры по продуктам используют его для оценки внедрения новых функций. Инженеры используют его для диагностики регрессии производительности — например, чтобы выяснить, действительно ли конкретный компонент ChatGPT работает медленнее, чем вчера, и если да, то какие компоненты, отвечающие за задержку, объясняют это изменение. Агент может проанализировать все это и сравнить предыдущие периоды с помощью одного запроса.

Особенно необычно то, что агент работает за пределами организационных границ. Большинство корпоративных ИИ-агентов сегодня работают изолированно в рамках отделов — финансовый бот здесь, HR-бот там. ИИ OpenAI работает горизонтально по всей компании. Тан сказал, что они запускали систему отдел за отделом, создавая специфическую память и контекст для каждой группы, но «в какой-то момент все оказывается в одной базе данных». Старший руководитель может объединить данные о продажах с показателями инженерного отдела и аналитикой продукта в одном запросе. «Это действительно уникальная особенность нашей системы», — сказал Тан.

Как компания Codex решила самую сложную проблему в области корпоративных данных

Поиск нужной таблицы среди 70 000 наборов данных, по собственному признанию Тан, является самой сложной технической задачей, с которой сталкивается ее команда. «Это самая большая проблема с этим агентом», — сказала она. И именно здесь Codex — агент для программирования ИИ от OpenAI — играет свою наиболее изобретательную роль.

Codex выполняет в системе тройную функцию. Пользователи получают доступ к агенту данных через Codex с помощью MCP. Команда использовала Codex для генерации более 70% собственного кода агента, что позволило двум инженерам выпустить продукт за три месяца. Но третья роль является наиболее технически интересной: ежедневный асинхронный процесс, в ходе которого Codex проверяет важные таблицы данных, анализирует базовый код конвейера и определяет зависимости каждой таблицы от вышестоящих и нижестоящих процессов, права собственности, детализацию, ключи объединения и аналогичные таблицы.

«Мы отправляем запрос, Codex анализирует код и предоставляет необходимую информацию, после чего сохраняем её в базу данных», — объяснил Танг. Когда пользователь позже запрашивает информацию о доходах, агент выполняет поиск в векторной базе данных, чтобы определить, какие таблицы Codex уже сопоставил с этим понятием.

Этот «увеличение контекста Codex» — один из шести контекстных слоев, используемых агентом. Слои варьируются от базовых метаданных схемы и тщательно отобранных описаний экспертов до институциональных знаний, полученных из Slack, Google Docs и Notion, а также обучающей памяти, которая хранит исправления из предыдущих разговоров. Когда предварительная информация отсутствует, агент переходит к запросам в реальном времени к хранилищу данных.

Команда также ранжирует исторические шаблоны запросов. «Вся история запросов — это сплошная «выборка звездочкой, ограничение 10». Это не очень полезно», — сказал Тан. Панели мониторинга Canonical и отчеты для руководства — где аналитики вложили значительные усилия в определение правильного представления данных — помечаются как «источник истины». Все остальное отходит на второй план.

Подсказка, которая заставляет ИИ замедлиться и подумать.

Даже при наличии шести контекстных слоев Тан был удивительно откровенен относительно самого большого поведенческого недостатка агента: чрезмерной самоуверенности. Это проблема, знакомая любому, кто работал с большими языковыми моделями.

«Это действительно большая проблема, потому что модель часто проявляет чрезмерную самоуверенность, — сказал Танг. — Она говорит: „Это правильная таблица“, и просто начинает проводить анализ. На самом деле это неправильный подход».

Решение было найдено благодаря подсказкам инженеров, которые заставляют агента задерживаться на этапе анализа. «Мы обнаружили, что чем больше времени он тратит на сбор возможных сценариев и сравнение того, какую таблицу использовать — просто больше времени на этапе анализа — тем лучше результаты», — сказала она. Подсказка звучит почти как наставление младшему аналитику: «Прежде чем вы приступите к этому, я действительно хочу, чтобы вы провели дополнительную проверку, является ли это правильной таблицей. Поэтому, пожалуйста, проверьте больше источников, прежде чем создавать реальные данные».

В ходе тщательной оценки команда также выяснила, что меньшее количество контекста может привести к лучшим результатам. «Очень легко просто навалить всё подряд и ожидать, что всё получится лучше», — сказал Тан. «Однако наши оценки показали обратное. Чем меньше информации вы предоставляете, и чем более тщательно и точно подобран контекст, тем лучше результаты».

Для укрепления доверия агент в режиме реального времени передает пользователям результаты своих промежуточных рассуждений, показывает, какие таблицы он выбрал и почему, а также напрямую ссылается на результаты базовых запросов. Пользователи могут прервать работу агента в середине анализа, чтобы перенаправить его. Система также фиксирует свой прогресс, позволяя возобновить работу после сбоев. И в конце каждой задачи модель оценивает свою производительность. «Мы спрашиваем модель: „Как, по-вашему, все прошло? Хорошо или плохо?“ — сказал Тан. — И она довольно хорошо оценивает свою работу».

Ограничительные меры, намеренно простые — и на удивление эффективные.

В вопросах безопасности Тан применил прагматичный подход, который может удивить предприятия, ожидающие применения сложных методов согласования с искусственным интеллектом.

«Я думаю, что нужно просто ввести ещё больше неэффективных ограничений», — сказала она. «У нас очень строгий контроль доступа. Всегда используется ваш персональный токен, поэтому доступ есть только к тому, к чему у вас есть доступ».

Агент работает исключительно как интерфейсный слой, наследуя те же права доступа, что и к данным OpenAI. Он никогда не появляется в публичных каналах — только в приватных каналах или в личном интерфейсе пользователя. Доступ на запись ограничен временной тестовой схемой, которая периодически очищается и не может быть передана другим лицам. «Мы также не позволяем ему произвольно записывать данные в системы», — сказал Тан.

Обратная связь от пользователей замыкает цикл. Сотрудники напрямую сообщают о некорректных результатах, и команда проводит расследование. Самооценка модели добавляет еще одну проверку. В долгосрочной перспективе, по словам Тан, планируется переход к многоагентной архитектуре, где специализированные агенты будут отслеживать и помогать друг другу. «В конечном итоге мы к этому движемся, — сказала она, — но сейчас, даже в нынешнем виде, мы уже довольно далеко продвинулись».

Почему OpenAI не будет продавать этот инструмент, а хочет, чтобы вы создали свой собственный?

Несмотря на очевидный коммерческий потенциал, OpenAI сообщила VentureBeat, что компания не планирует коммерциализировать свой внутренний агент обработки данных. Стратегия заключается в предоставлении базовых компонентов, а предприятиям — в создании собственных. Тан ясно дала понять, что все, что ее команда использовала для создания системы, уже доступно извне.

«Мы используем все те же API, которые доступны извне, — сказала она. — API для ответов, API для оценок. У нас нет тонко настроенной модели. Мы просто используем версию 5.2. Так что вы определенно можете это построить».

Это сообщение соответствует более широкой стратегии OpenAI по развитию корпоративного сектора. В начале февраля компания запустила OpenAI Frontier — комплексную платформу для предприятий, позволяющую создавать и управлять агентами искусственного интеллекта. С тех пор она привлекла McKinsey, Boston Consulting Group, Accenture и Capgemini для помощи в продаже и внедрении платформы. AWS и OpenAI совместно разрабатывают среду выполнения с сохранением состояния (Stateful Runtime Environment) для Amazon Bedrock, которая повторяет некоторые возможности сохранения контекста, встроенные OpenAI в свой агент данных. А Apple недавно интегрировала Codex непосредственно в Xcode.

Согласно информации, предоставленной VentureBeat компанией OpenAI, Codex теперь используется 95% инженеров OpenAI и проверяет все запросы на слияние (pull requests) перед их принятием. Его глобальная еженедельная база активных пользователей утроилась с начала года, превысив миллион человек. Общее использование выросло более чем в пять раз.

Тан описала изменение в том, как сотрудники используют Codex, которое выходит за рамки простого программирования. «Codex — это уже даже не инструмент для программирования. Это гораздо больше, чем просто инструмент», — сказала она. «Я вижу, как нетехнические команды используют его для систематизации мыслей, создания презентаций и составления ежедневных отчетов». Одна из ее руководителей инженерного отдела каждое утро просит Codex просматривать ее заметки, определять наиболее важные задачи, подтягивать сообщения из Slack и личных сообщений, а также составлять черновики ответов. «Во многом он работает на нее», — сказала Тан.

Непривлекательное условие, которое определит победителя в гонке агентов искусственного интеллекта.

На вопрос о том, что другим предприятиям следует перенять из опыта OpenAI, Тан не указала на возможности моделей или продуманную разработку подсказок. Она указала на нечто гораздо более обыденное.

«Это не самая привлекательная тема, но управление данными действительно важно для эффективной работы агентов обработки данных», — сказала она. «Ваши данные должны быть достаточно чистыми и достаточно аннотированными, и должен существовать какой-то источник достоверной информации, через который агент сможет сканировать данные».

Базовая инфраструктура — хранение данных, вычисления, оркестрация и уровни бизнес-аналитики — не была заменена агентом. Для выполнения своей работы ему по-прежнему необходимы все эти инструменты. Но он служит принципиально новой точкой входа для анализа данных, более автономной и доступной, чем все, что было до него.

Тан завершила интервью предостережением для компаний, которые колеблются. «Компании, которые внедрят это, очень быстро увидят преимущества, — сказала она. — А компании, которые этого не сделают, отстанут. Все развалится. Компании, которые это используют, будут развиваться очень и очень быстро».

На вопрос о том, беспокоит ли такое ускорение ее собственных коллег, особенно после волны недавних увольнений в таких компаниях, как Block, Танг сделала паузу. «Наши возможности как компании значительно ускорились, — сказала она, — но это все еще ни на йоту не соответствует нашим амбициям».

Подпишитесь, чтобы получать самые свежие новости!

Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.

VB Daily AI Weekly Еженедельник AGI Еженедельник по безопасности Еженедельник по инфраструктуре данных Мероприятия VB Все они

Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.

Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.

Источник: venturebeat.com

✅ Найденные теги: OpenAI, Агент, Инженеры, искусственный интеллект, новости, Обработка Данных, Созданный

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

ideipro logotyp
Манекен со штрихкодом на лице смотрит на смартфон в темноте.
Текст "oh, wow." на розовом фоне, минималистичный дизайн.
График потребления энергии дата-центров xAI Colossus 2 и других, планы до 2027 года.
Бланк медицинской квитанции с таблицей для заполнения услуг и стоимости.
Коллаж с лицом, схемой подключения и изображением глаза в зелёном цвете.
Логотип CMS на экране смартфона, сайт в фоновом режиме.
Карта мира с направлениями исследований в области протеомики и микробиологии.
Руководитель Microsoft: Следующая консоль Microsoft будет поддерживать игры для Xbox и ПК.
Image Not Found
Логотип CMS на экране смартфона, сайт в фоновом режиме.

STAT+: Проект «модернизации» Medicare с помощью ИИ и антимонопольная борьба в больницах штата Огайо.

Вы читаете информационный бюллетень STAT Health Care Inc. Управление оповещениями для этой статьи Отправить эту статью по электронной почте Поделитесь этой статьей Adobe Это онлайн-версия еженедельной электронной рассылки STAT «Health Care Inc.». Подписаться можно здесь. Что ж,…

Мар 7, 2026
Карта мира с направлениями исследований в области протеомики и микробиологии.

Модель Лаборатории трансляционных исследований и инноваций (TRAIL) позволяет ускорить научные открытия за счет использования общих институциональных ресурсов.

Доступ через ваше учебное заведение. Купить или оформить подписку. Трансляционные исследования играют решающую роль в здравоохранении, применяя открытия, полученные в лаборатории, к практическим решениям, ориентированным на пациента. Однако трансляционные исследования часто заходят в тупик из-за препятствий, мешающих…

Мар 7, 2026
Руководитель Microsoft: Следующая консоль Microsoft будет поддерживать игры для Xbox и ПК.

Руководитель Microsoft: Следующая консоль Microsoft будет поддерживать игры для Xbox и ПК.

Проект Helix призван открыть закрытую экосистему консолей, но детали будут иметь значение. Что это над полутенью? Это компьютер с Windows? Источник: Microsoft. Что это над полутенью? Это компьютер с Windows? Источник: Microsoft. Настройки текста. Текст рассказа Размер…

Мар 7, 2026
Человек с микрофоном на сцене на фоне кирпичной стены и деревянного стула.

Стартап-фонд Robinhood потерпел неудачу на дебюте на Нью-Йоркской фондовой бирже.

Автор изображения: Дани Паджетт / StrictlyVC Розничные инвесторы, как известно, лишены доступа к миру стартапов. Robinhood пытается изменить это, предоставляя широкой публике возможность инвестировать в портфель, состоящий, по их словам, из «некоторых из самых перспективных частных компаний,…

Мар 7, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых