Заменит ли диалоговое взаимодействие запросы SQL, отчеты KPI и панели мониторинга?
Делиться

На протяжении десятилетий анализ данных был подобен классическому искусству. Раньше мы заказывали отчёт нашему аналитику данных — нашему Микеланджело — и терпеливо ждали. Спустя несколько недель мы получали электронное письмо с великолепным шедевром ручной работы: ссылкой на панель инструментов с 50 ключевыми показателями эффективности или 20-страничным отчётом. Мы могли восхищаться скрупулезным мастерством, но ничего не могли изменить. Более того, мы даже не могли задать уточняющие вопросы. Ни по отчёту, ни по аналитику, поскольку она уже была занята другим заданием.
Вот почему будущее анализа данных не принадлежит «аналитическому эквиваленту» Микеланджело. Скорее, оно ближе к искусству Фудзико Накайи.
Фудзико Накая славится своими туманными «скульптурами»: захватывающими дух живыми облаками тумана. Но она не «скульптурирует» туман сама. У неё есть идея. Она разрабатывает концепцию. Самую сложную работу по прокладке трубопроводов и регулированию давления воды для создания тумана выполняют инженеры и сантехники.
Изменение парадигмы визуализации естественного языка происходит так же.
Представьте, что вам нужно понять некое явление: отток клиентов растёт, продажи падают, сроки доставки не улучшаются. Поэтому вы становитесь художником-концептуалистом. Вы предлагаете идею:
Каковы были наши продажи на северо-востоке и как они соотносятся с прошлым годом?
Система становится вашим главным мастером. Она выполняет всю сложную работу по покраске, скульптуре или, как в случае Накайи, сантехнике в фоновом режиме. Она формирует запрос, выбирает визуализацию и пишет интерпретацию. Наконец, ответ, словно туман в скульптурах Накайи, появляется прямо перед вами.
Компьютер, проанализируй все журналы датчиков за последний час. Сравни с флуктуациями ионов.
Помните мостик звездолёта «Энтерпрайз»? Когда капитану Кирку требовалось изучить историческую личность, а коммандеру Споку — сопоставить данные с новой энергетической сигнатурой, им никогда не приходилось открывать сложную приборную панель. Они обращались к компьютеру (или, по крайней мере, использовали интерфейс и кнопки на капитанском кресле) [*].
Не было необходимости использовать BI-приложение или писать хотя бы одну строку SQL-кода. Кирку или Споку достаточно было лишь обозначить свою потребность: задать вопрос, иногда добавляя простой жест рукой. В ответ они получали немедленный визуальный или голосовой ответ. Десятилетиями эта текучая, коммуникативная сила была чистой научной фантастикой.
Сегодня я задаю себе вопрос:
Находимся ли мы в начале пути к этой конкретной реальности анализа данных?
Анализ данных переживает существенные изменения. Мы отходим от традиционного программного обеспечения, требующего бесконечного нажатия на иконки, меню и окна, изучения языков запросов и программирования, а также освоения сложных интерфейсов. Вместо этого мы начинаем вести простые диалоги с нашими данными.
Цель — заменить сложную кривую обучения сложным инструментам естественной простотой человеческого языка. Это открывает доступ к анализу данных всем, а не только экспертам, позволяя им «разговаривать со своими данными».
На данный момент вы, вероятно, скептически относитесь к тому, что я написал.
И вы имеете на это полное право.
Многие из нас пытались использовать инструменты искусственного интеллекта «современной эпохи» для визуализации или презентаций, но обнаруживали, что результаты были хуже, чем порой мог дать даже начинающий аналитик. Эти результаты часто были неточными. Или, что ещё хуже: они представляли собой галлюцинации, далекие от нужных нам ответов, или просто неверные.
Это не просто ошибка; существуют очевидные причины разрыва между обещаниями и реальностью, которые мы рассмотрим сегодня.
В этой статье я подробно расскажу о новом подходе, называемом визуализацией естественного языка (ВНЯ). В частности, я расскажу, как работает эта технология, как её можно использовать и какие основные проблемы ещё предстоит решить, прежде чем мы вступим в эпоху «Звёздного пути».
Рекомендую рассматривать эту статью как структурированное путешествие по имеющимся у нас знаниям по этой теме. Заметка: эта статья также знаменует собой небольшое возвращение к моим предыдущим публикациям о визуализации данных, связывая их с моим недавним интересом к сторителлингу.
В процессе написания этой статьи я обнаружил (и надеюсь, что вы тоже обнаружите это по мере прочтения), что эта тема на первый взгляд казалась совершенно очевидной. Однако быстро обнаружилась удивительная, скрытая глубина нюансов. В конце концов, изучив все цитируемые и нецитируемые источники, собственные размышления и тщательно взвесив факты, я пришёл к довольно неожиданному выводу. Этот системный, академический подход во многих отношениях стал для меня настоящим открытием, и я надеюсь, что он откроет глаза и вам.
Что такое визуализация естественного языка?
Серьёзным препятствием для понимания этой области является неоднозначность её базовой терминологии. Аббревиатура NLV (визуализация естественного языка) имеет два различных исторических значения.
- Исторический NLV (текст-в-сцену): старая область создания 2D- или 3D-графики из описательного текста [1],[2].
- Современный NLV (Text-to-Viz): современная область создания визуализаций данных (например, диаграмм) из описательного текста [3].
Чтобы сохранить точность и дать вам возможность сопоставлять идеи и анализы, представленные в этой статье, я буду использовать специальную академическую методологию, применяемую в сообществах HCI и визуализации:
- Интерфейс естественного языка (NLI): широкий, всеобъемлющий термин для любого интерфейса человек-компьютер, который принимает естественный язык в качестве входных данных.
- Интерфейс естественного языка, ориентированный на визуализацию (V-NLI): это система, позволяющая пользователям взаимодействовать с визуальными данными (например, диаграммами и графиками) и анализировать их, используя обычную речь или текст. Её основная цель — сделать данные доступнее, служа простым и дополнительным методом ввода для инструментов визуальной аналитики, что в конечном итоге позволяет пользователям полностью сосредоточиться на задачах, связанных с данными, а не разбираться в технических особенностях сложного программного обеспечения для визуализации [4],[5].
V-NLI — это интерактивные системы, которые упрощают задачи визуальной аналитики с помощью двух основных пользовательских интерфейсов: на основе форм или на основе чат-бота . V-NLI на основе форм обычно использует текстовое поле для запросов на естественном языке, иногда с виджетами уточнения, но, как правило, не предназначен для ответов на уточняющие вопросы в ходе разговора. Напротив, V-NLI на основе чат-бота представляет собой именованного агента с антропоморфными чертами , такими как личность, внешний вид и эмоциональное выражение, который взаимодействует с пользователем в отдельном окне чата, отображая разговор вместе с дополнительными выводами. Хотя оба являются интерактивными, V-NLI на основе чат-бота также является антропоморфным, обладая всеми определенными характеристиками чат-бота, тогда как V-NLI на основе форм лишена человекоподобных черт [6].
Ценностное предложение V-NLI лучше всего понять, сопоставив диалоговую парадигму с традиционными процессами анализа данных. Они представлены в инфографике ниже.

Этот сдвиг представляет собой переход от статичного, сложного и контролируемого человеком процесса к динамичному, легкому и автоматизированному. В таблице 1 я дополнительно проиллюстрирую, как этот новый подход может повлиять на нашу работу с данными.
Таблица 1: Сравнительный анализ: традиционная BI и разговорная аналитика
| Особенность | Разговорная аналитика | Традиционная аналитика |
| Фокус | Все данные о взаимодействии клиента с агентом и CRM-системой | Телефонные разговоры и профили клиентов |
| Источники данных | Недавние разговоры по звонкам, чатам, текстовым сообщениям и электронным письмам | Исторические записи (продажи, профили клиентов) |
| Сроки | В реальном времени / Недавние | Ретроспектива / Исторический |
| Немедленность | Высокий (анализирует самые последние данные) | Низкий (понимание формируется в течение более длительных периодов времени) |
| Инсайты | Глубокое понимание конкретных болевых точек и возникающих проблем | Анализ работы контакт-центра высокого уровня с течением времени |
| Вариант использования | Улучшение немедленной удовлетворенности клиентов и поведения агентов | Понимание долгосрочных тенденций и динамики бизнеса |
Как работает V-NLI?
Для анализа механики V-NLI я принял теоретическую основу из академического обзора «Почему и как: обзор взаимодействия естественного языка в визуализации» [11]. Эта основа предлагает мощный инструмент для классификации и критики систем V-NLI, различая намерения пользователя и реализацию диалога. Она анализирует две основные оси системы V-NLI: «Почему» и «Как» . Ось «Почему» представляет намерение пользователя. Она исследует, почему пользователи взаимодействуют с визуализациями. Ось «Как» представляет структуру диалога. Она отвечает на вопрос о том, как технически реализован диалог между человеком и машиной. Каждая из этих осей может быть дополнительно разделена на конкретные задачи в случае «Почему» и атрибуты в случае «Как». Я перечисляю их ниже.
Четыре ключевые задачи высокого уровня «Зачем»:
- Настоящее время: использование визуализации для передачи повествования, например, для визуального повествования или создания объяснений.
- Откройте: используйте визуализацию для поиска новой информации, например, написание запросов на естественном языке, выполнение поиска по ключевым словам, визуальные ответы на вопросы (VQA) или аналитическая беседа.
- Наслаждайтесь: используйте визуализацию для непрофессиональных целей, таких как дополнение изображений или создание описаний.
- Производить: использование визуализации для создания или записи новых артефактов, например, путем создания аннотаций или дополнительных визуализаций.
С другой стороны, «Как» имеет три основных атрибута:
- Инициатива: отвечает на вопрос, кто инициирует обсуждение. Обсуждение может быть инициировано пользователем, системой или смешанным образом.
- Продолжительность: Какова продолжительность взаимодействия? Это может быть одиночный этап для простого запроса или многоэтапный разговор для сложного аналитического обсуждения.
- Коммуникативные функции: Какова форма языка? Модель языка поддерживает несколько форм взаимодействия: пользователи могут отдавать прямые команды, задавать вопросы или участвовать в диалоге, в котором они корректируют свои данные на основе предложений NLI.
Эта структура также может помочь проиллюстрировать самую фундаментальную проблему, вызывающую наше недоверие к NLI. Исторически как коммерческие, так и некоммерческие визуальные интерфейсы естественного языка (V-NLI) работали в очень узкой функциональной области. Вопрос «почему» часто сводился к задаче «обнаружить» , в то время как вопрос «как» ограничивался простыми одноэтапными запросами, инициируемыми пользователем.
В результате большинство инструментов для «обсуждения данных» функционировали всего лишь как простые поля поиска типа «задайте мне вопрос». Эта модель постоянно вызывала у пользователей раздражение из-за своей чрезмерной негибкости и нестабильности , часто давая сбои, если запрос не был сформулирован с идеальной точностью.
Вся история этой технологии — это история роста по двум ключевым направлениям.
- Во-первых, наше взаимодействие улучшилось: мы перешли от задавания только одного вопроса за раз к полноценному диалогу с прямой и обратной связью.
- Во-вторых, расширяются причины использования V-NLI. Мы перешли от простого поиска информации к автоматическому созданию новых диаграмм и даже к пояснению данных в письменной форме.
Полное использование всех четырёх задач «Почему» и трёх аспектов «Как» в будущем станет самым большим скачком. Система перестанет ждать, пока мы зададим вопрос, и сама начнёт диалог, заранее указывая на важные моменты, которые вы могли пропустить. Этот путь от простой поисковой строки до умного, проактивного партнёра — главная история, связывающая прошлое, настоящее и будущее этой технологии.
Прежде чем продолжить, я хотел бы немного отклониться от темы и показать вам пример того, как можно улучшить наше взаимодействие с искусственным интеллектом. Для этого я воспользуюсь недавней публикацией моей подруги , доктора наук Касии Дроговской, в LinkedIn.
Модели ИИ часто становятся стереотипными, страдая от «коллапса мод», поскольку они усваивают наши собственные предубеждения на основе обучающих данных. Метод, называемый «вербализованной выборкой» (VS), предлагает эффективное решение, изменяя подсказку. Вместо того, чтобы просить дать один ответ (например, «Расскажите мне анекдот»), вы запрашиваете распределение вероятностей ответов (например, «Сгенерируйте пять разных анекдотов и их вероятности»). Этот простой переход не только даёт в 1,6–2,1 раза более разнообразные и креативные результаты, но, что ещё важнее, учит нас мыслить вероятностно. Он разрушает иллюзию единственного «правильного ответа» в сложных бизнес-решениях и возвращает право выбора нам, а не модели.

На изображении выше показано прямое сравнение двух методов подсказок ИИ:
- Слева показан пример прямого подсказывания. Здесь я показываю, что происходит, когда вы пять раз задаёте ИИ один и тот же простой вопрос: «Расскажи мне анекдот о визуализации данных». В результате получается пять очень похожих шуток, все в одном формате.
- Справа показан пример вербализованной выборки. Здесь я показываю другой метод подсказки. Вопрос изменён, чтобы предлагать несколько вариантов ответа: «Сгенерируйте пять ответов с соответствующими вероятностями…». В результате получается пять совершенно разных шуток, каждая из которых уникальна по своему сюжету и кульминации, и каждой из них ИИ присваивает вероятность (на самом деле, это не истинная вероятность, но, тем не менее, даёт представление).
Ключевое преимущество такого метода, как VS, — разнообразие. Вместо того, чтобы просто получить от ИИ единственный «стандартный» ответ, он заставляет его исследовать более широкий спектр творческих возможностей, позволяя вам выбирать от самых распространённых до самых уникальных. Это прекрасный пример моей точки зрения: изменение способа взаимодействия с этими инструментами может привести к совершенно разным результатам.
Трубопровод V-NLI
Чтобы понять, как V-NLI преобразует запрос на естественном языке, например, «покажите мне динамику продаж за последний квартал», в точную и достоверную визуализацию данных, необходимо разобрать его базовую техническую архитектуру. Учёные из сообщества V-NLI предложили классический конвейер визуализации информации в качестве структурированной модели для таких систем [5]. Для иллюстрации общего механизма процесса я подготовил следующую инфографику.

Для одного запроса «текст-визуализация» двумя наиболее важными и сложными этапами являются (1) интерпретация запроса и (3/4) визуальное отображение/кодирование. Другими словами, это точное понимание того, что имеет в виду пользователь. Остальные этапы, в частности (6) управление диалогом, становятся первостепенными в более продвинутых диалоговых системах.
Старые системы постоянно не могли этого понять. Причина в том, что эта задача, по сути, решает сразу две проблемы:
- Во-первых, система должна угадать намерение пользователя (например, хочет ли он сравнить продажи или увидеть тенденцию?).
- Во-вторых, он должен преобразовывать обычные слова (например, «бестселлеры») в идеальный запрос к базе данных.
Если система неправильно понимала намерения пользователя, она отображала таблицу, когда пользователю нужна была диаграмма. Если же система не могла разобрать слова пользователя, она просто возвращала ошибку или, что ещё хуже, создавала что-то совершенно неожиданное.
Как только система поймёт ваш вопрос, она должна создать визуальный ответ. Она должна автоматически выбрать наиболее подходящую диаграмму для заданного намерения (например, линейную диаграмму для тренда), а затем сопоставить с ней соответствующие характеристики (например, разместить «Продажи» на оси Y, а «Регион» — на оси X). Примечательно, что эта часть построения диаграмм развивалась аналогично части понимания языка. Обе прошли путь от старых, громоздких, жёстко запрограммированных правил к новым гибким моделям искусственного интеллекта. Эта параллельная эволюция подготовила почву для современных больших языковых моделей (LLM), которые теперь могут выполнять обе задачи одновременно.
Фактически, описанный выше сложный многоступенчатый конвейер V-NLI с его отдельными модулями для распознавания намерений, семантического анализа и визуального кодирования был существенно изменен с появлением LLM. Эти модели не просто улучшили один этап конвейера, но и свели весь конвейер к одному генеративному шагу.
Вы можете спросить, почему? Что ж, парсеры предыдущей эпохи были алгоритмоцентричными. Их создание требовало многих лет усилий специалистов по компьютерной лингвистике и разработчиков, и они ломались при обнаружении новой области или неожиданного запроса.
LLM, напротив, ориентированы на данные. Они предлагают предобученное, упрощенное решение сложнейшей проблемы понимания естественного языка [13],[14]. Это великое объединение : один предобученный LLM теперь может выполнять все основные задачи конвейера V-NLI одновременно. Эта архитектурная революция вызвала аналогичную революцию в рабочем процессе разработчика V-NLI. Основная инженерная задача претерпела фундаментальные изменения. Ранее задача заключалась в создании идеального семантического анализатора, специфичного для предметной области [11]. Теперь новая задача — создать идеальную подсказку и подобрать идеальные данные для предобученного LLM.
Три ключевых метода поддерживают этот новый рабочий процесс, ориентированный на LLM. Первый — это Prompt Engineering , новая дисциплина, сосредоточенная на тщательном структурировании текстовой подсказки — иногда с использованием продвинутых стратегий, таких как «Дерево мыслей», — чтобы помочь LLM рассуждать через сложный запрос данных, а не просто делать быстрые предположения. Связанный метод — это контекстное обучение (ICL), которое подготавливает LLM, помещая несколько примеров желаемой задачи (например, примеры пар текст-диаграмма) непосредственно в саму подсказку. Наконец, для узкоспециализированных областей используется тонкая настройка . Это включает в себя переобучение базового LLM на большом наборе данных, специфичном для предметной области. Эти столпы, когда они есть, позволяют создать мощный V-NLI, который может обрабатывать сложные задачи и специализированные диаграммы, что было бы невозможно для любой общей модели.

Этот сдвиг имеет глубокие последствия для масштабируемости систем V-NLI. Старый подход (символьный синтаксический анализ) требовал разработки новых, сложных алгоритмов для каждой новой области. Современный подход, основанный на LLM, требует нового набора данных для тонкой настройки. Хотя создание высококачественных наборов данных остаётся серьёзной проблемой, эта задача масштабирования данных гораздо более разрешима и экономична, чем предыдущая задача алгоритмического масштабирования. Это изменение в фундаментальной экономике масштабирования — настоящее и наиболее долгосрочное последствие революции LLM.
Каков истинный смысл всего этого?
Главное преимущество инструментов «общайтесь со своими данными» — демократизация данных . Они разработаны для того, чтобы избежать сложного освоения традиционного сложного программного обеспечения для бизнес-аналитики, которое часто требует длительного обучения. Инструменты «общайтесь со своими данными» предоставляют не требующую длительного обучения отправную точку для нетехнических специалистов (таких как менеджеры, маркетологи или специалисты по продажам), которые наконец-то могут получать собственные аналитические данные без необходимости обращаться в ИТ-отдел или отдел обработки данных. Это способствует формированию культуры, основанной на данных, позволяя самостоятельно решать часто задаваемые вопросы.
Для бизнеса ценность измеряется скоростью и эффективностью. Задержка принятия решения, связанная с ожиданием аналитика, которая может длиться днями, а иногда и неделями, устраняется. Переход от многодневного процесса, контролируемого человеком, к автоматизированному процессу в режиме реального времени экономит в среднем 2–3 часа на пользователя в неделю, позволяя организации мгновенно реагировать на изменения рынка.
Однако эта демократизация создаёт новую, глубокую социально-техническую напряжённость внутри организаций. Следующий анекдот прекрасно это иллюстрирует: HR-бизнес-партнёр (не технический специалист) использовал один из этих инструментов для представления расчётов руководителям. Руководители, однако, начали обсуждать… способ, которым мы пришли к расчётам, вместо того, чтобы делать выводы, поскольку не верили, что HR-отдел способен «действительно делать эти расчёты».
Это выявляет критический конфликт: главная ценность инструмента напрямую противоречит фундаментальной потребности организации в управлении и доверии. Когда нетехнический пользователь внезапно получает возможность проводить сложную аналитику, это бросает вызов авторитету традиционных контролеров данных, создавая конфликт, являющийся прямым следствием успеха технологии.

Какой из современных помощников на базе ИИ, получивших степень магистра права, лучше всего подходит для «общения с вашими данными»?
Вы, возможно, ожидали увидеть здесь рейтинг лучших помощников, использующих степень магистра права для V-NLI, но я решил этого не делать. Учитывая обилие доступных инструментов, невозможно проанализировать их все и оценить объективно и компетентно.
Мой личный опыт в основном связан с Gemini, ChatGPT и встроенными помощниками, такими как Microsoft Copilot или Google Workspace. Тем не менее, используя несколько онлайн-источников, я составил краткий обзор ключевых факторов, которые следует учитывать при выборе наиболее подходящего варианта. В конечном итоге вам придётся самостоятельно изучить все возможности, учитывая такие аспекты, как производительность, стоимость, модель оплаты и, прежде всего, безопасность.
В таблице ниже представлены несколько инструментов с краткими описаниями. Далее я остановлюсь на Gemini и ChatGPT, которые я знаю лучше всего.
Таблица 2. Примеры LLM, которые могут служить V-NLI
| BlazeSQL | Аналитик данных на основе искусственного интеллекта и чат-бот, подключающийся к базам данных SQL, позволяющий пользователям без технической подготовки задавать вопросы на естественном языке, визуализировать результаты и создавать интерактивные панели. Не требует программирования. |
| DataGPT | Инструмент разговорной аналитики, который отвечает на запросы на естественном языке с помощью визуализации, обнаруживает аномалии и предлагает такие функции, как встроенный ИИ-агент и Lightning Cache для быстрой обработки запросов. |
| Близнецы (Google) | Разговорный интерфейс искусственного интеллекта Google Cloud для BigQuery обеспечивает мгновенный анализ данных, получение информации в режиме реального времени и настраиваемые панели мониторинга с помощью обычного языка. |
| ChatGPT (OpenAI) | Гибкий диалоговый инструмент, способный исследовать наборы данных, выполнять базовый статистический анализ, создавать диаграммы и создавать пользовательские отчеты — и все это посредством взаимодействия на естественном языке. |
| Люменор | Платформа, ориентированная на персонализированную информацию и более быстрое принятие решений, с анализом сценариев, словарем организационных данных, предиктивной аналитикой и централизованным управлением данными. |
| Дашбот | Инструмент, предназначенный для решения проблемы «темных данных» путем анализа как неструктурированных данных (например, электронных писем, стенограмм, журналов), так и структурированных данных для превращения ранее неиспользованной информации в полезную информацию. |
И Gemini, и ChatGPT представляют собой новую волну мощных V-NLI, ориентированных на визуализацию, каждый из которых обладает своим уникальным стратегическим преимуществом. Главное преимущество Gemini — глубокая интеграция с экосистемой Google; он напрямую работает с BigQuery и Google Suite. Например, вы можете открыть PDF-вложение прямо из Gmail и выполнить глубокий анализ, используя интерфейс помощника Gemini, используя либо встроенный агент, либо специальные подсказки. Его главное преимущество заключается в переводе простого, повседневного языка не только в точки данных, но и непосредственно в интерактивные визуализации и панели мониторинга.
ChatGPT, напротив, может служить более универсальным, но не менее мощным инструментом V-NLI для аналитики, способным обрабатывать различные форматы данных, такие как CSV и файлы Excel. Это делает его идеальным инструментом для пользователей, желающих принимать обоснованные решения, не углубляясь в сложное программное обеспечение или программирование. Функция визуализации на естественном языке (NLV) реализована явно, что позволяет пользователям задавать запросы на обобщение данных, выявление закономерностей и даже создание визуализаций.
Истинное, общее преимущество обеих платформ заключается в их способности поддерживать интерактивное общение. Они позволяют пользователям задавать уточняющие вопросы и уточнять свои запросы. Этот итеративный, диалоговый подход делает их высокоэффективными V-NLI, которые не просто отвечают на отдельный вопрос, а обеспечивают полноценный исследовательский процесс анализа данных.
Пример применения: Gemini как V-NLI
Давайте проведём небольшой эксперимент и пошагово разберём, как Gemini (версия 2.5 Pro) работает в качестве V-NLI. Для этого эксперимента я использовал Gemini для генерации набора искусственных данных о ежедневных продажах, разбитых по продуктам, регионам и торговым представителям. Затем я попросил его смоделировать взаимодействие между нетехническим пользователем (например, менеджером по продажам) и V-NLI. Посмотрим, что получится.
Сгенерированный образец данных:
Дата, Регион, Продавец, Товар, Категория, Количество, Цена за единицу, Сумма продаж 2022-01-01, Север, Элис Смит, Альфа-100, Электроника, 5, 1500, 7500 2022-01-01, Юг, Боб Джонсон, Бета-200, Электроника, 3, 250, 750 2022-01-01, Восток, Карла Гомес, Гамма-300, Одежда, 10, 50, 500 2022-01-01, Запад, Дэвид Ли, Дельта-400, Программное обеспечение, 1, 1000, 1000 2022-01-02, Север, Элис Смит, Бета-200, Электроника, 2, 250, 500 2022-01-02, Запад, Дэвид Ли, Гамма-300, Одежда, 7, 50, 350 2022-01-03, Восток, Карла Гомес, Альфа-100, Электроника, 3, 1500, 4500 2022-01-03, Юг, Боб Джонсон, Дельта-400, Программное обеспечение, 2, 1000, 2000 2023-05-15, Север, Ева Грин, Альфа-100, Электроника, 4, 1600, 6400 2023-05-15, Восток, Фрэнк Уайт, Эпсилон-500, Услуги, 1, 5000, 5000 2023-05-16, Юг, Боб Джонсон, Бета-200, Электроника, 5, 260, 1300 2023-05-16, Запад, Дэвид Ли, Гамма-300, Одежда, 12, 55, 660 2023-05-17, Север, Элис Смит, Дельта-400, Программное обеспечение, 1, 1100, 1100 2023-05-17, Восток, Карла Гомес, Эпсилон-500, Услуги, 1, 5000, 5000 2024-11-20, Юг, Грейс Хоппер, Альфа-100, Электроника, 6, 1700, 10200 2024-11-20, Запад, Дэвид Ли, Бета-200, Электроника, 10, 270, 2700 2024-11-21, Север, Ева Зеленый, Гамма-300, Одежда, 15, 60, 900 2024-11-21, Восток, Фрэнк Уайт, Дельта-400, Программное обеспечение, 3, 1200, 3600 2024-11-22, Юг, Грейс Хоппер, Эпсилон-500, Услуги, 2, 5500, 11000 2024-11-22, Запад, Элис Смит, Альфа-100, Электроника, 4, 1700, 6800
Эксперимент:
Мой типичный рабочий процесс начинается с общего запроса для получения общей картины. Если первоначальный вид выглядит нормально, я, возможно, остановлюсь. Однако, если я подозреваю наличие скрытой проблемы, я попрошу инструмент провести более глубокое исследование для выявления аномалий, которые не видны на первый взгляд.


Затем я сосредоточился на северном регионе, чтобы проверить, смогу ли я обнаружить какие-либо аномалии.


Для последнего запроса я изменил ракурс, чтобы проанализировать ежедневную динамику продаж. Это новое представление служит отправной точкой для последующих, более подробных вопросов.


На самом деле, приведённые выше примеры были довольно простыми и не так уж далеки от «старых» NLI. Но давайте посмотрим, что произойдёт, если предоставить чат-боту возможность проявлять инициативу в ходе обсуждения.


Это демонстрирует более продвинутые возможности V-NLI: не только ответ на вопрос, но и предоставление контекста и выявление основных закономерностей или выбросов, которые пользователь мог пропустить.

Этот небольшой эксперимент, как мы надеемся, продемонстрирует, что ИИ-помощники, такие как Gemini, могут эффективно выполнять функции V-NLI. Моделирование началось с того, что модель успешно интерпретировала запрос на естественном языке высокого уровня о данных о продажах и преобразовала его в соответствующую визуализацию. Процесс продемонстрировал способность модели обрабатывать итеративные диалоговые запросы, такие как детализация до определённого сегмента данных или смещение аналитической перспективы на временные ряды. Что наиболее важно, заключительный эксперимент продемонстрировал проактивный потенциал, в котором модель не только ответила на запрос пользователя, но и самостоятельно выявила и визуализировала критическую аномалию в данных. Это свидетельствует о том, что такие ИИ-инструменты могут выйти за рамки роли простых исполнителей, выступая вместо этого в качестве интерактивных партнёров в процессе исследования данных. Но это не значит, что они будут делать это самостоятельно: сначала им необходимо предоставить соответствующие подсказки.
Так ли идеален этот мир на самом деле?
Несмотря на обещания демократизации, инструменты V-NLI сталкиваются с фундаментальными проблемами, которые привели к их прошлым неудачам. Первая и самая серьёзная из них — проблема неоднозначности, «ахиллесова пята» всех систем естественного языка. Человеческий язык по своей природе неточен, что проявляется несколькими способами:
- Лингвистическая неоднозначность: слова имеют несколько значений. Запрос «лучшие клиенты» может означать «лучшие по доходу, объёму или росту», и неверное толкование мгновенно подорвёт доверие пользователей.
- Недостаточная детализация: пользователи часто говорят расплывчато, спрашивая «покажите мне продажи», не уточняя временные рамки, степень детализации или аналитическую цель (например, тенденция по сравнению с общим показателем).
- Контекст, специфичный для предметной области: универсальный LLM может быть бесполезен для конкретного бизнеса, поскольку он не понимает внутреннего жаргона или специфической для компании бизнес-логики [16], [17].
Во-вторых, даже если инструмент даёт правильный ответ, он бесполезен в социальном плане, если пользователь не может ему доверять. Это проблема «чёрного ящика» , как уже упоминалось в истории с HR-партнёром. Поскольку HR-пользователь не смог объяснить «почему» за «что», идея была отвергнута. Эта «цепочка доверия» критически важна. Когда V-NLI превращается в непрозрачный чёрный ящик, пользователь превращается в «попугая данных», неспособного защитить цифры и делающего инструмент непригодным к использованию в любом важном деловом контексте.
Наконец, существует проблема «последней мили» технической и экономической целесообразности. Простой на первый взгляд вопрос пользователя (например, «покажите мне пожизненную ценность клиентов, участвующих в нашей последней кампании») может потребовать сверхсложного SQL-запроса из 200 строк, который ни один современный ИИ не способен надёжно сгенерировать. LLM-программы не являются панацеей от этой проблемы. Даже для того, чтобы быть хоть сколько-нибудь полезными, они должны быть обучены на специфичном для компании, подготовленном, очищенном и должным образом описанном наборе данных. К сожалению, это всё ещё требует огромных и регулярных расходов. Это приводит к самому важному выводу:
Единственный жизнеспособный путь вперед — гибридное будущее.
Неконтролируемый ящик для вопросов и ответов не годится.
Будущее V-NLI — это не универсальная, всемогущая степень магистра права (LLM); это гибкая степень магистра права (LLM) (по языку), работающая на основе жёсткой, тщательно подобранной семантической модели (для управления, точности и предметно-ориентированных знаний) [18], [19]. Вместо того, чтобы «убить» BI и информационные панели, LLM и V-NLI станут, наоборот, мощным катализатором. Они не заменят информационные панели или статические отчёты. Они их улучшат. Следует ожидать их интеграции в качестве пользовательского интерфейса следующего поколения, что значительно повысит качество и эффективность взаимодействия с данными.

Что принесет будущее?
Будущее взаимодействия с данными указывает на гипотетическую смену парадигмы, выходящую далеко за рамки простого поля поиска и превращающуюся в многомодальную агентскую систему . Представьте себе систему, которая работает скорее как соавтор, а не как инструмент. Пользователь, возможно, в гарнитуре дополненной или виртуальной реальности, может спросить: «Почему наша последняя кампания провалилась?» Тогда агент ИИ будет рассуждать обо всех доступных данных. Не только о базе данных продаж, но и о неструктурированных письмах с отзывами клиентов, самих изображениях рекламных креативов и журналах веб-сайта. Вместо простой диаграммы он будет заблаговременно представлять панель управления дополненной реальностью и предлагать прогнозное заключение, например: «Креатив плохо сработал с вашей целевой демографической группой, а показатель отказов целевой страницы составил 70%». Ключевым этапом эволюции является последний «агентский» шаг: система не остановится на понимании, а перекинет мостик к действию, возможно, сделав вывод:
Я уже проанализировал самые эффективные креативы второго квартала, составил новый A/B-тест и уведомил DevOps о проблеме с загрузкой страницы.
Хотите, чтобы я запустил новый тест? Да/Нет_
Как бы пугающе это ни звучало, это видение завершает эволюцию от простого «общения с данными» к активному «сотрудничеству с агентом по поводу данных» для достижения автоматизированного, реального результата [20].
Я понимаю, что последнее утверждение поднимает ещё больше вопросов, но, похоже, сейчас самое время остановиться и предоставить слово вам. Мне не терпится услышать ваше мнение по этому поводу. Реалистично ли такое будущее? Оно захватывающее или, честно говоря, немного пугающее? И действительно ли в этой продвинутой агентной системе это последнее человеческое «да» или «нет» действительно необходимо? Или это механизм безопасности, который мы всегда будем хотеть/должны сохранить? С нетерпением жду обсуждения.
Заключительные замечания
Итак, не оставит ли разговорное взаимодействие безработного аналитика данных — того, кто кропотливо пишет запросы и вручную строит диаграммы? Мой вывод таков: вопрос не в замене, а в переосмыслении.
Чисто «Звёздный путь» – концепция ящика, где можно задать любой вопрос, – невозможен. Он страдает от своей «ахиллесовой пяты» – неоднозначности человеческого языка и проблемы «чёрного ящика», которая разрушает доверие, необходимое для его функционирования. Следовательно, будущее – это не универсальная, всемогущая степень магистра права.
Вместо этого единственный жизнеспособный путь вперёд — это гибридная система, сочетающая гибкость LLM с жёсткостью курируемой семантической модели. Эта новая парадигма не заменяет аналитиков, а возвышает их. Она освобождает их от роли «водопроводчиков данных». Она даёт им возможность стать стратегическими партнёрами, работающими с новой мультимодальной агентной системой, которая наконец-то сможет преодолеть разрыв между данными, пониманием сути и автоматизированными действиями.
Ссылки
[1] Приянка Джайн , Хемант Дарбари , Вирендракумар К. Бхавсар , Вишит: визуализатор текста на хинди – ResearchGate
[2] Кристиан Спика , Катарина Шварц , Хольгер Даммерц , Хендрик Ленш , AVDT – Автоматическая визуализация описательных текстов.
[3] Скайлар Уолтерс , Артеа Вальдеррама , Томас Смитс , Дэвид Коуржил , Хуен Нгуен , Сехи Л'И , Девин Ланге , Нильс Геленборг , GQVis: набор данных, содержащих вопросы и визуализации геномных данных для генеративного ИИ
[4] Ришаб Митра , Арпит Наречания , Алекс Эндерт , Джон Стаско , Содействие разговорному взаимодействию в интерфейсах естественного языка для визуализации
[5] Шэнь Лэйсянь , Шэнь Энья , Ло Ююй , Ян Сяокун , Ху Сюмин , Чжан Сюншуай , Тай Чживэй , Ван Цзяньминь , На пути к интерфейсам естественного языка для визуализации данных: опрос – PubMed
[6] Эцем Каваз , Анна Пуиг , Инмакулада Родригес , Интерфейсы естественного языка на основе чат-ботов для визуализации данных: обзор
[7] Шах Вайшнави , Что такое разговорная аналитика и как она работает? – ThoughtSpot
[8] Тайлер Дай , Как работает разговорная аналитика и как ее применять – Тематический
[9] Апурва Верма , Разговорный BI для нетехнических пользователей: Делаем данные доступными и применимыми на практике
[10] Юст Олдфилд , За пределами панелей мониторинга: как разговорный ИИ трансформирует аналитику
[11] Хенрик Фойгт , Озге Алакам , Моник Мойшке , Кай Лавонн и Сина Заррис , «Почему и как: обзор взаимодействия естественного языка в визуализации»
[12] Цзяи Чжан , Саймон Ю , Дерек Чонг , Энтони Сицилия , Майкл Р. Томз , Кристофер Д. Мэннинг , Вэйян Ши , Вербализованная выборка: как смягчить коллапс мод и раскрыть разнообразие LLM
[13] Саадик Рауф Хан , Винит Чандак , Сугата Мукерджи , Оценка LLM для создания и понимания визуализации.
[14] Паула Мэддиган , Тео Сусняк , Chat2VIS: Создание визуализаций данных с помощью естественного языка с использованием ChatGPT, Codex и больших языковых моделей GPT-3 – SciSpace
[15] 6 лучших инструментов для аналитики разговорного ИИ
[16] Каковы проблемы и ограничения обработки естественного языка? – Tencent Cloud
[17] Арджун Шринивасан , Джон Стаско , Интерфейсы естественного языка для анализа данных с визуализацией: рассмотрение того, что было и может быть задано
[18] Сделают ли степени магистра права инструменты бизнес-аналитики устаревшими?
[19] Fabi.ai , Устранение ограничений традиционных инструментов бизнес-анализа для комплексного анализа
[20] Сарфраз Наваз , Почему разговорные агенты ИИ заменят панели мониторинга бизнес-аналитики в 2025 году
[*] Аналогия со «Звёздным путём» была создана в ChatGPT и может неточно отражать действия персонажей сериала. Я не смотрел его уже лет 30 😉 .
Источник: towardsdatascience.com



























