Они попросили. Я построил. Но никто им так и не воспользовался.
Почему качественная работа с данными игнорируется после завершения проекта.
Делиться

Заинтересованные стороны обратились к нам с просьбой предоставить модель.
Мы создали прототип. Получили одобрение. Представили модель.
Недели работы… и всё, чтобы не услышать ни слова.
Это история стара как мир, и она преследует специалистов по работе с данными повсюду, от аналитиков до инженеров машинного обучения.
Итак, что же произошло?
Ваша модель — загадка.
Наша профессия основана на современной информатике и технологических достижениях. Многие из самых мощных решений, доступных нам сегодня, были бы слишком ресурсоемкими с точки зрения вычислений еще несколько десятилетий назад. Зависимость от новейших, самых совершенных технических разработок порождает скептицизм.
В науке о данных у нас есть возможность создавать невероятно сложные модели. Только у моей команды в библиотеке признаков хранятся сотни стандартных признаков, которые мы предоставляем для каждой новой модели. Мы настраиваем десятки гиперпараметров и используем мощные алгоритмы, которые итерируются в течение сотен запусков, чтобы максимизировать точность прогнозирования. Этот процесс позволяет создавать модели с невероятной точностью, но имеет свою цену: объяснимость.
Существует тонкая грань между качественной моделью и «чёрным ящиком», который не могут объяснить даже те, кто его создал.
Компромисс между объяснимостью и точностью является важным фактором в моей отрасли, в частности, в здравоохранении. Клиентами и заинтересованными сторонами часто являются врачи и клиницисты. Эти врачи привыкли принимать клинические решения, опираясь на свой многолетний опыт и глубокие знания в медицине. Хотя прогностическая модель может хорошо предсказывать определенный результат, если ее нельзя хорошо объяснить, клиницисты будут сомневаться в ее надежности. Если врачам приходится выбирать между проверенным и надежным клиническим процессом и моделью «черного ящика» с загадочными характеристиками и необъяснимыми алгоритмами, они, скорее всего, всегда выберут клинический процесс.
Итак, что можно сделать, чтобы этого избежать? Я добиваюсь наибольшего успеха, предоставляя клиентам легко усваиваемое описание модели. Это набор слайдов, которые знакомят клиентов с моделью. Он начинается с определения целевой аудитории, целевой группы, характеристик, а затем заканчивается демонстрацией производительности и валидацией концепции. По ходу дела я обязательно определяю метрики с точки зрения бизнес-вопроса, ставя себя на место клиента. Я избегаю чисто статистических терминов и основываю определения на целях клиента. Если модель сложная, я придерживаюсь высокоуровневых объяснений алгоритма и обязательно объясняю, почему я выбрал такой обширный набор функций (или такой простой). Разработка всеобъемлющего описания модели — это важный шаг, позволяющий клиентам понять модель, используя термины, с которыми они знакомы.

Ваше решение заняло слишком много времени.
Создание работающих моделей требует времени. От переписки с клиентами до неожиданных поворотов, которых вы не ожидали, разработка эффективной и полезной модели — задача не из легких. А затем следует развертывание. Это целый отдельный процесс.
Реальный мир не ждет своего часа. Клиенты живут своей повседневной жизнью, используя инструменты, которые уже есть в их распоряжении. Инструменты, существовавшие еще до того, как они обратились к вам за помощью. Если создание модели займет слишком много времени, они могут вообще отказаться от этой идеи или найти креативные решения, не связанные с прогностическими моделями.
В здравоохранении мы постоянно сталкиваемся с подобным. Заинтересованные стороны запрашивают модель. После нескольких препятствий (задержка связи с заказчиками, проблемы с доступом к данным, ошибки развертывания и т. д.) недели разработки растягиваются на месяцы. Наконец, вы готовы представить результаты после того, как все проверено и работает как ожидалось. Вы пытаетесь назначить встречу и получаете разочарование: «Нам больше не нужна эта модель, мы сами все придумали». Больница – это динамичная среда. У персонала нет времени сидеть и ждать месяцами. Они могут и будут придумывать креативные решения для улучшения качества медицинской помощи пациентам, даже если это означает отказ от использования современной прогностической модели.
На работе я руководствуюсь поговоркой: «Не позволяйте стремлению к совершенству мешать достижению хорошего». Разрабатывайте быстро. Генерируйте идеи, совершенствуйте, анализируйте… но всегда двигайтесь вперед. Стремление к совершенству может помешать вам предоставить ценные идеи. Мир меняется быстро, и если вы слишком долго застрянете на этапе разработки, мир продолжит развиваться без вас. Поэтому продвигайте версию 1. Если позже вы найдете лучший способ решения задачи, он может стать первым в вашем списке улучшений для версии 2. Практически всегда какое-то решение лучше, чем его отсутствие.

Если дела идут медленнее, чем планировалось, необходимо как можно чаще и заблаговременно связываться с клиентами. Держите их в курсе прогресса и предоставляйте им предварительные обзоры, чтобы поддерживать их интерес и желание увидеть конечный продукт. Не торопитесь, пока вы работаете над созданием первой версии и не даёте её клиентам.
Ваша модель непроста для восприятия.
Создание хорошей прогностической модели — это только половина дела. В большинстве отраслей заинтересованные стороны заняты. В здравоохранении врачи и медсестры буквально завалены работой по уходу за пациентами. Если команда специалистов по анализу данных представит свою новейшую, наиболее точную модель команде, работающей непосредственно в медицинском учреждении, но доступ к прогнозам усложнит их рабочий процесс и замедлит его, модель никогда не будет использована. То же самое наблюдается в большинстве отраслей. Заинтересованные стороны хотят решений, которые могут повысить эффективность, производительность и продуктивность, а не тех, которые только усложняют их и без того напряженный рабочий день.
Если прогнозы вызывают трения, вы прокладываете путь к отказу, а не к принятию.
Создание удобных для восприятия прогнозов может стать одной из самых больших проблем для специалистов по анализу данных. Мы можем уметь создавать точные и достоверные модели, но интеграция этих моделей в повседневную жизнь клиентов дается нам не так легко. В этом случае речь идет не столько о цифрах, вероятностях и статистических знаниях, сколько об операционной деятельности, бизнес-знаниях и знакомстве с повседневными процессами заказчиков.
В больничной среде это выглядит как интеграция с Epic, системой электронных медицинских карт, используемой повсеместно. Вместо того чтобы затруднять работу занятых врачей, заставляя их входить в отдельную систему для просмотра прогнозов, они могут получать к ним доступ прямо в медицинских картах пациентов, наряду с другими клиническими инструментами и данными о пациентах. В других отраслях применяется та же идея. Не нужно нарушать существующий процесс. Нужно вписаться в него.

Подведение итогов
Одно из самых больших разочарований, с которым может столкнуться специалист по анализу данных за свою карьеру, — это то, что его тяжелый труд остается невостребованным. Это случается чаще, чем хотелось бы думать, и легко обвинить в этом клиента. В конце концов, это проще для самолюбия.
В действительности, на каком-то этапе разработки специалисты по анализу данных могли упустить из виду важные элементы. Знание распространенных ошибок может помочь специалистам довести свои модели до конца. А настоящий конец – это внедрение.
Хайден Кастенс Посмотреть все работы Хайден Кастенс
Источник: towardsdatascience.com

Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.