Как наука о данных может помочь руководителям проектов предвидеть риски и экономить время
Делиться

Ситуация, которая случается с каждым менеджером проекта: начинается совещание, и вдруг критически важный тикет блокируется, разработчик берёт больничный, зависимость нарушается или ключевая функция задерживается. В одно мгновение ваш тщательно спланированный график начинает рушиться, и вы лихорадочно ищете решения.
В этой статье мы рассмотрим, как модель машинного обучения предсказала 41% задержек проектов до того, как они достигли графика, что позволило сократить расходы и уменьшить количество спекуляций в последнюю минуту.
Проблема: 62% ИТ-проектов не будут реализованы в срок в 2025 году.
Работая руководителем проектов с Agile-командами, я часто сталкивался с задержками и препятствиями, которые быстро стали частью повседневной жизни. Но когда я наткнулся на исследование Wellington State of Project Management за 2025 год, которое показало, что в 2025 году 62% ИТ-проектов не соблюдают сроки, это меня поразило и заставило действовать. Это больше, чем в исследовании PMI Pulse of the Profession за 2017 год, где этот показатель составлял 51% . Задержки проектов достигают критического уровня.
Я знаю, что задержки — обычное дело, но я не предполагал, что они будут настолько значительными. Но сегодня у нас есть инструменты, позволяющие предвидеть и лучше понимать эти риски. Используя Python и Data Science, я построил модель для прогнозирования задержек в проектах до их возникновения.
Эта статистика подчёркивает два важных момента: задержки часто возникают по повторяющимся причинам и оказывают серьёзное влияние на бизнес. В этой статье мы рассмотрим, как подходы, основанные на данных, позволяют выявить эти причины и помочь руководителям проектов предвидеть их.

Обладая этими знаниями, мы можем выбрать наилучший курс действий.
Именно здесь нам пригодится наука о данных. Удивительно, но в отчёте Wellington State of Project Management за 2020 год говорится, что только 23% компаний используют программное обеспечение для управления проектами, хотя эти инструменты генерируют огромное количество ценных данных.
Анализируя информацию из проектных заявок, мы можем создавать прогностические модели машинного обучения, которые выявляют потенциальные риски до того, как они обострятся.
Именно это я и сделал: я проанализировал более 5000 заявок не только из моего текущего проекта, но и из прошлых инициатив.
Оказывается, программное обеспечение для управления проектами — это невероятный источник данных, который только и ждет, чтобы его использовали.
Пробел в данных в управлении проектами
В традиционном управлении проектами отчетность играет центральную роль, однако немногие отчеты предлагают всеобъемлющую, подробную ретроспективу проекта в целом.

Например, в Scrum мы отслеживаем нашу скорость, следим за динамикой нашей диаграммы выработки и измеряем количество завершенных очков истории.
Традиционная отчётность всё ещё не даёт нам полной картины. Наука о данных может.
Как руководители проектов, мы можем по опыту знать, где находятся критические точки, но подтверждение этих предположений данными делает наши решения гораздо более надежными.

Создание набора данных
Чтобы исследовать эту идею, я проанализировал 5000 тикетов Jira — один из самых полных доступных источников данных по проектам.
Поскольку реальные данные по проекту не всегда могут быть доступны для совместного использования, я создал синтетический набор данных на Python, который отражает реальность, включая ключевые переменные, такие как приоритет, баллы истории, размер команды, зависимости и задержка.
Код автора
Создав реалистичный набор данных, мы теперь можем изучить содержащиеся в нём различные профили тикетов. Это подготавливает почву для нашего исследовательского анализа данных.

Большинство тикетов имеют низкий или средний приоритет, что соответствует обычной структуре бэклогов проектов. Такое первоначальное распределение уже подсказывает, где могут накапливаться риски, и мы подробнее рассмотрим этот вопрос в EDA.

Хотя заявки с высоким и критическим приоритетом составляют меньшую долю от общего числа, вероятность их задержки непропорционально выше.

Эта столбчатая диаграмма подтверждает этот феномен: тикеты с высоким приоритетом тесно связаны с задержками. Однако это может быть обусловлено двумя различными причинами:
- Билеты с высоким приоритетом по своей природе более сложные и, следовательно, подвержены большему риску задержки.
- Некоторые заявки становятся высокоприоритетными только потому, что изначально были отложены, создавая порочный круг эскалации.
Благодаря этому смоделированному набору данных мы теперь имеем реалистичную картину того, что происходит в реальных проектах: тикеты различаются по размеру, зависимостям и сложности, и некоторые из них неизбежно задерживаются. Это отражает повседневные проблемы, с которыми сталкиваются руководители проектов.
Следующий шаг — выйти за рамки простых подсчётов и выявить скрытые в данных закономерности. С помощью разведочного анализа данных (EDA) мы можем проверить наши предположения: действительно ли более высокие приоритеты и большее количество зависимостей увеличивают вероятность задержек? Давайте выясним.
Исследовательский анализ данных (EDA)
Прежде чем перейти к моделированию, важно сделать шаг назад и визуализировать взаимодействие переменных. Исследовательский анализ данных (EDA) позволяет нам выявлять закономерности в:
- Как задержки меняются в зависимости от приоритета.
- Влияние зависимостей.
- Распределение очков истории.
- Типичные размеры команд, занимающихся обработкой билетов.

Эта диаграмма подтверждает ключевую интуицию: чем выше приоритет, тем больше вероятность задержки .
Зависимости усиливают этот эффект: чем их больше, тем выше шанс, что что-то ускользнет.
Как только возникает задержка или риск задержки, механизмы эскалации еще больше повышают приоритет, создавая цикл обратной связи.
Наконец, играет роль и сложность билета, добавляя еще один уровень неопределенности.

Большинство тикетов относятся к категории среднего риска . Они требуют наибольшего внимания со стороны менеджеров проектов: хотя изначально они не критичны, их риск может быстро возрасти и привести к задержкам.
Билеты с высоким уровнем риска , хотя их и меньше, оказывают непропорционально большое влияние, если их не устранить на ранней стадии.
Между тем, заявки с низкой степенью риска обычно требуют более мягкого мониторинга, что позволяет менеджерам сосредоточить свое время на том, что действительно важно.
Мы также заметили, что большинство билетов имеют небольшой размер баллов , а команды обычно состоят примерно из пяти человек .
Это говорит о том, что гибкие практики в целом соблюдаются.
Теперь пойдем дальше и рассмотрим распределение оценок риска по тикетам.

Мы видим, что лишь небольшая часть заявок имеет очень высокий уровень риска, в то время как большинство находится в зоне среднего риска. Это означает, что, сосредоточившись на наиболее рискованных заявках на ранних этапах, менеджеры проектов могут предотвратить множество задержек.
Чтобы проверить это предположение, давайте теперь рассмотрим, как сложность на человека и приоритет взаимодействуют с оценками риска.

Мы не можем проследить здесь чёткой тенденции. Оценка риска, по-видимому, не сильно зависит ни от сложности, ни от приоритета тикета, что позволяет предположить, что задержки могут быть вызваны другими скрытыми факторами.
Техническое погружение: прогностическая модель
Необработанные данные обеспечивают прочную основу, но для построения действительно надёжной модели необходимы знания предметной области. Чтобы лучше отражать динамику реальных проектов, мы разработали новые функции, отражающие реалии управления проектами:
- Сложность на человека = баллы истории/размер команды.
- Имеет зависимость = зависит ли билет от других (зависимости > 0).
- Взаимодействие с приоритетными очками истории = уровень приоритета, умноженный на очки истории.
Код автора

Мы выбрали модель случайного леса, поскольку она может обрабатывать нелинейные зависимости и дает представление о важности признаков.
Наше основное внимание сосредоточено на полноте для положительного класса (1 = задержано). Например, полнота 0,6 будет означать, что модель правильно идентифицирует 60% всех действительно задержанных заявок.
Цель — не идеальная точность, а раннее обнаружение . В управлении проектами лучше предупредить потенциальные задержки, даже если есть ложные срабатывания, чем пропустить критические проблемы, которые могут сорвать весь проект.
Код автора

Модель достигла показателя полноты 0,41 , что означает, что она успешно обнаружила 41% задержанных билетов .
Это может показаться скромным. Однако в контексте управления проектами даже такой уровень раннего оповещения ценен. Он даёт руководителям проектов действенные сигналы для прогнозирования рисков и разработки мер по их снижению.
Дальнейшее усовершенствование модели позволит прогнозировать больше задержек и предотвращать проблемы до их возникновения.
Мы воспользуемся матрицей неточностей , чтобы лучше понять сильные и слабые стороны модели.
Код автора

Модель правильно идентифицирует 169 задержек , но также генерирует 373 ложных срабатывания , когда задачи помечаются как задержанные, хотя на самом деле завершаются вовремя. Для руководителя проекта такой компромисс приемлем, поскольку лучше расследовать несколько ложных срабатываний, чем пропустить критическую задержку. Это часть управления рисками .
Однако модель по-прежнему пропускает 245 задержанных билетов , что означает, что ее прогнозы далеки от совершенства.
В целом, эта модель наилучшим образом подходит для системы раннего оповещения . Она обеспечивает ценные сигналы, но всё ещё нуждается в дальнейшем обучении и совершенствовании. Самое главное, её следует дополнить экспертными знаниями , суждениями и опытом руководителей проектов, чтобы обеспечить полный и надёжный обзор проекта.
Интерпретируемость модели, оценка, влияние на бизнес, панель управления и проверка модели
Чтобы по-настоящему понять, почему модель делает такие прогнозы, нам нужно заглянуть под капот. Какие особенности больше всего повышают риск задержки? Именно здесь вступает в игру интерпретируемость модели .
Код автора

Мы можем наблюдать, что сложность и взаимодействие приоритетных сюжетных точек являются наиболее сильными факторами, влияющими на точность прогнозов.
Оценка билетов: определение того, что действительно находится под угрозой.
Почему это важно для руководителей проектов? Потому что мы можем пойти ещё дальше.
Рассчитайте оценку риска для каждого тикета.
Эта оценка показывает, какие задачи подвержены наибольшему риску, что позволяет руководителям проектов сосредоточить свое внимание на наиболее важных моментах и принять превентивные меры до того, как задержки возрастут.
Код автора

Анализ влияния на бизнес.
Заявки с наивысшими показателями риска подтверждают тенденцию: только высокоприоритетные и критически важные задачи несут в себе наибольший риск .
Это понимание важно не только для управления сроками проекта, но и для оценки его финансового влияния на бизнес . Задержки не только замедляют реализацию проекта, но и увеличивают затраты, снижают удовлетворенность клиентов и поглощают ценные ресурсы команды.
Чтобы количественно оценить это, мы можем оценить ценность прогнозов для бизнеса, смоделировав, каких затрат можно избежать, если мы прогнозируем риски и принимаем превентивные меры.
Код автора

Исходные данные показывают, что 27,6% заявок задерживаются. Но что, если бы менеджеры проектов могли сосредоточиться только на самых рискованных 20%? Теперь мы смоделируем это целенаправленное вмешательство и посмотрим, насколько оно эффективно.
Код автора

Мы выявили 1021 высокорискованный тикет, что составляет около 20% от всех задач. Из них 516 (50,5%) фактически задерживаются. Другими словами, только эти несколько тикетов обуславливают примерно 10% от общего числа задержек по проектам.
Чтобы конкретнее представить это воздействие, мы переведем его в бизнес-сегмент на примере проекта среднего размера стоимостью 100 000 долларов США. Применяя превентивные меры к этим высокорискованным тикетам, мы можем оценить потенциальную экономию средств.
Код автора

Приняв меры на ранней стадии, мы смогли сэкономить 9270 долларов, что составляет почти 10% от общей стоимости проекта . Это не просто снижение рисков, это прямое преимущество для бизнеса.
Панель управления PM
Чтобы сделать эти выводы практическими, мы также можем создать панель управления проектами . Она даёт представление о состоянии спринта в режиме реального времени со всеми ключевыми показателями эффективности, необходимыми для отслеживания прогресса, прогнозирования рисков и поддержания полного обзора проекта.
Код автора

Проверка модели
Мы проверили устойчивость модели с помощью 5-кратной перекрёстной проверки. В качестве основной метрики была выбрана полнота, поскольку в управлении проектами важнее выявлять потенциальные задержки, чем максимизировать общую точность.
Код автора

Оценки полноты по всем сгибам варьировались от 0,39 до 0,42. Это означает, что модель далека от безупречной, но она стабильно выявляет около 40% задержек — ценное раннее предупреждение, помогающее руководителям проектов принимать меры до того, как проблемы перерастут в нечто большее.
Заключение
В заключение следует отметить, что данная статья показала, как наука о данных может помочь сделать проекты более гладкими, обеспечивая более четкое понимание причин задержек.
Данные не заменяют интуицию руководителя проекта, но усиливают ее, подобно тому, как если бы пилот получил более совершенные инструменты для точной навигации и лучшего представления о том, что происходит.
Прогнозируя риски и выявляя рискованные заявки, мы можем сократить задержки, предотвратить конфликты и в конечном итоге обеспечить большую ценность.
Руководителям проектов стоит освоить науку о данных. Сегодня существует два типа руководителей проектов: традиционные и управляемые данными. Они не соревнуются в одной лиге.
Наконец, эти навыки не ограничиваются управлением проектами. Они распространяются на управление продуктами и бизнес-анализ. Изучение SQL или Python расширит ваши возможности взаимодействия с разработчиками, понимания эффективности продукта и эффективного взаимодействия на всех уровнях компании.

Урок для руководителей проектов
Сколько наших проектных решений основано на так называемых «лучших практиках», которые на самом деле являются непроверенными предположениями? Будь то расписание встреч, структура команды или методы коммуникации, данные могут помочь нам бросить вызов своим предубеждениям и найти то, что действительно работает.
В зависимости от организации анализ может быть более глубоким: группировка заявок по фазе проекта, области или заинтересованным сторонам может выявить скрытые узкие места и системные проблемы.

Например, скорость часто падает на этапе контроля качества. Может быть, это связано с низкой эффективностью специалистов по контролю качества? Вовсе нет. Они отлично справляются со своей работой. Настоящая проблема — это постоянное взаимодействие с разработчиками: уточнение тикетов, выяснение того, как должно проводиться тестирование, или запрос недостающей информации.
Чтобы решить эту проблему, мы внедрили простой процесс: теперь разработчики добавляют более чёткие данные о тестировании в тикет и тратят пять минут на быструю передачу данных отделу контроля качества. Эта небольшая экономия времени повысила производительность и скорость работы команды более чем на 15%.
Кто я?
Меня зовут Ясин, я менеджер IT-проектов. Я решил изучить Data Science, Python и SQL, чтобы преодолеть разрыв между потребностями бизнеса и техническими решениями. Этот опыт научил меня, что самые ценные идеи для проектов возникают, когда экспертные знания в предметной области сочетаются с подходами, основанными на данных. Давайте общаться на LinkedIn.
Источник: towardsdatascience.com



























