Читаем Наука о данных. Базовый курс полностью

Наука о данных. Базовый курс

<p>Проектные принципы науки о данных: почему одни проекты успешны, а другие нет</p></span><span>

Порой проекты науки о данных терпят неудачу, поскольку не оправдывают ожиданий, увязают в технических или политических вопросах, не приносят полезных результатов и, как правило, после этого больше не запускаются. Подобно утверждению о счастливых семьях Льва Толстого[34], успех проекта науки о данных зависит от ряда факторов. Успешные проекты требуют целенаправленности, хорошего качества данных, нужных людей, готовности экспериментировать с несколькими моделями, интеграции в архитектуру и процессы ИТ-бизнеса, поддержки со стороны высшего руководства и признания организацией необходимости регулярного пересмотра моделей в силу меняющегося мира. Сбой в любом из этих аспектов может привести к провалу всего проекта. Далее мы подробно опишем общие факторы, влияющие на успешность проектов науки о данных, а также типичные причины, которые приводят к их провалу.

Фокусировка. Каждый успешный проект науки о данных начинается с четкого определения проблемы, которую он должен помочь решить. Этот шаг подсказывает обычный здравый смысл — проекту сложно достичь успеха, если у него нет четкой цели. Наличие четкой цели определяет решения относительно того, какие данные и алгоритмы машинного обучения использовать, как оценивать результаты, как будут применяться анализ и развертываться модели и когда может потребоваться повторный процесс для обновления моделей.

Данные. Точно сформулированная задача позволяет определить, какие данные необходимы для проекта. Ясность в этом вопросе помогает направить проект туда, где эти данные находятся. Если какие-то данные в настоящее время недоступны, следует запустить вспомогательные проекты, которые изучат возможность сбора и доступность этих данных. При этом крайне важно обеспечить их высокое качество. Потеря качества данных может произойти в силу плохо спроектированных приложений или плохих моделей, имеющихся у организации, персонала, не обученного правильно вводить данные, или по иным причинам. На самом деле существует масса факторов, которые снижают качество данных в системах, а потребность в данных хорошего качества настолько важна, что некоторые организации нанимают специалистов, которые постоянно проверяют данные, оценивая их качество и внося предложения о его улучшении. Без качественных данных добиться успеха трудно.

Прежде чем привлекать сторонние источники данных, стоит проверить, какие данные уже собраны и используются в организации. К сожалению, подход некоторых наукоемких проектов заключается в том, чтобы сразу взять доступные данные из транзакционных баз или других источников, очистить и интегрировать их, а затем приступить к исследованию и анализу. Такой подход полностью игнорирует группу бизнес-аналитики и возможное наличие хранилища данных. Во многих организациях бизнес-аналитики и специалисты по организации хранилища данных уже собирают, очищают, трансформируют и интегрируют данные организации в один центральный репозиторий. Если хранилище уже существует, то, вероятно, оно содержит все или бо́льшую часть данных, необходимых для проекта, что может сэкономить значительное время на их интеграцию и очистку. Кроме того, в хранилище будет гораздо больше данных, чем в текущих транзакционных базах. Используя хранилище данных, можно вернуться на несколько лет назад и построить прогнозные модели, а затем прокрутить их на разных временных периодах и измерить уровень точности прогнозов для каждой из моделей. Это позволяет отслеживать изменения в данных и их влияние на модели. Кроме того, можно отслеживать, как эти изменения происходят и развиваются с течением времени. Использование такого подхода облегчает демонстрацию поведения моделей в долгосрочном периоде, что помогает укрепить доверие клиентов. Например, в одном проекте на основе пятилетних исторических данных из хранилища было продемонстрировано, как именно компания могла сэкономить более $40 млн за этот период.

Читаем Наука о данных. Базовый курс полностью

Наука о данных. Базовый курс

Похожие книги

Все жанры