Я был свидетелем споров по поводу того, представляет ли анализ больших данных нечто новое. Помню, как в ходе жарких дебатов утверждал, что в обнаружении больших данных нет ничего нового. Чтобы положить конец спорам, я показал своим оппонентам модель межотраслевого стандартного процесса анализа данных (Cross Industry Standard Process for Data Mining, CRISP-DM), разработанную в 1990-х гг. Модель CRISP-DM описывает основные шаги в классическом процессе анализа данных. Я поместил схему процесса CRISP-DM рядом с предложенной схемой процесса обнаружения больших данных. Также нарисовал таблицу, где сопоставил отдельные этапы каждого процесса. Один из моих оппонентов, ранее утверждавший, что это были разные процессы, воскликнул: «Постой, Билл, но это практически то же самое!» Наконец-то они поняли мою точку зрения. Да, слегка были изменены термины и семантика, но фундаментально «новый» процесс ничем не отличался от «старого». В таблице 7.1 показано сходство фаз этих двух моделей, тогда как на рис. 7.1 представлена схема типового аналитического рабочего процесса.
Еще одна популярная парадигма – модель SEMMA, разработанная компанией SAS Institute{62}
. Аббревиатура SEMMA расшифровывается как sample (отобрать), explore (исследовать), modify (модифицировать), model (моделировать) и assess (оценить). На веб-странице SEMMA говорится: модель предполагает, что бизнес-задача уже определена, а внедрение рассматривается как дополнение завершающей фазы. И снова обратите внимание на то, что эта модель мало чем отличается от модели CRISP-DM и модели обнаружения больших данных, как это можно увидеть в таблице 7.1.Тот факт, что разные модели аналитических рабочих процессов, разработанные в разные годы и с использованием разных подходов, столь схожи между собой, свидетельствует о том, что, перефразируя слова великого Шекспира, в аналитическом безумии есть свой метод. Переход к аналитике больших данных, операционной аналитике или к следующему феномену будет опираться на знания, которыми уже обладают организация и ее команды.
От пакетной аналитики к операционной
Давайте начнем с рассмотрения сходства и несходства между традиционной пакетной аналитикой и операционной аналитикой. Во-первых, и операционная, и пакетная аналитика требуют значительных усилий по подготовке и проверке качества данных. Например, если требуется оценить риск ухода клиента, вероятность продажи продукта или риск отказа двигателя в течение нескольких следующих минут, то нужно будет получить необходимые данные, проверить их качество и подготовить правильные метрики для поддержки требуемого анализа.
Операционная аналитика сосредоточена на обработке данных и принятии решений в режиме реального времени и, как правило, применяется к конкретному клиенту, продукту или двигателю именно в тот момент, когда это необходимо. Тем самым она отличается от пакетной аналитики, где данные по всем клиентам, продуктам или двигателям анализируются одновременно в виде единого пакета и в произвольное время. Во многих случаях аналитические методы, используемые при операционном вводе данных, идентичны тем, что используются при традиционной пакетной обработке. Разница состоит лишь в том, как выполняются и применяются эти процессы.
Например, те же самые алгоритмы, что использовались с целью прогнозирования следующего лучшего предложения для всех клиентов при пакетном анализе, могут использоваться и с целью прогнозирования следующего лучшего предложения для конкретного клиента, который прямо сейчас просматривает веб-сайт. Разница в том, что процесс генерации предложения для клиента в режиме реального времени опирается на самые свежие данные. Разумеется, в некоторых случаях операционно-аналитические процессы потребуют абсолютно новую аналитику, у которой не существует исторических аналогов. Возьмите, например, процессы, регулирующие угол наклона лопастей ветряных турбин с целью увеличения их мощности в зависимости от окружающих условий, о чем мы говорили в третьей главе.
Вы не можете наладить производство миллионов штук печенья с шоколадной крошкой без рецепта и налаженного производственного процесса. Рецепт можно будет разработать, а процесс наладить путем тестирования на мелких партиях. Аналогичный подход применяется и в операционной аналитике. Сначала нужно создать работающий базовый процесс, а уже затем превращать его в операционный.