Организациям следует внедрять набор нереляционных инструментов когда это уместно, но ни в коем случае нельзя предполагать, что при этом отпадет необходимость в использовании наряду с ними и SQL. Ведь так легко впасть в противоположную крайность, и многие организации сегодня подвергаются риску поступить именно так. Но, хотя в течение нескольких лет многие эксперты провозглашали смерть SQL, вследствие массовой перемены мнений сейчас возникло сильное движение за внедрение функциональности в стиле SQL в широкий спектр нереляционных платформ, таких как Hadoop. В очередной раз мы возвращается назад в будущее. Подробнее об этом тренде и о том, как правильно выбрать тип обработки, мы поговорим в пятой и шестой главах.
Большие данные следуют кривой зрелости
Многие люди жалуются мне на то, что большие данные их подавляют. Существует так много новых источников данных и так много новых возможностей применения этих данных, что организации попросту не знают, как с ними справиться и с чего начать. Прежде чем отчаиваться, подумайте о том, что большие данные следуют той же кривой зрелости, что и любой новый источник данных{21}
. Такова жизнь, что, когда появляется новый источник данных, он всегда представляет собой вызов. Люди не знают в точности, как наилучшим образом использовать эти новые данные, какие метрики создать на их основе, какие проблемы с качеством данных могут возникнуть, и т. д. Однако с течением времени работа с этим источником нормализуется.Много лет назад, когда я со своей командой впервые занялся анализом данных с точек продаж (point-of-sale, POS), мы тоже не знали, как лучше их использовать в целях анализа покупательского поведения и улучшения результатов в бизнесе. О том, чтобы применить к POS-данным операционную аналитику, мы тогда и помыслить не могли. У нас было множество теорий и идей, но ни одна из них на тот момент не была проверена на практике. Разумеется, мы не располагали никакими стандартизированными подходами к вводу, подготовке и анализу этих данных. Со временем в процессе регулярного анализа POS-данных все эти аспекты были стандартизированы. Сегодня использование POS-данных считается простым делом и применяется для решения широкого круга задач.
Новые источники данных всегда пугают, когда мы впервые начинаем их анализировать. Но со временем наше понимание их крепнет, и нам становится удобно с ними работать. Такой же процесс вызревания произойдет и с большими данными. Ситуация с ними кажется более пугающей, чем обычно, только лишь потому, что нам приходится одновременно иметь дело со множеством новых источников.
Организациям предстоит пройти одним и тем же путем познания каждого нового источника данных (см. рис. 2.7). Принципиальное отличие сегодняшней ситуации состоит в том, что в прошлом организация получала доступ к действительно новому и уникальному источнику данных раз в несколько лет, тогда как в эпоху больших данных она может получить доступ сразу ко множеству таких источников.
Сегодня перед профессиональными аналитиками может стоять задача одновременно наладить анализ в таких областях, как взаимодействие в социальных сетях, взаимодействие по обслуживанию клиентов, веб-поведение клиентов, сенсорные данные и т. д. Иногда требуется использовать все эти данные в одном аналитическом процессе. В таком случае множественные новые источники, следующие кривой зрелости, применяются все вместе. Сделать это гораздо сложнее, чем в случае с одним лишь новым источником. Ситуация усугубляется тем, что необходимо представлять себе не только как обращаться с каждым источником данных, но и как соединить их вместе (мы обсуждали это выше),
Помните, что работа с новыми данными всегда сложна и всегда поначалу пугает. На этом пути вам всегда придется преодолевать ухабы, но неизбежно со временем процесс ввода и анализа данных будет в основном стандартизирован – и станет для вас простым делом. Затем вы сможете перейти к следующему новому источнику данных. Именно так произойдет и уже происходит с большими данными сегодня.
Большие данные как глобальный феномен