Ваша организация должна начать процесс освоения больших данных уже сейчас. Пока что, если вы до сих пор игнорировали большие данные, то лишь упустили возможность быть в авангарде. Сегодня вы еще можете оказаться впереди всех. А если будете оставаться в стороне, через несколько лет окажетесь далеко позади. Если ваша организация уже занимается сбором данных и использует анализ в процессе принятия решений, то переход к большим данным не будет проблемой. Это просто расширение той деятельности, которой вы занимаетесь сегодня.
Фактически решение об использовании больших данных не должно стать проблемой. Большинство организаций уже подходят к сбору и анализу данных как к одной из основных частей своей стратегии. Хранилища данных, отчетность и анализ используются повсеместно. Если организация понимает, что данные представляют собой ценность, работа с большими данными будет лишь расширением ее деятельности. Не позволяйте скептикам убедить вас в том, что исследование больших данных не стоит затраченных усилий, или что их ценность еще не доказана, или что это слишком рискованно. Те же самые доводы помешали бы прогрессу, достигнутому за последние несколько десятилетий в области анализа данных. Обратите внимание сомневающихся на то, что работа с большими данными – это лишь продолжение того, что организация уже делает. Большие данные не представляют собой чего-то принципиально нового, и их не следует бояться.
Структура больших данных
В этой книге часто говорится о том, что данные могут быть структурированными, неструктурированными, полуструктурированными или даже мультиструктурированными. Большие данные нередко описываются как неструктурированные, а традиционные данные – как структурированные. Однако границы между ними не столь ясны, как можно понять из названия. Рассмотрим три типа структуры данных с точки зрения неспециалиста. Технические детали выходят за рамки данной книги.
Б
Источники неструктурированных данных – а к ним относятся текстовые данные, видео– и аудиоданные – вы не можете контролировать. Вы получаете то, что получаете. Изображение подразумевает такой формат, при котором отдельные пикселы располагаются в строках, однако их взаимное расположение, определяющее то, что видит зритель, существенно различается в каждом конкретном случае. Приведенные примеры источников больших данных относятся к совершенно неструктурированным. Однако значительная часть данных относится к категории полуструктурированных.
Полуструктурированные данные подразумевают логическую схему и формат, который может быть понятным, но недружественным к пользователю. Иногда полуструктурированные данные называются мультиструктурированными. В потоке таких данных кроме ценных фрагментов информации может присутствовать множество ненужных и бесполезных данных. Чтение полуструктурированных данных с целью их анализа вовсе не так же просто, как файла определенного формата. Чтобы прочитать полуструктурированные данные, необходимо использовать сложные правила, которые динамически определяют, что следует делать после чтения каждого фрагмента информации.
Логи, собираемые в журнальных файлах, – прекрасный пример полуструктурированных данных. Они выглядят довольно уродливо, однако каждый фрагмент информации служит определенной цели. Служит ли любой из фрагментов журнала именно вашей цели – это совсем другой вопрос. На рис. 1.1 изображен пример необработанных данных интернет-журнала.
Рис. 1.1. Пример необработанных данных интернет-журнала