Давайте рассмотрим сценарий, когда данные остаются крайне важными только на протяжении определенного периода времени. Железнодорожники устанавливают на рельсах датчики для измерения скорости проходящих поездов. Недавно я узнал, что они также измеряют температуру вагонных колес. Если груз в вагоне несбалансирован и смещается в одну сторону, то вагон начинает перекашиваться. С этой стороны давление груза возрастает, что увеличивает трение, которое, в свою очередь, ведет к большему нагреванию колес. Когда они нагреваются выше определенной температуры, индикатор указывает на серьезный дисбаланс и возможный сход вагона с рельсов. Железнодорожники отслеживают температуру колес в режиме реального времени, когда поезд движется. При нагревании колесной пары выше установленного уровня поезд останавливается и к нему направляется бригада рабочих, чтобы проинспектировать состояние вагона и зафиксировать груз. Это экономит железнодорожным компаниям в перспективе массу денег, поскольку сход состава с рельсов обернется дорогостоящей, а подчас и смертоносной катастрофой.
Теперь обратимся к данным о температуре колес и подумаем, на протяжении какого времени они сохраняют свою ценность. Предположим, что состав должен проехать более 3000 километров за несколько дней. Датчики измеряют температуру колес, скажем, с регулярностью в 30 секунд. Крайне важно собирать и анализировать эти данные в режиме реального времени, чтобы немедленно выявлять возможные проблемы.
Далее перенесемся на пару недель вперед. Поезд благополучно прибыл к месту назначения. Все показатели температуры колес находились в пределах полуградуса от нормы. Дальше хранить эти данные не имеет смысла. Возможно, имеет смысл сохранить выборку данных по нескольким благополучным рейсам, чтобы использовать ее для сравнения с отклонениями от нормы. В то же время данные по рейсам, когда возникали проблемы с температурой колес, могут храниться практически бессрочно наряду с небольшой выборкой по благополучным рейсам. Прочие данные никакой ценности не представляют.
Разумеется, существуют данные, которые имеет смысл хранить очень долго. Банки и брокерские дома могут поддерживать отношения с клиентами на протяжении нескольких последних лет и даже десятилетий. Для них важно хранить информацию о каждом вкладе, сделанном каждым клиентом, и о каждом обмене имейлами опять-таки с каждым клиентом. Это позволяет им улучшить качество обслуживания с течением времени, а также обеспечить себе правовую защиту. В этом случае собираемые данные также хранятся практически вечно, как и было заведено при традиционном подходе.
Итак, ключевое положение этого раздела состоит в том, что организации должны изменить свои подходы к сбору, накоплению и хранению данных. Поначалу вам может быть некомфортно от мысли о том, что некие данные вы упускаете и сознательно удаляете уже собранные. Но в эпоху больших данных делать это необходимо.
Интернет вещей грядет
Концепция Интернета вещей неуклонно привлекала все больше внимания в 2013-м и начале 2014 г. Речь идет обо всех «вещах», работающих онлайн и взаимодействующих друг с другом и с нами. По мере того как датчики и коммуникационные технологии дешевеют, всё больше вещей становятся «умными», приобретая способность оценивать обстановку и передавать информацию. Уже обыденными стали подключенные к Интернету холодильники и часы, которые регулярно отправляют и получают информацию.
Интернет вещей способен порождать огромные массивы данных. В этом он даже может опередить все остальные источники больших данных. Примечательно, что значительная часть генерируемых им данных нередко носит чисто функциональный характер. Любая коммуникация длится очень недолго и может содержать только упрощенную информацию. Например, часы могут получать информацию об обновлении времени из надежного внешнего источника, а затем передавать ее другим часам в домашней сети. В совокупности это создает обширный объем данных, но в большинстве своем у них крайне низкая ценность и крайне короткий срок пригодности.
Многие примеры, описанные в этой книге, можно отнести к сфере Интернета вещей, скажем показания датчиков. Такие умные устройства, «разговаривающие» друг с другом, принесут благо и компаниям, и потребителям. По мере того как все больше вещей вокруг нас приобретают способность сообщаться между собой, перед нами открываются новые возможности:
• Ваш дом изучит ваши предпочтения касательно освещения, отопления и т. п., а затем будет автоматически подстраивать эти функции для вас.
• Такие приборы, как лампочки и освежители воздуха, будут предупреждать вас о необходимости их скорой замены.
• Холодильники будут автоматически выдавать вам списки покупок, учитывая ваше потребление и сроки годности хранящихся продуктов.
• Видео– и аудиоконтент будет плавно следовать за вами из комнаты в комнату, избавляя вас от необходимости что-либо включать и выключать.