Читаем Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим полностью

Корреляции помогают анализировать объекты, выявляя не принципы их работы, а полезные закономерности. Безусловно, даже сильные корреляции не идеальны. Вполне возможно, что похожее поведение двух объектов — не более чем совпадение. Нет никаких гарантий, что даже сильные корреляции сумеют объяснить каждый случай. Не каждая рекомендация книг на сайте Amazon безошибочна. Корреляции дают не определенность, а лишь вероятность. Но в случае сильной корреляции между явлениями высока вероятность, что они взаимосвязаны. Многие могут подтвердить это, указав на полку, уставленную книгами по рекомендациям Amazon.

Корреляции дают возможность определять ценные закономерности явлений, чтобы подмечать их в настоящем и прогнозировать в будущем. Например, если событие А часто сопровождается событием B, нужно следить за B, чтобы спрогнозировать А. Такой подход позволяет уловить, чего вероятнее всего ожидать от события А, даже если мы не можем измерить или проследить его напрямую. Более того, это позволяет нам спрогнозировать дальнейшие события. Конечно, корреляции не могут предсказывать будущее — они лишь могут спрогнозировать его с определенной вероятностью. Но и это чрезвычайно ценно.

Walmart — крупнейшая в мире сеть розничной торговли, которая насчитывает более двух миллионов сотрудников. Ее объем продаж составляет около 400 миллиардов долларов — больше, чем ВВП большинства стран. Перед наплывом огромных массивов данных, порожденных интернетом, компания Walmart располагала, пожалуй, самым большим хранилищем данных среди коммерческих компаний в США. В 1990-х годах она произвела переворот в розничной торговле, внедрив учет всей продукции в виде данных с помощью сети Retail Link. Компания Walmart предоставила поставщикам возможность самим контролировать темпы и объемы продаж и запасов. Благодаря такой прозрачности Walmart удалось вынудить поставщиков самостоятельно заботиться о своей логистике. В большинстве случаев Walmart не выступает «собственником» продукта до момента продажи, тем самым снимая с себя риск обесценения запасов и снижая затраты. По сути, с помощью данных Walmart удалось стать крупнейшим комиссионным магазином.

О чем могут рассказать все эти накопленные данные, если их проанализировать должным образом? В сотрудничестве с экспертом в области обработки чисел Teradata (ранее — почитаемая корпорация NCR) компания Walmart стремилась выявить интересные корреляции. В 2004 году она взялась за изучение своих гигантских баз данных прошлых операций, которые включали не только информацию о товарах, приобретенных каждым клиентом, и общей сумме покупки, но и об остальных товарах в корзине, о времени суток и даже о погоде. Это дало компании возможность заметить, что перед ураганом росли объемы продаж не только фонариков, но и печенья PopTarts, а также сладких сухих американских завтраков. Поэтому, как только надвигалась буря, в магазинах Walmart поближе к витрине выкладывались коробки Pop-Tarts и припасы на случай урагана для удобства клиентов, снующих снаружи и внутри магазина, и, разумеется, для увеличения продаж.[57]

В прошлом специалистам из главного офиса пришлось бы заранее собрать данные и проверить идею. Теперь же, имея столько данных и улучшенные инструменты работы с ними, выявлять корреляции стало куда быстрее и дешевле.

Корреляционный анализ показал свою высокую эффективность задолго до больших данных. Эту концепцию в 1888 году выдвинул сэр Фрэнсис Гальтон, двоюродный брат Чарльза Дарвина, заметив взаимосвязь между ростом мужчин и длиной их предплечий. Математические расчеты, лежащие в основе корреляционного анализа, относительно просты и надежны. Благодаря этим характерным особенностям анализ стал одним из наиболее широко используемых статистических показателей. Но до перехода на большие данные корреляции имели ограниченную эффективность. Поскольку данные были скудными, а их сбор — дорогостоящим, специалисты по сбору статистики нередко интуитивно определяли вероятную закономерность, а затем собирали соответствующие данные и проводили корреляционный анализ, чтобы выяснить, насколько эта закономерность соответствовала действительности. В контексте службы Google Flu Trends это означало бы, что нужно предположить условия поиска, которые коррелируют с распространением гриппа, а затем провести корреляционный анализ, чтобы убедиться в правильности этих предположений. Учитывая набор данных Google из 50 миллионов различных условий поиска и более трех миллиардов запросов в день, интуитивно выбрать наиболее подходящие из них для тестирования не представляется возможным.

Таким образом, в эпоху малых данных корреляционный анализ утратил свою первостепенность. Даже сегодня термин «интеллектуальный анализ данных» в научных кругах звучит неодобрительно. Его противники острят: «Поиздевайтесь над данными достаточно долго — и они будут готовы признать что угодно».

Перейти на страницу:

Похожие книги

Ведьмак. История франшизы. От фэнтези до культовой игровой саги
Ведьмак. История франшизы. От фэнтези до культовой игровой саги

С момента выхода первой части на ПК серия игр «Ведьмак» стала настоящим международным явлением. По мнению многих игроков, CD Projekt RED дерзко потеснила более авторитетные студии вроде BioWare или Obsidian Entertainment. Да, «Ведьмак» совершил невозможное: эстетика, лор, саундтрек и отсылки к восточноевропейскому фольклору нашли большой отклик в сердцах даже западных игроков, а Геральт из Ривии приобрел невероятную популярность по всему миру.Эта книга – история триумфа CD Projekt и «Ведьмака», основанная на статьях, документах и интервью, некоторые из которых существуют только на польском языке, а часть и вовсе не публиковалась ранее.В формате PDF A4 сохранен издательский макет книги.

Рафаэль Люка

Хобби и ремесла / Зарубежная компьютерная, околокомпьютерная литература / Зарубежная прикладная литература / Дом и досуг
Внутреннее устройство Microsoft Windows (гл. 1-4)
Внутреннее устройство Microsoft Windows (гл. 1-4)

Книга посвящена внутреннему устройству и алгоритмам работы основных компонентов операционной системы Microsoft Windows — Windows Server 2003, Windows XP и Windows 2000 — и файловой системы NTFS. Детально рассмотрены системные механизмы: диспетчеризация ловушек и прерываний, DPC, APC, LPC, RPC, синхронизация, системные рабочие потоки, глобальные флаги и др. Также описываются все этапы загрузки операционной системы и завершения ее работы. B четвертом издании книги больше внимания уделяется глубокому анализу и устранению проблем, из-за которых происходит крах операционной системы или из-за которых ее не удается загрузить. Кроме того, рассматриваются детали реализации поддержки аппаратных платформ AMD x64 и Intel IA64. Книга состоит из 14 глав, словаря терминов и предметного указателя. Книга предназначена системным администраторам, разработчикам серьезных приложений и всем, кто хочет понять, как устроена операционная система Windows.Названия всех команд, диалоговых окон и других интерфейсных элементов операционной системы приведены как на английском языке, так и на русском.Версия Fb2 редакции — 1.5. Об ошибках просьба сообщать по адресу — general2008@ukr.net.

Дэвид Соломон , Марк Руссинович

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT
С компьютером на ты. Самое необходимое
С компьютером на ты. Самое необходимое

Рассказывается о работе в операционной системе Windows (на примере версий XP и 7), текстовом редакторе Word 2010 и других приложениях, необходимых каждому пользователю: архиваторах, антивирусах и программах для просмотра видео и прослушивания музыки (Winamp, QuickTime Pro). Большое внимание уделяется работе в Интернете. Рассказывается о программах для просмотра Web-страниц, об электронной почте, а также о различных полезных приложениях для работы в сети — менеджерах закачек файлов, ICQ, Windows Live Messenger, MSN и многих других. Во втором издании рассмотрена новая ОС — Windows 7, а также последние версии приложений для пользователей.Для начинающих пользователей ПК.

Андрей Александрович Егоров , Андрей Егоров

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT