Читаем Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим полностью

Быстро же мы попали в сети альтернативных причинных гипотез! Наши попытки пролить свет на положение вещей делают эти гипотезы еще более размытыми. Корреляции есть, и мы можем показать их математически, чего не скажешь о причинно-следственных связях. Так что было бы неплохо удержаться от попыток объяснить причину корреляций в поиске ответа на вопрос почему вместо что. Иначе мы могли бы смело советовать владельцам автомобилей красить свои развалюхи в оранжевый цвет, чтобы сделать их запчасти менее дефектными (что само по себе полный вздор).

Становится понятно, что корреляции на основе достоверных данных превосходят большинство интуитивно понятных причинно-следственных связей, то есть результат «быстрого мышления». Растет и количество случаев, когда быстрый и понятный корреляционный анализ оказывается более полезным и, очевидно, более эффективным, чем медленное причинное мышление, воплощенное в виде тщательно контролируемых (а значит, дорогостоящих и трудоемких) экспериментов.

В последние годы ученые пытались снизить затраты на такие эксперименты, например, искусно сочетая соответствующие опросы для создания «псевдоэкспериментов». Благодаря этому можно было повысить рентабельность некоторых исследований причинности. Однако эффективность корреляций трудно превзойти. Кроме того, как мы говорили, корреляционный анализ сам по себе служит помощником в таких исследованиях, подсказывая экспертам наиболее вероятные причины.

Таким образом, наличие данных и статистических инструментов преобразует роль не только быстрых, интуитивно улавливаемых причинно-следственных связей, но и взвешенного причинного мышления. Когда нам нужно исследовать не само явление, а именно его причину, как правило, лучше начать с корреляционного анализа больших данных и уже на его основе проводить углубленный поиск причинно-следственных связей.

На протяжении тысячелетий люди пытались понять принципы мироздания, стараясь найти причинно-следственные связи. Какую-то сотню лет назад, в эпоху малых данных, когда не было статистики, оперировали категориями причинности. Но все меняется с приходом больших данных.

Причинно-следственные связи не утратят своей актуальности, но перестанут быть главным источником знаний о том или ином предмете. В эпоху больших данных то, что мы считаем причинностью, на самом деле не более чем частный случай корреляционной связи. Хотя порой мы по-прежнему хотим выяснить, объясняют ли причинно-следственные связи обнаруженную корреляцию. Большие данные, напротив, ускоряют корреляционный анализ. И если корреляции не заменяют исследование причинности, то направляют его и предоставляют нужную информацию. Наглядным примером служат загадочные взрывы канализационных люков на Манхэттене.

Задача с канализационными люками

Ежегодно несколько сотен люков в Нью-Йорке начинают тлеть из-за возгорания частей канализационной инфраструктуры. От взрыва чугунные крышки люков весом до 300 фунтов взмывают на высоту в несколько этажей, а затем с грохотом падают, подвергая опасности окружающих.

Con Edison, коммунальная компания, которая занимается электроснабжением Нью-Йорка, из года в год проводит регулярные проверки и техобслуживание люков. Раньше специалисты в основном полагались на волю случая, надеясь, что взрывоопасными окажутся именно те люки, которые планируется проверить. Такой подход был едва ли полезнее, чем блуждание по Уолл-стрит. В 2007 году компания Con Edison обратилась к статистикам Колумбийского университета, расположенного на окраине города, в надежде, что статистические данные о сети (например, сведения о предыдущих неполадках и инфраструктурных соединениях) помогут спрогнозировать, какие люки вероятнее всего небезопасны, и это позволит компании целенаправленно использовать свои ресурсы.

Это сложная проблема, связанная с большими данными. Общая протяженность подземных кабелей в Нью-Йорке — 94 000 миль (достаточно, чтобы обхватить Землю 3,5 раза). В одном только Манхэттене около 51 000 люков и распределительных коробок. Часть этой инфраструктуры построена еще во времена Томаса Эдисона (тезки компании), а один из 20 кабелей заложен до 1930 года. Сохранились записи, которые велись с 1880 года, но не систематизированные, поскольку их не собирались анализировать. Данные предоставили бухгалтерия и диспетчеры аварийной службы, которые вручную писали «заявки на устранение неисправностей». Назвать их беспорядочными — ничего не сказать. К примеру, один лишь термин «распределительная коробка» (англ. service box), обозначающий обычную часть инфраструктуры, был записан в 38 вариантах, в том числе: SB, S, S/B, S.B, S?B, S.B., SBX, S/BX, SB/X, S/XB, /SBX, S.BX, S &BX, S?BX, S BX, S/B/X, S BOX, SVBX, SERV BX, SERV-BOX, SERV/BOX и SERVICE BOX. Распознать все это предстояло компьютерному алгоритму.

Перейти на страницу:

Похожие книги

Ведьмак. История франшизы. От фэнтези до культовой игровой саги
Ведьмак. История франшизы. От фэнтези до культовой игровой саги

С момента выхода первой части на ПК серия игр «Ведьмак» стала настоящим международным явлением. По мнению многих игроков, CD Projekt RED дерзко потеснила более авторитетные студии вроде BioWare или Obsidian Entertainment. Да, «Ведьмак» совершил невозможное: эстетика, лор, саундтрек и отсылки к восточноевропейскому фольклору нашли большой отклик в сердцах даже западных игроков, а Геральт из Ривии приобрел невероятную популярность по всему миру.Эта книга – история триумфа CD Projekt и «Ведьмака», основанная на статьях, документах и интервью, некоторые из которых существуют только на польском языке, а часть и вовсе не публиковалась ранее.В формате PDF A4 сохранен издательский макет книги.

Рафаэль Люка

Хобби и ремесла / Зарубежная компьютерная, околокомпьютерная литература / Зарубежная прикладная литература / Дом и досуг
Внутреннее устройство Microsoft Windows (гл. 1-4)
Внутреннее устройство Microsoft Windows (гл. 1-4)

Книга посвящена внутреннему устройству и алгоритмам работы основных компонентов операционной системы Microsoft Windows — Windows Server 2003, Windows XP и Windows 2000 — и файловой системы NTFS. Детально рассмотрены системные механизмы: диспетчеризация ловушек и прерываний, DPC, APC, LPC, RPC, синхронизация, системные рабочие потоки, глобальные флаги и др. Также описываются все этапы загрузки операционной системы и завершения ее работы. B четвертом издании книги больше внимания уделяется глубокому анализу и устранению проблем, из-за которых происходит крах операционной системы или из-за которых ее не удается загрузить. Кроме того, рассматриваются детали реализации поддержки аппаратных платформ AMD x64 и Intel IA64. Книга состоит из 14 глав, словаря терминов и предметного указателя. Книга предназначена системным администраторам, разработчикам серьезных приложений и всем, кто хочет понять, как устроена операционная система Windows.Названия всех команд, диалоговых окон и других интерфейсных элементов операционной системы приведены как на английском языке, так и на русском.Версия Fb2 редакции — 1.5. Об ошибках просьба сообщать по адресу — general2008@ukr.net.

Дэвид Соломон , Марк Руссинович

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT
С компьютером на ты. Самое необходимое
С компьютером на ты. Самое необходимое

Рассказывается о работе в операционной системе Windows (на примере версий XP и 7), текстовом редакторе Word 2010 и других приложениях, необходимых каждому пользователю: архиваторах, антивирусах и программах для просмотра видео и прослушивания музыки (Winamp, QuickTime Pro). Большое внимание уделяется работе в Интернете. Рассказывается о программах для просмотра Web-страниц, об электронной почте, а также о различных полезных приложениях для работы в сети — менеджерах закачек файлов, ICQ, Windows Live Messenger, MSN и многих других. Во втором издании рассмотрена новая ОС — Windows 7, а также последние версии приложений для пользователей.Для начинающих пользователей ПК.

Андрей Александрович Егоров , Андрей Егоров

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT