Читаем Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим полностью

«Взглянув на это, мы подумали, что нам не удастся проанализировать данные, поскольку они были невероятно сырыми, — вспоминает Синтия Рудин, статистик и руководитель проекта. — У меня имелись распечатки таблиц для всех видов кабелей. Вытаскивая какие-то из них, мы не могли удержать их в руках — все тут же летело на пол. И в этом всем нужно было разобраться. Без какой-либо документации. Мне оставалось только думать, как из всего этого извлечь пользу».

Для работы Синтии Рудин и ее команде следовало использовать все данные, а не только выборку, поскольку любой из десятков тысяч люков грозил оказаться бомбой замедленного действия. Таким образом, только подход «N = всё» мог прийти на помощь. Совсем не мешало бы продумать причинно-следственные связи, но на это ушла бы сотня лет, притом что правильность и полнота результатов оставались бы сомнительными. Лучшим решением этой задачи было найти корреляции. Синтию интересовал не столько вопрос почему, сколько что, хоть она и осознавала, что, когда команде феноменальных специалистов по статистике придется отвечать перед руководством Con Edison, им придется обосновать свой рейтинг. Прогнозы выполнялись компьютерами, но их потребителем выступал человек. А людям, как правило, нужны причины, чтобы понять.

Интеллектуальный анализ данных обнаружил те самые «золотые самородки», которые Синтия Рудин надеялась найти. Очистив беспорядочные данные для обработки с помощью компьютера, команда определила 106 прогностических факторов основной аварии, связанной с канализационными люками. Затем из них отобрали несколько самых сильных сигналов. Проверяя электросеть Бронкса, специалисты проанализировали все имеющиеся данные вплоть до середины 2008 года. Затем на основе этих данных спрогнозировали проблемные участки с расчетом на 2009 год и получили блестящий результат: из 10% первых по списку люков 44% были связаны с серьезными происшествиями.

Основными факторами оказались возраст кабелей и наличие неполадок в люках в прошлом. Как ни странно, эти сведения были полезными, поскольку легко объясняли руководству Con Edison, на чем основан рейтинг. Но, помилуйте, возраст и неполадки в прошлом? Разве это не достаточно очевидно? И да и нет. С одной стороны, как любил повторять математик Дункан Уоттс (в своей книге[66]), «все очевидно, когда вы уже знаете ответ». С другой стороны, важно помнить, что модель изначально содержала 106 прогностических факторов. И не так уж очевидно, как их взвесить, а затем ранжировать десятки тысяч люков, учитывая множество переменных, связанных с каждым фактором. В итоге получаются миллионы точек данных, притом что сами данные изначально непригодны для анализа.

Этот случай наглядно демонстрирует, как данные находят новое применение для решения сложных задач реального мира. Для этого понадобилось изменить подход к работе и использовать все данные, которые удалось собрать, а не только их небольшую часть. Нужно было принять естественную беспорядочность данных, а не рассматривать точность как высший приоритет. К тому же пришлось рассчитывать на корреляции, не зная полностью причин, которые легли в основу прогнозирования.

Конец теории?

Большие данные меняют наш подход к познанию мира. В эпоху малых данных мы руководствовались гипотезами о том, как устроен мир, а затем старались проверить их путем сбора и анализа данных. В дальнейшем наше понимание будет зависеть от изобилия данных, а не от гипотез. Получая и анализируя данные, мы увидим связи, о которых и не подозревали раньше.

Гипотезы часто являются продуктом теорий естественных и социальных наук, которые помогают объяснить, а иногда и спрогнозировать события окружающего мира. По мере того как мир переходит от гипотез к данным, велико искушение решить, что теории тоже больше не нужны.

В 2008 году главный редактор журнала Wired Крис Андерсон высказал мнение, что «ввиду огромного потока данных научные методы уже неактуальны». В статье «Век петабайтов» он заявил, что это означает не что иное, как «конец теории». Традиционный процесс научного открытия (проверка гипотезы на достоверность с помощью модели основополагающих причин), по утверждению Андерсона, уже отжил свое и заменен статистическим анализом корреляций, в котором нет места теории.[67]

В подтверждение Андерсон пояснил, что квантовая физика стала практически полностью теоретической областью, поскольку эксперименты слишком сложные, дорогостоящие и слишком масштабные для реализации. Эта теория, как считает Андерсон, уже не имеет ничего общего с действительностью. Чтобы объяснить новый метод, он приводит в пример поисковую систему Google и генетическое секвенирование. «Это мир, в котором большие объемы данных и прикладная математика заменяют любые другие нужные инструменты, — пишет Андерсон. — При достаточном количестве данных числа говорят сами за себя. И петабайты позволяют сказать, что корреляций вполне достаточно».

Перейти на страницу:

Похожие книги

Ведьмак. История франшизы. От фэнтези до культовой игровой саги
Ведьмак. История франшизы. От фэнтези до культовой игровой саги

С момента выхода первой части на ПК серия игр «Ведьмак» стала настоящим международным явлением. По мнению многих игроков, CD Projekt RED дерзко потеснила более авторитетные студии вроде BioWare или Obsidian Entertainment. Да, «Ведьмак» совершил невозможное: эстетика, лор, саундтрек и отсылки к восточноевропейскому фольклору нашли большой отклик в сердцах даже западных игроков, а Геральт из Ривии приобрел невероятную популярность по всему миру.Эта книга – история триумфа CD Projekt и «Ведьмака», основанная на статьях, документах и интервью, некоторые из которых существуют только на польском языке, а часть и вовсе не публиковалась ранее.В формате PDF A4 сохранен издательский макет книги.

Рафаэль Люка

Хобби и ремесла / Зарубежная компьютерная, околокомпьютерная литература / Зарубежная прикладная литература / Дом и досуг
Внутреннее устройство Microsoft Windows (гл. 1-4)
Внутреннее устройство Microsoft Windows (гл. 1-4)

Книга посвящена внутреннему устройству и алгоритмам работы основных компонентов операционной системы Microsoft Windows — Windows Server 2003, Windows XP и Windows 2000 — и файловой системы NTFS. Детально рассмотрены системные механизмы: диспетчеризация ловушек и прерываний, DPC, APC, LPC, RPC, синхронизация, системные рабочие потоки, глобальные флаги и др. Также описываются все этапы загрузки операционной системы и завершения ее работы. B четвертом издании книги больше внимания уделяется глубокому анализу и устранению проблем, из-за которых происходит крах операционной системы или из-за которых ее не удается загрузить. Кроме того, рассматриваются детали реализации поддержки аппаратных платформ AMD x64 и Intel IA64. Книга состоит из 14 глав, словаря терминов и предметного указателя. Книга предназначена системным администраторам, разработчикам серьезных приложений и всем, кто хочет понять, как устроена операционная система Windows.Названия всех команд, диалоговых окон и других интерфейсных элементов операционной системы приведены как на английском языке, так и на русском.Версия Fb2 редакции — 1.5. Об ошибках просьба сообщать по адресу — general2008@ukr.net.

Дэвид Соломон , Марк Руссинович

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT
С компьютером на ты. Самое необходимое
С компьютером на ты. Самое необходимое

Рассказывается о работе в операционной системе Windows (на примере версий XP и 7), текстовом редакторе Word 2010 и других приложениях, необходимых каждому пользователю: архиваторах, антивирусах и программах для просмотра видео и прослушивания музыки (Winamp, QuickTime Pro). Большое внимание уделяется работе в Интернете. Рассказывается о программах для просмотра Web-страниц, об электронной почте, а также о различных полезных приложениях для работы в сети — менеджерах закачек файлов, ICQ, Windows Live Messenger, MSN и многих других. Во втором издании рассмотрена новая ОС — Windows 7, а также последние версии приложений для пользователей.Для начинающих пользователей ПК.

Андрей Александрович Егоров , Андрей Егоров

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT