Читаем Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим полностью

Основная часть исходных данных была представлена в неподходящей форме. Отсутствовало единообразие в описании местоположения домов: каждые агентство и департамент, похоже, имели свой подход. Департамент строительства давал каждому зданию уникальный номер. У департамента по сохранению жилищного фонда была иная система нумерации. Налоговый департамент присваивал каждому объекту недвижимости идентификатор на основе района, квартала и участка. Полиция использовала декартову систему координат. Пожарные учитывали близость к «пожарным извещателям», связанным с расположением пожарной части (хотя сами пожарные извещатели уже упразднены). Напарники Флауэрса задействовали эти беспорядочные данные, разработав систему, которая учитывает радиус вокруг передней части здания на основе декартовых координат и добавляет геолокационные данные, полученные из других учреждений. Изначальные сведения были неточными, но огромное количество данных, загружаемых в систему, с лихвой компенсировало этот недостаток.

Команда не довольствовалась одними лишь математическими вычислениями. Напарники Флауэрса изучили работу инспекторов в полевых условиях. Они делали многочисленные заметки и выспрашивали у профессионалов мельчайшие подробности. Если умудренный опытом начальник сообщал, что здание, к которому они подошли, не представляет угрозы, напарники хотели знать причину его уверенности. Он не мог ее точно сформулировать, но со временем напарники поняли, что он имел в виду новую кирпичную кладку снаружи здания. Это означало, что владелец заботился о здании должным образом.

Напарники вернулись в свои кабины, задаваясь вопросом, как внести в свои модели такой сигнал, как «свежая кирпичная кладка». В конце концов, кирпичи пока еще не датифицированы. Зато на выполнение любых фасадных кирпичных работ требовалось разрешение городских властей. Эта информация значительно улучшила прогностическую эффективность системы, указывая, какие здания, скорее всего, не представляли особого риска.

Аналитика неоднократно демонстрировала, что некоторые из освященных веками способов ведения дел не были лучшими, равно как скаутам из фильма «Человек, который изменил всё» пришлось смириться с недостатками своей интуиции. Например, раньше количество звонков с жалобами по горячей линии города «311» рассматривалось как индикатор наиболее серьезных проблем: чем больше звонков, тем серьезнее проблема. Но это оказалось ложной предпосылкой. Крыса, замеченная в шикарном Верхнем Ист-Сайде, могла обеспечить 30 звонков в час, но в районе Бронкса понадобилось бы не меньше армии грызунов, чтобы соседи соизволили набрать номер. Точно так же большинство жалоб на незаконное переоборудование могло быть связано с шумом, не вызвавшим каких-либо серьезных последствий.

В июне 2011 года Флауэрс с напарниками «щелкнули выключателем». Все жалобы, подходящие под категорию незаконного переоборудования, были пропущены через их систему на еженедельной основе. Напарники отобрали данные о 5% статистически наиболее пожароопасных зданий и передали их инспекторам для незамедлительной проверки. Полученные результаты ошеломили всех.

До применения анализа больших данных инспекторы в первую очередь проверяли жалобы, которые считали самыми неотложными. Но только в 13% случаев условия оказывались достаточно тяжелыми, чтобы требовать выселения. Теперь инспекторы выдавали ордеры на выселение более чем в 70% случаев проверок. Большие данные позволили пятикратно повысить эффективность рабочего времени инспекторов. И результаты работы улучшились, так как можно было сконцентрировать усилия на самых серьезных проблемах. Обретенная эффективность имела и побочные преимущества. Пожары на незаконно переоборудованных участках в 15 раз чаще приводили к ранениям или гибели пожарных, поэтому новый подход тут же нашел признание в рядах пожарной службы. Флауэрс и его напарники были похожи на волшебников с хрустальным шаром, который позволяет заглянуть в будущее и предсказать, какие места наиболее опасны. Они взяли огромное количество данных, хранившихся долгие годы и практически не используемых с момента сбора, и применили их по-новому, извлекая реальную пользу. С помощью огромного массива информации напарникам удалось сделать ценные открытия, которые были бы невозможны при ее меньших количествах. В этом и есть суть больших данных.

Опыт нью-йоркских «алхимиков» в области аналитики наглядно демонстрирует множество тем, раскрытых в этой книге. Они использовали гигантский объем данных, а не его небольшую часть. Их список зданий в городе представлял собой не что иное, как массив данных «N = всё». Их не смутила беспорядочность данных, например информации о местоположении или записей скорой помощи. Преимущества большого количества данных перевесили недостатки меньшего количества нетронутой информации. Напарникам удалось достичь своих целей, поскольку многие характеристики города были представлены (пусть и непоследовательно) в виде данных, что позволило обрабатывать и использовать информацию для улучшения прогнозов.

Перейти на страницу:

Похожие книги

Ведьмак. История франшизы. От фэнтези до культовой игровой саги
Ведьмак. История франшизы. От фэнтези до культовой игровой саги

С момента выхода первой части на ПК серия игр «Ведьмак» стала настоящим международным явлением. По мнению многих игроков, CD Projekt RED дерзко потеснила более авторитетные студии вроде BioWare или Obsidian Entertainment. Да, «Ведьмак» совершил невозможное: эстетика, лор, саундтрек и отсылки к восточноевропейскому фольклору нашли большой отклик в сердцах даже западных игроков, а Геральт из Ривии приобрел невероятную популярность по всему миру.Эта книга – история триумфа CD Projekt и «Ведьмака», основанная на статьях, документах и интервью, некоторые из которых существуют только на польском языке, а часть и вовсе не публиковалась ранее.В формате PDF A4 сохранен издательский макет книги.

Рафаэль Люка

Хобби и ремесла / Зарубежная компьютерная, околокомпьютерная литература / Зарубежная прикладная литература / Дом и досуг
Внутреннее устройство Microsoft Windows (гл. 1-4)
Внутреннее устройство Microsoft Windows (гл. 1-4)

Книга посвящена внутреннему устройству и алгоритмам работы основных компонентов операционной системы Microsoft Windows — Windows Server 2003, Windows XP и Windows 2000 — и файловой системы NTFS. Детально рассмотрены системные механизмы: диспетчеризация ловушек и прерываний, DPC, APC, LPC, RPC, синхронизация, системные рабочие потоки, глобальные флаги и др. Также описываются все этапы загрузки операционной системы и завершения ее работы. B четвертом издании книги больше внимания уделяется глубокому анализу и устранению проблем, из-за которых происходит крах операционной системы или из-за которых ее не удается загрузить. Кроме того, рассматриваются детали реализации поддержки аппаратных платформ AMD x64 и Intel IA64. Книга состоит из 14 глав, словаря терминов и предметного указателя. Книга предназначена системным администраторам, разработчикам серьезных приложений и всем, кто хочет понять, как устроена операционная система Windows.Названия всех команд, диалоговых окон и других интерфейсных элементов операционной системы приведены как на английском языке, так и на русском.Версия Fb2 редакции — 1.5. Об ошибках просьба сообщать по адресу — general2008@ukr.net.

Дэвид Соломон , Марк Руссинович

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT
С компьютером на ты. Самое необходимое
С компьютером на ты. Самое необходимое

Рассказывается о работе в операционной системе Windows (на примере версий XP и 7), текстовом редакторе Word 2010 и других приложениях, необходимых каждому пользователю: архиваторах, антивирусах и программах для просмотра видео и прослушивания музыки (Winamp, QuickTime Pro). Большое внимание уделяется работе в Интернете. Рассказывается о программах для просмотра Web-страниц, об электронной почте, а также о различных полезных приложениях для работы в сети — менеджерах закачек файлов, ICQ, Windows Live Messenger, MSN и многих других. Во втором издании рассмотрена новая ОС — Windows 7, а также последние версии приложений для пользователей.Для начинающих пользователей ПК.

Андрей Александрович Егоров , Андрей Егоров

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT