Читаем Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим полностью

Несмотря на масштабы исследования, информация не была ни беспорядочной, ни неточной: оба набора данных составлялись с учетом строгих стандартов качества для медицинских и коммерческих целей. Информация собиралась в условиях, исключающих отклонения, несколькими годами ранее и по причинам, которые не имели ничего общего с целью этого исследования. Самое главное, что оно проводилось не на основе выборки, а близко к условию «N = всё»: учитывались почти каждый случай рака и почти каждый пользователь мобильного телефона (что в целом составило 3,8 миллиона человеко-лет владения мобильными телефонами). Благодаря тому что исследование охватывало почти все случаи, ученые могли контролировать подгруппы, например курящих.

В результате не было обнаружено, что увеличение риска развития рака связано с использованием мобильного телефона. Поэтому эти выводы вряд ли произвели фурор в средствах массовой информации, когда данные были опубликованы в британском медицинском журнале BMJ в октябре 2011 года. А вот если бы такая связь всплыла, о ней бы писали в первых полосах газет по всему миру, тем самым ознаменовав триумф методологии «искусственно созданных данных».

При анализе больших данных совокупность важнее отдельных частей, а при перекомпоновке совокупностей нескольких наборов данных получается еще более удачная совокупность. Современные интернет-пользователи знакомы с основными «мэшапами» — службами, которые по-новому объединяют несколько источников данных. Сайт недвижимости Zillow.com накладывает информацию о недвижимости и ценах на карту окрестностей в США, а также обрабатывает наборы данных о последних деловых операциях в районе и характеристиках объектов недвижимости, чтобы спрогнозировать стоимость конкретных домов в определенном районе.

Полученный результат полезен, поскольку наглядное представление данных делает их более понятными. Но это довольно упрощенный пример. В конце концов, не так уж трудно додуматься взять информацию относительно местоположения и наложить ее на карту. С большими данными мы можем пойти гораздо дальше. И датское исследование рака показывает, какие перспективы перед нами открываются.

Расширяемые данные

Повторное использование данных нетрудно обеспечить, если продумать их расширяемость с самого начала. Это получается не всегда (ведь мысль о том, что можно выжать из данных, иногда приходит намного позже, чем они были собраны), однако способствовать многократному потреблению одного и того же набора данных можно разными способами. Некоторые розничные торговцы устанавливают в магазинах камеры наблюдения таким образом, чтобы не только обнаруживать магазинных воров, но и отслеживать передвижение клиентов по магазину и места, где они останавливаются, чтобы присмотреться. Такая информация полезна для разработки лучшей выкладки товаров в магазине, а также для оценки эффективности маркетинговых кампаний. Ранее камеры видеонаблюдения служили только для обеспечения безопасности и рассматривались не более чем статья расходов. Теперь они рассматриваются как инвестиции, которые могут увеличить доход.

Как ни странно, одной из компаний, которые достигли наибольшего успеха в сборе данных с учетом расширяемости, является Google. Ее автомобили Street View, вызывающие неоднозначную реакцию общества, разъезжают по улицам, не только делая снимки домов и дорог, но и собирая данные GPS, проверяя картографическую информацию и даже попутно захватывая названия Wi-Fi-сетей (а также, вероятно, на незаконных основаниях, контент, доступный в открытых беспроводных сетях). За одну поездку автомобиль Google Street View накапливает множество потоков дискретных данных. Расширяемость обеспечивается тем, что Google применяет данные и для первичного использования, и для целого ряда вторичных. Например, данные GPS не только улучшили картографическую службу компании Google, но и были незаменимы для работы ее самоуправляемых автомобилей.[103]

Дополнительные расходы на сбор нескольких потоков данных или намного большего числа точек данных в каждом потоке, как правило, невелики, поэтому имеет смысл собирать как можно больше данных, а также делать их расширяемыми, изначально рассматривая потенциальные виды вторичного использования. Благодаря этому увеличивается альтернативная ценность информации. Суть в том, чтобы искать наборы «2 в 1», когда один и тот же набор данных, собранных определенным образом, можно применять в различных целях. Так эти сведения приобретают двойное назначение.

Обесценение данных

Поскольку стоимость хранения цифровых данных резко упала, компании получили сильный экономический стимул сохранять их для повторного использования в тех же или аналогичных целях. Однако полезность данных небезгранична.

Перейти на страницу:

Похожие книги

Ведьмак. История франшизы. От фэнтези до культовой игровой саги
Ведьмак. История франшизы. От фэнтези до культовой игровой саги

С момента выхода первой части на ПК серия игр «Ведьмак» стала настоящим международным явлением. По мнению многих игроков, CD Projekt RED дерзко потеснила более авторитетные студии вроде BioWare или Obsidian Entertainment. Да, «Ведьмак» совершил невозможное: эстетика, лор, саундтрек и отсылки к восточноевропейскому фольклору нашли большой отклик в сердцах даже западных игроков, а Геральт из Ривии приобрел невероятную популярность по всему миру.Эта книга – история триумфа CD Projekt и «Ведьмака», основанная на статьях, документах и интервью, некоторые из которых существуют только на польском языке, а часть и вовсе не публиковалась ранее.В формате PDF A4 сохранен издательский макет книги.

Рафаэль Люка

Хобби и ремесла / Зарубежная компьютерная, околокомпьютерная литература / Зарубежная прикладная литература / Дом и досуг
Внутреннее устройство Microsoft Windows (гл. 1-4)
Внутреннее устройство Microsoft Windows (гл. 1-4)

Книга посвящена внутреннему устройству и алгоритмам работы основных компонентов операционной системы Microsoft Windows — Windows Server 2003, Windows XP и Windows 2000 — и файловой системы NTFS. Детально рассмотрены системные механизмы: диспетчеризация ловушек и прерываний, DPC, APC, LPC, RPC, синхронизация, системные рабочие потоки, глобальные флаги и др. Также описываются все этапы загрузки операционной системы и завершения ее работы. B четвертом издании книги больше внимания уделяется глубокому анализу и устранению проблем, из-за которых происходит крах операционной системы или из-за которых ее не удается загрузить. Кроме того, рассматриваются детали реализации поддержки аппаратных платформ AMD x64 и Intel IA64. Книга состоит из 14 глав, словаря терминов и предметного указателя. Книга предназначена системным администраторам, разработчикам серьезных приложений и всем, кто хочет понять, как устроена операционная система Windows.Названия всех команд, диалоговых окон и других интерфейсных элементов операционной системы приведены как на английском языке, так и на русском.Версия Fb2 редакции — 1.5. Об ошибках просьба сообщать по адресу — general2008@ukr.net.

Дэвид Соломон , Марк Руссинович

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT
С компьютером на ты. Самое необходимое
С компьютером на ты. Самое необходимое

Рассказывается о работе в операционной системе Windows (на примере версий XP и 7), текстовом редакторе Word 2010 и других приложениях, необходимых каждому пользователю: архиваторах, антивирусах и программах для просмотра видео и прослушивания музыки (Winamp, QuickTime Pro). Большое внимание уделяется работе в Интернете. Рассказывается о программах для просмотра Web-страниц, об электронной почте, а также о различных полезных приложениях для работы в сети — менеджерах закачек файлов, ICQ, Windows Live Messenger, MSN и многих других. Во втором издании рассмотрена новая ОС — Windows 7, а также последние версии приложений для пользователей.Для начинающих пользователей ПК.

Андрей Александрович Егоров , Андрей Егоров

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT