Читаем Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим полностью

Чтобы получить эти цифры, сотни сотрудников бюро по телефону, факсу или лично связываются с магазинами и офисами в 90 городах по всей территории США. В итоге они формируют отчет из 23 000 цен на все товары и услуги — от помидоров до такси. На это уходит около 250 миллионов долларов США в год. В такую сумму обходятся однородные, понятные и упорядоченные данные. А к моменту публикации они успевают устареть на несколько недель.

Как показал финансовый кризис 2008 года, такое отставание может быть непростительным. Ответственным лицам нужно быстрее получать показатели инфляции, чтобы действовать эффективнее. Но с традиционными методами, которые сосредоточены на сборе выборок и придают большое значение точности, это невозможно.

В ответ на это два экономиста из Массачусетского технологического института (MТИ), Альберто Кавелло и Роберто Ригобон, предложили альтернативу — взять курс на большие данные, отличающиеся гораздо большей беспорядочностью. Используя программное обеспечение для сканирования веб-страниц, они ежедневно собирают полмиллиона цен на товары. Эти данные беспорядочны, и не все собранные точки данных легко сопоставимы. Но, объединив собранные большие данные с глубоко продуманными системами анализа, в рамках проекта удалось обнаружить дефляционные колебания цен, последовавшие сразу за банкротством инвестиционного банка Lehman Brothers в сентябре 2008 года. Те же, кто привык ориентироваться на официальные данные ИПЦ, смогли увидеть это только в ноябре.

Проект МТИ вырос до пяти миллионов продуктов от 300 розничных торговцев в 70 странах и дал начало коммерческой компании PriceStats, которая используется банками и другими заинтересованными лицами для принятия взвешенных экономических решений. Безусловно, полученные цифры требуют осторожного истолкования и лучше демонстрируют тенденции в области ценообразования, чем точные цены. Но поскольку в данном случае сведений о ценах гораздо больше и они поступают в режиме реального времени, это дает ответственным лицам значительное преимущество.

Беспорядочность в действии

Во многих общественных и технологических областях мы склоняемся в пользу беспорядочности, а не точности. Рассмотрим классификацию контента. На протяжении веков люди разрабатывали таксономии и индексы для хранения и извлечения материалов. Такие иерархические системы всегда были несовершенными, и это подтвердит каждый, кто не понаслышке знаком с библиотечной картотекой. В мире малых данных эти системы были достаточно эффективны. Однако стоило увеличить масштаб на много порядков — и эти системы, в которых все якобы идеально размещено, разваливаются. На сайте для обмена фотографиями Flickr в 2011 году хранилось более шести миллиардов фотографий почти от ста миллионов пользователей. Было бы бесполезно пытаться пометить каждую из фотографий в соответствии со стандартными категориями. Разве среди них найдется категория «Кошки, похожие на Гитлера»?

На смену понятным таксономиям и, как предполагается, совершенным классификациям приходят новые механизмы — более беспорядочные, зато гораздо более гибкие. Они легче адаптируются к миру, который непрерывно развивается и изменяется. Загружая фотографии на сайт Flickr, мы добавляем к ним теги, то есть назначаем любое количество текстовых меток, и используем их для упорядочения и поиска материала. Пользователи создают и добавляют теги по своему усмотрению. Нет единой стандартизированной, предопределенной иерархии, классификации или таксономии, которых следует придерживаться. Чтобы добавить новый тег, достаточно ввести его. Добавление тегов фактически стало стандартом классификации веб-контента, который используется на сайтах социальных сетей, таких как Facebook, а также в блогах и на прочих ресурсах. Благодаря этому стандарту стало гораздо удобнее бороздить просторы веб-контента, особенно нетекстового (изображений, видео, музыки), для которого поиск по словам не подходит.

Конечно, в тегах возможны опечатки. Такие ошибки привносят неточность (не в сами данные, а только в их порядок), а это наносит удар по традиционному способу мышления, основанному на точности. Но взамен беспорядочности того, как устроены наши коллекции фотографий, мы получаем гораздо больший спектр меток и, соответственно, более широкий доступ к своим фотографиям. Мы можем объединять поисковые теги для фильтрации своих фотографий такими способами, которые были недоступны прежде. Принять неточность, присущую методу меток, — значит принять естественную беспорядочность окружающего мира. Это лекарство от более точных систем, которые пытаются навязать суматошному миру ложную стерильность, делая вид, что все на свете можно четко систематизировать. Вокруг еще столько всего, что не укладывается в рамки такой философии!

Перейти на страницу:

Похожие книги

Ведьмак. История франшизы. От фэнтези до культовой игровой саги
Ведьмак. История франшизы. От фэнтези до культовой игровой саги

С момента выхода первой части на ПК серия игр «Ведьмак» стала настоящим международным явлением. По мнению многих игроков, CD Projekt RED дерзко потеснила более авторитетные студии вроде BioWare или Obsidian Entertainment. Да, «Ведьмак» совершил невозможное: эстетика, лор, саундтрек и отсылки к восточноевропейскому фольклору нашли большой отклик в сердцах даже западных игроков, а Геральт из Ривии приобрел невероятную популярность по всему миру.Эта книга – история триумфа CD Projekt и «Ведьмака», основанная на статьях, документах и интервью, некоторые из которых существуют только на польском языке, а часть и вовсе не публиковалась ранее.В формате PDF A4 сохранен издательский макет книги.

Рафаэль Люка

Хобби и ремесла / Зарубежная компьютерная, околокомпьютерная литература / Зарубежная прикладная литература / Дом и досуг
Внутреннее устройство Microsoft Windows (гл. 1-4)
Внутреннее устройство Microsoft Windows (гл. 1-4)

Книга посвящена внутреннему устройству и алгоритмам работы основных компонентов операционной системы Microsoft Windows — Windows Server 2003, Windows XP и Windows 2000 — и файловой системы NTFS. Детально рассмотрены системные механизмы: диспетчеризация ловушек и прерываний, DPC, APC, LPC, RPC, синхронизация, системные рабочие потоки, глобальные флаги и др. Также описываются все этапы загрузки операционной системы и завершения ее работы. B четвертом издании книги больше внимания уделяется глубокому анализу и устранению проблем, из-за которых происходит крах операционной системы или из-за которых ее не удается загрузить. Кроме того, рассматриваются детали реализации поддержки аппаратных платформ AMD x64 и Intel IA64. Книга состоит из 14 глав, словаря терминов и предметного указателя. Книга предназначена системным администраторам, разработчикам серьезных приложений и всем, кто хочет понять, как устроена операционная система Windows.Названия всех команд, диалоговых окон и других интерфейсных элементов операционной системы приведены как на английском языке, так и на русском.Версия Fb2 редакции — 1.5. Об ошибках просьба сообщать по адресу — general2008@ukr.net.

Дэвид Соломон , Марк Руссинович

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT
С компьютером на ты. Самое необходимое
С компьютером на ты. Самое необходимое

Рассказывается о работе в операционной системе Windows (на примере версий XP и 7), текстовом редакторе Word 2010 и других приложениях, необходимых каждому пользователю: архиваторах, антивирусах и программах для просмотра видео и прослушивания музыки (Winamp, QuickTime Pro). Большое внимание уделяется работе в Интернете. Рассказывается о программах для просмотра Web-страниц, об электронной почте, а также о различных полезных приложениях для работы в сети — менеджерах закачек файлов, ICQ, Windows Live Messenger, MSN и многих других. Во втором издании рассмотрена новая ОС — Windows 7, а также последние версии приложений для пользователей.Для начинающих пользователей ПК.

Андрей Александрович Егоров , Андрей Егоров

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT