Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Если основой современного промышленного развития является ископаемое топливо, то данные сегодня – это «новая нефть». Так же, как это было некогда с нефтью, те, кто может эффективно контролировать данные и манипулировать ими, делают сегодня огромные состояния. Но еще более важным в этой аналогии является то, что подобно нефти данные необходимо очищать и предварительно обрабатывать, чтобы сделать их полезными. Борьба с загрязнением информации темными данными является примером такой очистки.

Однако аналогия с нефтью имеет и свои слабые стороны. В отличие от цены на нефть, одинаковой для всех, ценность данных зависит от того, что конкретно вы хотите знать. Более того, в отличие от нефти, данные могут быть проданы или переданы без смены собственника – по своей природе они могут копироваться и воспроизводиться неограниченное число раз. И, конечно, данные могут быть темными: то, чего у вас нет, может существенно ограничить то, что у вас есть. Помимо прочего, с данными связаны такие вопросы, как неприкосновенность частной жизни и конфиденциальность, которые просто не имеют аналогий в мире нефти. Данные представляют собой нечто большее, чем просто новый товар. Именно поэтому правительства прилагают столько усилий для решения этических вопросов, связанных с управлением данными.

В значительной степени революция данных была связана с данными наблюдений. В главе 2 мы познакомились с этим видом данных, описывающих естественную эволюцию процессов без явного вмешательства человека, и, как было показано, данные наблюдений особенно уязвимы для рисков, которые несут темные данные. Данные наблюдений контрастируют с экспериментальными данными, подразумевающими, что параметры воздействующих факторов контролируются. Кроме того, огромные объемы данных наблюдений генерируются автоматическими системами сбора информации и являются побочным эффектом различных административных операций.

Классическим примером того, какие идеи можно извлечь из данных нового типа, служит проект «Миллиард цен». Альберто Кавалло и Роберто Ригобон из Школы менеджмента Слоуна извлекли огромное количество онлайн-цен из интернета и использовали их для построения индексов инфляции. На основе этого открытого источника данных они показали, что уровень цен и динамика инфляции в Бразилии, Чили, Колумбии и Венесуэле примерно совпадают. Кроме того, они обнаружили «в Аргентине большое необъяснимое расхождение между уровнями инфляции по онлайн-ценам и по официальной статистике»[166]. Простого объяснения этого несоответствия не было. Кавалло заключил: «Результаты для Аргентины подтверждают подозрение, что правительство манипулирует официальной статистикой по инфляции. Это единственная страна, где онлайн-инфляция с течением времени значительно отклоняется от официальных оценок».

Кавалло и его коллеги полностью отказались от традиционной процедуры сбора данных для расчета индексов инфляции. Из главы 3 вам известно, что она предполагает работу групп исследователей, посещающих магазины и собирающих данные с ценников на полках. Это не только дорого, но и медленно. В отличие от классического подхода, проект «Миллиард цен» позволяет обновлять индекс инфляции ежедневно.

Бесспорно, это огромный успех в сфере больших данных. Но даже здесь все может оказаться не столь радужным, как выглядит на первый взгляд. В частности, Кавалло и Ригобон говорят: «Мы… фокусируемся в основном на крупных многоканальных розничных сетях и не берем в расчет магазины, торгующие только онлайн (такие, как Amazon.com[167]. Они отмечают, что онлайн-цены охватывают гораздо меньший набор ритейлеров и категорий продуктов, чем традиционный подход к ценовым индексам, и указывают на необходимость выбора, с каких именно сайтов брать данные, а это прямой путь к появлению темных данных в виде множества небольших онлайн-магазинов. Более того, онлайн-цены являются всего лишь ценами и не показывают объемы продаж.

Дело не в том, что все это – непреодолимые препятствия. Понимая их, мы можем работать над их преодолением. Но проблема темных данных все равно останется, поскольку само понятие инфляции, используемое в рамках проекта «Миллиард цен», несколько отличается от традиционных определений.

Перейти на страницу:

Похожие книги

1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих
1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих

Книга предоставляет полное описание приемов и методов работы с программой "1С:Управление небольшой фирмой 8.2". Показано, как автоматизировать управленческий учет всех основных операций, а также автоматизировать процессы организационного характера (маркетинг, построение кадровой политики и др.). Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, формировать разнообразные отчеты, выводить данные на печать. Материал подан в виде тематических уроков, в которых рассмотрены все основные аспекты деятельности современного предприятия. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов. Все приведенные в книге примеры и рекомендации основаны на реальных фактах и имеют практическое подтверждение.

Алексей Анатольевич Гладкий

Экономика / Программное обеспечение / Прочая компьютерная литература / Прочая справочная литература / Книги по IT / Словари и Энциклопедии
Управление знаниями. Как превратить знания в капитал
Управление знаниями. Как превратить знания в капитал

Впервые в отечественной учебной литературе рассматриваются процессы, связанные с управлением знаниями, а также особенности экономики, основанной на знаниях. Раскрываются методы выявления, сохранения и эффективного использования знаний, дается классификация знаний, анализируются их экономические свойства.Подробно освещаются такие темы, как интеллектуальный капитал организации; организационная культура, ориентированная на обмен знаниями; информационный и коммуникационный менеджмент; формирование обучающейся организации.Главы учебника дополнены практическими кейсами, которые отражают картину современной практики управления знаниями как за рубежом, так и в нашей стране.Для слушателей программ МВА, преподавателей, аспирантов, студентов экономических специальностей, а также для тех, кого интересуют проблемы современного бизнеса и развития экономики, основанной на знаниях.Серия «Полный курс МВА» подготовлена издательством «Эксмо» совместно с Московской международной высшей школой бизнеса «МИРБИС» (Институт)

Александр Лукич Гапоненко , Тамара Михайловна Орлова

Экономика / О бизнесе популярно / Финансы и бизнес