Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Покупатель подходит к кассе супермаркета, выкладывает на ленту выбранные товары, лазер сканирует их штрихкоды, и каждый раз кассовый аппарат издает звуковой сигнал, сообщая, что суммирует цены. В результате этой процедуры покупатель получает чек и расплачивается. Однако история его покупки на этом не заканчивается. Данные о купленных товарах и их стоимости отправляются в базу данных. Позже статистики и аналитики будут изучать их, создавая картину поведения покупателей на основе того, что они купили, какие из товаров были куплены вместе и, конечно, какие клиенты покупали эти товары. Казалось бы, здесь просто нельзя ничего пропустить. Данные о транзакциях собираются во всех случаях, кроме отключения электроэнергии, сбоя кассового аппарата или мошенничества.

Вроде бы собираются все данные. Иначе говоря, в базу попадают данные не по некоторым транзакциям или некоторым купленным товарам, а по всем транзакциям, совершенным всеми покупателями, и по всем товарам в конкретном супермаркете. Такие данные еще называют исчерпывающими.

Однако так ли это? Ведь собранные данные описывают то, что произошло на прошлой неделе или в прошлом месяце. Конечно, польза от них несомненна, но если мы управляем супермаркетом, то, вероятно, нам будет интересно, что произойдет завтра, на следующей неделе или через месяц. Мы бы хотели знать, кто, что, когда и сколько купит в будущем. Какие товары могут закончиться на полках, если не заказать их впрок? Как могут измениться предпочтения людей в отношении брендов? Другими словами, нам нужны данные, которые не собираются. Это связано с самой природой времени, и здесь фигурируют темные данные DD-тип 7: данные, меняющиеся со временем.

Помимо этого, интересно узнать, как вели бы себя люди, если бы мы, скажем, более плотно заставили товарами полки, или разместили их как-то иначе, или изменили часы работы супермаркета. Такие данные называются контрфактуальными, поскольку они противоречат реальным фактам – они о том, что случилось бы, если бы произошло нечто, чего на самом деле не происходило. Контрфактуальные данные классифицируются как DD-тип 6: данные, которые могли бы существовать.

Излишне говорить, что контрфактуальные данные интересуют не только менеджеров супермаркетов. Все мы принимаем те или иные лекарства и при этом, разумеется, доверяем врачу, который их прописал, предполагая, что лекарства прошли тестирование и были признаны эффективными. Но как бы вы себя чувствовали, если бы вдруг обнаружили, что ваши лекарства не были проверены? И не было собрано данных о том, помогают ли они вообще? Вдруг они делают только хуже? А если они даже и были протестированы и рекомендованы, то ускоряют ли эти лекарства на самом деле процесс выздоровления? А может быть, их не сравнивали с другими препаратами, чтобы оценить эффективность? В истории со слоновьим порошком такое сравнение принятых мер с бездействием быстро показывает, что для отпугивания слонов отсутствие действия так же эффективно, как и применение порошка. (А это, в свою очередь, может привести к следующему, не менее полезному выводу, что никаких слонов, которых надо отпугивать, просто нет.)

Возвращаясь к понятию «исчерпывающие данные», стоит отметить, что часто контекст делает явно бессмысленной саму возможность иметь «все» данные. Возьмите, например, свой вес. Узнать его легко – достаточно встать на весы. Однако уже не так легко будет повторно получить те же данные. Даже если сразу же встать на весы снова, результат, скорее всего, будет немного другим, особенно если попытаться измерить его с точностью до грамма. Никакие физические измерения нельзя считать абсолютно точными в результате погрешностей или случайных колебаний, возникающих вследствие очень незначительных изменений условий (DD-тип 10: ошибки измерения и неопределенность). Для решения этой проблемы ученые, измеряющие параметры какого-либо явления – скажем, скорость света или заряд электрона, проводят серию измерений, а затем усредняют значения. Можно сделать тысячи и миллионы измерений, но очевидно, что невозможно сделать «все» измерения. В этом контексте просто не существует понятия «все», а значит, не существует и исчерпывающих данных.

Следующий тип темных данных хорошо иллюстрируется примером знаменитых лондонских автобусов. Если вам доводилось на них ездить, то, скорее всего, вы помните, что они, как правило, набиты битком. И все же данные показывают, что средняя заполняемость одного автобуса составляет всего 17 человек. Но чем можно объяснить это кажущееся противоречие? Кто-то манипулирует цифрами?

Перейти на страницу:

Похожие книги

1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих
1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих

Книга предоставляет полное описание приемов и методов работы с программой "1С:Управление небольшой фирмой 8.2". Показано, как автоматизировать управленческий учет всех основных операций, а также автоматизировать процессы организационного характера (маркетинг, построение кадровой политики и др.). Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, формировать разнообразные отчеты, выводить данные на печать. Материал подан в виде тематических уроков, в которых рассмотрены все основные аспекты деятельности современного предприятия. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов. Все приведенные в книге примеры и рекомендации основаны на реальных фактах и имеют практическое подтверждение.

Алексей Анатольевич Гладкий

Экономика / Программное обеспечение / Прочая компьютерная литература / Прочая справочная литература / Книги по IT / Словари и Энциклопедии
Бюджетное право
Бюджетное право

В учебнике представлен комплекс академических знаний по бюджетному праву и современному государственному хозяйству, отражены новейшие тенденции в их развитии. В Общей части даются базовые понятия, рассматриваются функции и принципы бюджетного права, впервые подробно говорится о сроках в бюджетном праве и о его системе. В Особенную часть включены темы публичных расходов и доходов, государственного долга, бюджетного устройства, бюджетного процесса и финансового контроля. Особое внимание уделено вопросам, которые совсем недавно вошли в орбиту бюджетного права: стратегическому планированию, контрактной системе, суверенным фондам, бюджетной ответственности.Темы учебника изложены в соответствии с программой базового курса «Бюджетное право» НИУ ВШЭ. К каждой теме прилагаются контрольные вопросы, список рекомендуемой научной литературы для углубленного изучения, а также учебные схемы для лучшего усвоения материала.Для студентов правовых и экономических специальностей, аспирантов, преподавателей и всех, кто интересуется проблемами публичных финансов и публичного права.

Дмитрий Львович Комягин , Дмитрий Пашкевич

Экономика / Юриспруденция / Учебники и пособия ВУЗов / Образование и наука