Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

В 2007 г. бутылка из партии 1852 г. была выставлена на аукционе eBay со стартовой ценой $299. Продавец, у которого она хранилась в течение 50 лет, неправильно написал название пива, пропустив одну «р» в слове «Allsopp». Как следствие, предмет не обнаруживался поисковыми запросами любителей винтажного пива, так что поступило только две заявки. Из них победила заявка 25-летнего Даниэля Вудула, который предложил целых $304. Стремясь определить ценность покупки, Вудул тут же вновь выставил бутылку на продажу, но на этот раз с правильным названием. В ответ было подано 157 заявок с максимально предложенной ценой $503 300.

В этом случае одна пропущенная буква стоила полмиллиона долларов[11]. Это наглядный пример того, что потеря информации может привести к значительным последствиям. Как мы увидим далее, полмиллиона долларов – ничто по сравнению с убытками в других ситуациях, связанных с отсутствием данных. Они способны разрушать судьбы, уничтожать компании и, как в случае с Challenger, приводить к гибели людей. Короче говоря, отсутствующие данные важны.

В случае с Arctic Ale чуть большее внимание помогло бы избежать проблемы. Небрежность, безусловно, одна из самых распространенных причин появления темных данных, но далеко не единственная. Неприятный факт заключается в том, что данные могут стать темными по очень широкому ряду причин, и далее в книге мы увидим это.

Заманчиво считать темные данные исключительно тем, что можно было бы получить, но по каким-то причинам не удалось. Безусловно, это самый очевидный вид темных данных. Отсутствующие данные по заработной плате в опросе, в котором часть респондентов отказалась разглашать эту информацию, конечно, являются темными данными, но также ими является и уровень заработной платы безработных, которые не получают ее и, следовательно, просто не могут назвать. Ошибки измерения и неточности скрывают истинные значения; обобщая данные (например, вычисляя средние значения), мы теряем детали; неверные формулировки запросов искажают смысл того, что мы хотим узнать. В более общем понимании любую неизвестную характеристику некоей генеральной совокупности (статистики часто используют термин «параметр») можно рассматривать как темные данные.

Поскольку число возможных причин возникновения темных данных, по сути, не ограничено, знание того, на что следует обращать внимание, является чрезвычайно важным для предотвращения ошибок и просчетов. Именно с этой целью в нашей книге и представлено описание DD-типов. Они не охватывают все возможные причины (например, небрежность, допускающую включение в окончательный результат исследования данных пациентов, которые наблюдались недостаточно длительное время), но обеспечивают более общую систематику (например, проводят различие между данными, о которых мы знаем, что они отсутствуют, и данными, о которых мы этого не знаем). Понимание этих DD-типов может помочь вам защититься от ошибок, оплошностей и угроз, вытекающих из самого факта незнания. В этой книге представлены, а в главе 10 обобщены следующие DD-типы:

● DD-тип 1: данные, о которых мы знаем, что они отсутствуют;

● DD-тип 2: данные, о которых мы не знаем, что они отсутствуют;

● DD-тип 3: выборочные факты;

● DD-тип 4: самоотбор;

● DD-тип 5: неизвестный определяющий фактор;

● DD-тип 6: данные, которые могли бы существовать;

● DD-тип 7: данные, меняющиеся со временем;

● DD-тип 8: неверно определяемые данные;

● DD-тип 9: обобщение данных;

● DD-тип 10: ошибки измерения и неопределенность;

● DD-тип 11: искажения обратной связи и уловки;

● DD-тип 12: информационная асимметрия;

● DD-тип 13: намеренно затемненные данные;

● DD-тип 14: фальшивые и синтетические данные;

● DD-тип 15: экстраполяция за пределы ваших данных.

<p>Глава 2</p><p>Обнаружение темных данных</p><p><emphasis>Что мы собираем, а что нет</emphasis></p><p>Темные данные со всех сторон</p>

Данные не возникают сами собой. Они не существуют с начала времен, ожидая, пока их проанализируют. Кто-то должен собрать их. И разные методы сбора данных, как вы догадываетесь, порождают разные типы темных данных.

В этой главе мы рассмотрим три основных метода создания наборов данных, а также пути возникновения темных данных, связанные с каждым из них. Следующая глава посвящена дополнительным осложнениям, которые темные данные могут вызывать в разных ситуациях.

Перейти на страницу:

Похожие книги

1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих
1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих

Книга предоставляет полное описание приемов и методов работы с программой "1С:Управление небольшой фирмой 8.2". Показано, как автоматизировать управленческий учет всех основных операций, а также автоматизировать процессы организационного характера (маркетинг, построение кадровой политики и др.). Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, формировать разнообразные отчеты, выводить данные на печать. Материал подан в виде тематических уроков, в которых рассмотрены все основные аспекты деятельности современного предприятия. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов. Все приведенные в книге примеры и рекомендации основаны на реальных фактах и имеют практическое подтверждение.

Алексей Анатольевич Гладкий

Экономика / Программное обеспечение / Прочая компьютерная литература / Прочая справочная литература / Книги по IT / Словари и Энциклопедии
Бюджетное право
Бюджетное право

В учебнике представлен комплекс академических знаний по бюджетному праву и современному государственному хозяйству, отражены новейшие тенденции в их развитии. В Общей части даются базовые понятия, рассматриваются функции и принципы бюджетного права, впервые подробно говорится о сроках в бюджетном праве и о его системе. В Особенную часть включены темы публичных расходов и доходов, государственного долга, бюджетного устройства, бюджетного процесса и финансового контроля. Особое внимание уделено вопросам, которые совсем недавно вошли в орбиту бюджетного права: стратегическому планированию, контрактной системе, суверенным фондам, бюджетной ответственности.Темы учебника изложены в соответствии с программой базового курса «Бюджетное право» НИУ ВШЭ. К каждой теме прилагаются контрольные вопросы, список рекомендуемой научной литературы для углубленного изучения, а также учебные схемы для лучшего усвоения материала.Для студентов правовых и экономических специальностей, аспирантов, преподавателей и всех, кто интересуется проблемами публичных финансов и публичного права.

Дмитрий Львович Комягин , Дмитрий Пашкевич

Экономика / Юриспруденция / Учебники и пособия ВУЗов / Образование и наука