Во-первых, это масса примеров, иллюстрирующих пути возникновения темных данных. Они показывают конкретные ситуации, на которые следует обращать внимание. Конечно, ситуации и контексты могут сильно отличаться от показанных в книге, но есть надежда, что приведенные здесь примеры послужат отправной точкой.
Во-вторых, это систематика
Эти
●
Это «известные неизвестные» Рамсфелда. Они возникают, когда мы знаем, что в данных есть пробелы, скрывающие значения, которые могли быть записаны. Примером могут служить отсутствующие значения, как во фрагменте маркетинговых данных в табл. 1, или отказ людей из опросного списка отвечать на вопросы частично или полностью. В последнем случае, возможно, все, что мы знаем о респондентах, это их идентификационные данные.
●
Это «неизвестные неизвестные» Рамсфелда. Мы даже не знаем, что нам не хватает каких-то данных. Примером может служить веб-опрос, для которого нет списка возможных респондентов, поэтому мы в принципе не знаем, кто отказался его проходить. Катастрофа космического шаттла Challenger была следствием упущения такого рода, поскольку участники телеконференции не осознавали, что им не хватает некоторых данных.
●
Плохой набор критериев отбора для включения в выборку или ошибочное применение разумных критериев может привести к искажению выборки. В исследуемую группу могут войти более здоровые пациенты или люди, симпатизирующие той или иной компании. Это происходит, когда из большого числа случаев, осознанно или нет, выбираются «лучшие», чтобы избежать разочарования в будущем – возврат к среднему значению никто не отменял. Аналогично p-хакинг и неспособность учесть несколько гипотез означают, что научные результаты не смогут быть воспроизведены.
●
Самоотбор является вариантом предыдущих данных
●
Иногда критически важный аспект системы совершенно незаметен. Это может привести к установлению ошибочных причинно-следственных связей, например между увеличением продаж мороженого и засыханием травы. Понятно, что в этом примере в причинно-следственной цепи отсутствуют данные о погоде, но нехватка ключевого звена не всегда бывает столь очевидна. Более проблематичный пример – парадокс Симпсона, в котором общий показатель может увеличиваться, в то время как
●
Контрфактуальные данные – это данные, которые мы бы смогли увидеть, если бы предприняли какие-то другие действия или наблюдали бы за происходящим при других условиях или в иных обстоятельствах. Примером может служить клиническое испытание, в котором все пациенты получают одинаковое лечение – возможно, потому что целью исследования является изучение сроков выздоровления, – и после того, как пациенты вылечены, уже невозможно посмотреть, как подействовало бы на них альтернативное лечение. Другим примером является возраст супруга того, кто даже не женат.
●