Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Во-первых, это масса примеров, иллюстрирующих пути возникновения темных данных. Они показывают конкретные ситуации, на которые следует обращать внимание. Конечно, ситуации и контексты могут сильно отличаться от показанных в книге, но есть надежда, что приведенные здесь примеры послужат отправной точкой.

Во-вторых, это систематика DD-типов темных данных, представленная в главе 1 и используемая по ходу изложения. Чтобы вам было проще определять эти типы в реальных практических ситуациях, я кратко изложил их далее с примерами для каждого.

Эти DD-типы охватывают «видовое» разнообразие темных данных, так же, как оси координат очерчивают двумерную плоскость графика, но в отличие от осей координат мои DD-типы не претендуют на полный охват пространства темных данных. Не стоит сомневаться в том, что существуют случаи недостающих или искаженных данных, которые не упомянуты в книге. К тому же постоянно появляются и будут появляться все новые типы темных данных со своими особенностями. Так или иначе, предложенная систематизация DD-типов дает своего рода контрольный список опасностей и общих проблем, на которые следует обращать внимание, работая с любым набором данных. И, конечно, всегда необходимо помнить, что обнаружение одного DD-типа не исключает присутствия других.

● DD-тип 1: данные, о которых мы знаем, что они отсутствуют

Это «известные неизвестные» Рамсфелда. Они возникают, когда мы знаем, что в данных есть пробелы, скрывающие значения, которые могли быть записаны. Примером могут служить отсутствующие значения, как во фрагменте маркетинговых данных в табл. 1, или отказ людей из опросного списка отвечать на вопросы частично или полностью. В последнем случае, возможно, все, что мы знаем о респондентах, это их идентификационные данные.

● DD-тип 2: данные, о которых мы не знаем, что они отсутствуют

Это «неизвестные неизвестные» Рамсфелда. Мы даже не знаем, что нам не хватает каких-то данных. Примером может служить веб-опрос, для которого нет списка возможных респондентов, поэтому мы в принципе не знаем, кто отказался его проходить. Катастрофа космического шаттла Challenger была следствием упущения такого рода, поскольку участники телеконференции не осознавали, что им не хватает некоторых данных.

● DD-тип 3: выборочные факты

Плохой набор критериев отбора для включения в выборку или ошибочное применение разумных критериев может привести к искажению выборки. В исследуемую группу могут войти более здоровые пациенты или люди, симпатизирующие той или иной компании. Это происходит, когда из большого числа случаев, осознанно или нет, выбираются «лучшие», чтобы избежать разочарования в будущем – возврат к среднему значению никто не отменял. Аналогично p-хакинг и неспособность учесть несколько гипотез означают, что научные результаты не смогут быть воспроизведены.

● DD-тип 4: самоотбор

Самоотбор является вариантом предыдущих данных DD-тип 3. Он проявляется, когда людям дают право самостоятельно решать, что включать в базу данных, а что нет. Примерами самоотбора являются отсутствующие ответы в опросах, когда респонденты сами выбирают, отвечать им или нет, базы данных пациентов, где пациенты могут отказаться предоставлять свои данные, и в более общем плане – выбор услуг потребителями. Для всех этих примеров возможна ситуация, когда недостающие данные имеют какие-то системные отличия от данных имеющихся.

● DD-тип 5: неизвестный определяющий фактор

Иногда критически важный аспект системы совершенно незаметен. Это может привести к установлению ошибочных причинно-следственных связей, например между увеличением продаж мороженого и засыханием травы. Понятно, что в этом примере в причинно-следственной цепи отсутствуют данные о погоде, но нехватка ключевого звена не всегда бывает столь очевидна. Более проблематичный пример – парадокс Симпсона, в котором общий показатель может увеличиваться, в то время как все составляющие его показатели уменьшаются.

● DD-тип 6: данные, которые могли бы существовать

Контрфактуальные данные – это данные, которые мы бы смогли увидеть, если бы предприняли какие-то другие действия или наблюдали бы за происходящим при других условиях или в иных обстоятельствах. Примером может служить клиническое испытание, в котором все пациенты получают одинаковое лечение – возможно, потому что целью исследования является изучение сроков выздоровления, – и после того, как пациенты вылечены, уже невозможно посмотреть, как подействовало бы на них альтернативное лечение. Другим примером является возраст супруга того, кто даже не женат.

● DD-тип 7: данные, меняющиеся со временем

Перейти на страницу:

Похожие книги

1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих
1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих

Книга предоставляет полное описание приемов и методов работы с программой "1С:Управление небольшой фирмой 8.2". Показано, как автоматизировать управленческий учет всех основных операций, а также автоматизировать процессы организационного характера (маркетинг, построение кадровой политики и др.). Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, формировать разнообразные отчеты, выводить данные на печать. Материал подан в виде тематических уроков, в которых рассмотрены все основные аспекты деятельности современного предприятия. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов. Все приведенные в книге примеры и рекомендации основаны на реальных фактах и имеют практическое подтверждение.

Алексей Анатольевич Гладкий

Экономика / Программное обеспечение / Прочая компьютерная литература / Прочая справочная литература / Книги по IT / Словари и Энциклопедии
Управление знаниями. Как превратить знания в капитал
Управление знаниями. Как превратить знания в капитал

Впервые в отечественной учебной литературе рассматриваются процессы, связанные с управлением знаниями, а также особенности экономики, основанной на знаниях. Раскрываются методы выявления, сохранения и эффективного использования знаний, дается классификация знаний, анализируются их экономические свойства.Подробно освещаются такие темы, как интеллектуальный капитал организации; организационная культура, ориентированная на обмен знаниями; информационный и коммуникационный менеджмент; формирование обучающейся организации.Главы учебника дополнены практическими кейсами, которые отражают картину современной практики управления знаниями как за рубежом, так и в нашей стране.Для слушателей программ МВА, преподавателей, аспирантов, студентов экономических специальностей, а также для тех, кого интересуют проблемы современного бизнеса и развития экономики, основанной на знаниях.Серия «Полный курс МВА» подготовлена издательством «Эксмо» совместно с Московской международной высшей школой бизнеса «МИРБИС» (Институт)

Александр Лукич Гапоненко , Тамара Михайловна Орлова

Экономика / О бизнесе популярно / Финансы и бизнес