Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

К сожалению, некоторые из участников вышли из исследования в течение этих шести месяцев, поэтому для них нет окончательного результата. Вопрос в том, можем ли мы игнорировать эти темные данные и просто анализировать те ряды, где есть как начальные, так и конечные значения? В главе 2 мы рассматривали проблемы, которые влечет за собой выпадение участников из исследования, и, учитывая, что вы дочитали книгу до этого места, ваш ответ, скорее всего, будет отрицательным. Мы не можем просто игнорировать выбывание участников и вот почему.

Некоторые из тех, кто сидел на диете, выпали из исследования, потому что не смогли придерживаться разработанной программы питания – им было стыдно и они не могли вернуться. Другие, особенно те, у кого превышение нормы не было чрезмерным, обнаружили, что худеют слишком медленно, начали терять мотивацию и тоже выбыли. Третьи покинули исследование по причинам, не связанным с похудением, – кто-то переехал, сменив работу, а кто-то просто был слишком занят, чтобы посещать клинику, где проводились измерения.

Для первой из этих трех категорий существует четкая связь между вероятностью выпадения и ИМТ, который был бы зарегистрирован, если бы они остались в исследовании. То, что они не придерживались программы питания, означало, что эти люди как минимум худели намного медленнее, чем следовало, а возможно, даже набирали вес. Рубин назвал подобные ситуации, в которых вероятность отсутствия данных связана с их значениями, которые мы имели бы, если бы вели наблюдение, «неигнорируемо потерянными» наблюдениями (иногда их еще называют «содержательно потерянными»). Очевидно, что с такой ситуацией непросто справиться, потому что темные данные будут отличаться от наблюдаемых данных тех, кто остался в исследовании.

Для второго типа выбывших, тех, кто не имел заметного избыточного веса и потерял мотивацию, существовала связь между вероятностью их выпадения и тем, что было измерено – начальным ИМТ. Хотя мы не знаем окончательное значение ИМТ этих людей, ясно, что их выпадение связано с тем, что мы уже измерили. Рубин назвал это «случайно потерянными» наблюдениями. Суть подобных ситуаций в том, что мы располагаем признаками того, что дела идут или могут пойти не так.

Наконец, третья категория состоит из людей, у которых причина выбывания не имела отношения к исследованию. Для таких людей измерения (ни сделанные до их ухода, ни те, которые могли бы быть проведены, останься они в группе) не имеют никакого отношения к их выпадению. Рубин назвал эту категорию «абсолютно случайно потерянными» наблюдениями.

Для людей, далеких от статистики, терминологию Рубина, вероятно, будет сложно запомнить, поэтому я переименую эти три типа механизмов появления недостающих данных.

● Я обозначу неигнорируемо потерянные наблюдения как зависимые от невидимых данных, или UDD (Unseen Data Dependent) для краткости. Вероятность отсутствия наблюдений в этом случае зависит от значений, которые еще неизвестны. В нашем примере вероятность ненаблюдения окончательного значения ИМТ зависит от того, насколько оно высокое: люди с более высокими значениями с меньшей вероятностью захотят его измерить.

● Я обозначу случайно потерянные наблюдения как зависимые от видимых данных, или SDD (Seen Data Dependent) для краткости. Здесь вероятность невозможности наблюдения зависит от данных, которые уже наблюдались. В нашем примере вероятность того, что итоговое значение ИМТ не будет наблюдаться для этой категории, зависит от исходного значения ИМТ, при этом люди с низкими значениями могут выпасть с большей вероятностью.

● Я обозначу абсолютно случайно потерянные наблюдения как независящие от данных, или NDD (Not Data Dependent) для краткости. В этом случае вероятность отсутствия наблюдения никак не зависит от данных, имеющихся или нет. В нашем примере вероятность отсутствия итогового значения ИМТ не связана с другими значениями – ни с теми, которые были нами уже получены, ни с теми, которые мы могли бы получить, если бы наблюдения состоялись.

Заслуга Рубина, выделившего эти категории, становится очевидной, когда мы начинаем задумываться о том, как скорректировать недостающие данные. Последний тип механизма появления недостающих данных – самый простой, поэтому начнем с него.

Перейти на страницу:

Похожие книги

Теория праздного класса
Теория праздного класса

Автор — крупный американский экономист и социолог является представителем критического, буржуазно-реформистского направления в американской политической экономии. Взгляды Веблена противоречивы и сочетают критику многих сторон капиталистического способа производства с мелкобуржуазным прожектерством и утопизмом. В рамках капитализма Веблен противопоставлял две группы: бизнесменов, занятых в основном спекулятивными операциями, и технических специалистов, без которых невозможно функционирование «индустриальной системы». Первую группу Веблен рассматривал как реакционную и вредную для общества и считал необходимым отстранить ее от материального производства. Веблен предлагал передать руководство хозяйством и всем обществом производственно-технической интеллигенции. Автор выступал с резкой критикой капитализма, финансовой олигархии, праздного класса. В русском переводе публикуется впервые.Рассчитана на научных работников, преподавателей общественных наук, специалистов в области буржуазных экономических теорий.

Торстейн Веблен

История / Прочая старинная литература / Финансы и бизнес / Древние книги / Экономика