Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Мы уже сталкивались с экономическими примерами, особенно из категории SDD, когда в главе 2 рассматривали финансовые показатели. Например, индекс Dow Jones Industrial Average представляет собой сумму цен акций 30 крупнейших публичных компаний США, разделенную на поправочный коэффициент Доу. Но компании приходят и уходят – состав индекса Dow Jones менялся более 50 раз с момента его запуска в 1896 г. В частности, компании могут быть исключены из индекса, если начинают испытывать финансовые трудности или в силу изменений в экономике. Это означает, что индекс отражает результаты только тех компаний, которые достаточно успешны. Но признаки ухудшения результатов или экономических изменений должны предшествовать решению об исключении компании из индекса – это данные категории SDD.

Аналогичным образом из-за ухудшившихся результатов компании исключаются из индекса S&P 500 – средневзвешенного индекса акций, куда входят 500 компаний с высокой рыночной капитализацией. Решение о том, какие компании исключить, должно приниматься на основе данных, доступных до исключения (при условии, что это не ретроспективные данные!). Поэтому и здесь данные, описывающие исключенные компании, отсутствуют в расчете индекса и могут быть отнесены к категории SDD.

В качестве последнего примера с финансовыми индексами давайте вспомним, как в главе 2 мы обнаружили, что ошибка выжившего затронула не только индексы Dow Jones и S&P 500, но и индексы хедж-фондов. Например, Barclay Hedge Fund Index основан на среднем арифметическом чистой доходности хедж-фондов, составляющих базу данных Barclay. Но фонды, показатели которых ухудшились до такой степени, что они были закрыты, туда не включаются. Однако, повторюсь, ухудшение показателей должно стать очевидным до того, как фонд будет закрыт, поэтому эти данные также представляют собой категорию SDD.

<p>Определение механизма появления недостающих данных</p>

Классификация по категориям NDD, SDD, UDD очень полезна, поскольку для разных механизмов возникновения недостающих данных требуются разные типы решений. Это означает, что первым делом необходимо определить, к какой категории относится конкретная проблема с отсутствием данных, – если мы ошибемся на этом этапе, наши выводы могут быть неверными. В примере с определением возраста жен мы могли бы сделать неверный вывод, если бы сочли, что вероятность отсутствия значения возраста не зависит ни от возраста самой жены, ни от возраста ее мужа. Аналогичным образом если бы мы полагали, что недостающие данные принадлежат категории SDD, но при этом ошибочно думали, что решение жены назвать свой возраст зависит исключительно от возраста ее мужа, то вновь попали бы в западню неверных выводов. Это вполне естественно, ведь любой анализ включает в себя предположения о том, как возникли данные, и если эти предположения ошибочны, то и выводы, сделанные на их основе, будут такими же. Кроме того, из этого следует, что нужно быть максимально уверенным в своих предположениях и по возможности находить способы их проверки и подтверждения. Для этого существуют различные стратегии, которые мы и рассмотрим далее.

Возможно, основной из таких стратегий является использование собственного опыта в той области, которую описывают данные. Если вы, скажем, исследуете сферу, где люди особенно чувствительны к сообщенным ими данным, то можете предположить, что недостающие значения принадлежат категории UDD. Например, в исследовании, касающемся употребления кокаина, недостающие данные с большей вероятностью будут из категории UDD, чем в исследовании на тему использования общественного транспорта.

В целом можно заключить, что другие исследования на ту же тему или исследования из смежных областей способны пролить свет на причину отсутствия данных. Гарвардский статистик Сяо-Ли Мэн элегантно использовал этот подход, чтобы получить количественную оценку влияния недостающих данных на сделанные выводы[150]. Он разложил степень точности оценки на части, одной из которых была корреляция между отсутствием значения и величиной этого значения. Затем он показал, как в некоторых случаях эта корреляция может быть получена из других источников данных, описывающих сходные проблемы.

Более активная стратегия выяснения причин появления недостающих данных – попытаться собрать некоторые из них. Подробно мы рассмотрим этот метод в следующем разделе.

Перейти на страницу:

Похожие книги

Теория праздного класса
Теория праздного класса

Автор — крупный американский экономист и социолог является представителем критического, буржуазно-реформистского направления в американской политической экономии. Взгляды Веблена противоречивы и сочетают критику многих сторон капиталистического способа производства с мелкобуржуазным прожектерством и утопизмом. В рамках капитализма Веблен противопоставлял две группы: бизнесменов, занятых в основном спекулятивными операциями, и технических специалистов, без которых невозможно функционирование «индустриальной системы». Первую группу Веблен рассматривал как реакционную и вредную для общества и считал необходимым отстранить ее от материального производства. Веблен предлагал передать руководство хозяйством и всем обществом производственно-технической интеллигенции. Автор выступал с резкой критикой капитализма, финансовой олигархии, праздного класса. В русском переводе публикуется впервые.Рассчитана на научных работников, преподавателей общественных наук, специалистов в области буржуазных экономических теорий.

Торстейн Веблен

История / Прочая старинная литература / Финансы и бизнес / Древние книги / Экономика