Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

В идеальном мире измерены были бы все – и в начале шестимесячного периода, и в конце, но наш мир не идеален. Поэтому и возникает вопрос, на который нам нужно ответить: как отсутствие результатов тех, кто выпал из исследования, исказит его выводы? Выпадения в группе NDD произошли по причинам, не связанным с исследованием. Нет никаких оснований считать, что эти выпавшие данные могли иметь нечто общее, отличающее их от данных тех, кто остался в группе. По сути, это как если бы мы с самого начала просто взяли меньшую выборку. В среднем эти неизмеренные значения не повлияют на результаты анализа, поэтому мы можем смело их игнорировать. NDD – самая простая ситуация и, вероятно, самая редкая. В этом случае темные данные вообще не имеют значения.

Но если бы все было так просто!

Второй класс Рубина – SDD – уже более коварный. Отказ этих людей от участия в исследовании зависит от начального значения их ИМТ, уже измеренного и вполне видимого. В частности, те, у кого это начальное значение низкое, чаще выпадают и не доходят до этапа регистрации финального значения, тогда как те, у кого начальный ИМТ более высокий, меньше склонны к выбыванию.

Здесь важно отметить, что такой тип отсутствия данных не искажает наблюдаемую взаимосвязь между начальным и конечным значениями ИМТ. Для любого известного начального значения может не быть значения конечного, потому что некоторые участники покидают исследование, но те, которые остаются в нем, будут надлежащим образом представлять распределение окончательных значений ИМТ для людей с похожим начальным значением. Другими словами, мы можем оценить взаимосвязь между начальными и конечными значениями, используя только имеющиеся данные: это не исказит нашего представления о соотношении. Затем мы можем использовать это расчетное соотношение, чтобы, в свою очередь, дать оценки конечных значений ИМТ для любого начального значения.

Наконец, у нас есть первый класс Рубина – случаи UDD. Эти случаи по-настоящему сложные. Данные отсутствуют из-за значений ИМТ, которые мы могли бы узнать, но которых, конечно, не знаем. Они не выпали случайным образом, не стали следствием других наблюдаемых значений. Единственный способ оценить такие данные – получить информацию откуда-то еще или предположить самому, почему именно эти значения отсутствуют.

Вот еще один пример.

Специалист по социальной статистике Кэти Марш описала набор данных, собранных в 1980 г. путем случайной выборки, в которую вошли 200 британских супружеских пар[148]. Мы используем эту выборку для оценки среднего возраста замужних женщин в Великобритании в то время. Беглый взгляд на данные Кэти Марш показывает, что имеются недостающие значения, а возраст некоторых жен не зафиксирован. Вопрос заключается в том, влияют ли эти темные данные на подход к анализу и делают ли они недействительными выводы, к которым мы можем прийти? Как и в примере с ИМТ, ответ зависит от того, по какой причине данные отсутствуют.

Ненаблюдаемые значения возраста жен могут принадлежать категории NDD и не быть связаны с другими значениями данных в исследовании, известными и неизвестными.

Ненаблюдаемые значения могут также принадлежать категории SDD и зависеть от других значений, которые мы уже имеем. Предположим для упрощения, что решение жены о том, следует ли ей называть свой возраст, зависит исключительно от возраста ее мужа, а от значений прочих переменных не зависит. Так, жены, мужья которых старше их самих, могут вдвое реже сообщать свой возраст, чем жены, чьи мужья младше. Предположим также, что мы всегда знаем возраст мужа.

Наконец, ненаблюдаемые значения могут быть из категории UDD, и отсутствие возраста жен будет зависеть от самого этого возраста. Это вполне резонно: еще не так давно в западном мире считалось неприличным спрашивать даму о ее возрасте, а если вопрос все же задавался, то отвечали на него крайне неохотно. Вот отрывок из рассказа «Сват» британского писателя Саки, опубликованного в книге «Хроники Кловиса» (The Chronicles of Clovis) в 1911 г.[149]:

«Кризис наступил, – ответил Кловис, – когда она внезапно двинула теорию, что негоже ей по ночам сидеть дома одной, и потребовала, чтобы к часу я всегда возвращался. Только представь себе! А ведь мне восемнадцать, по крайней мере было в мой последний день рождения».

«В твои последние два дня рождения, если уж быть математически точным».

«Ну, это не моя вина. Я не собираюсь становиться 19-летним, поскольку моей матери должно быть 37 и не больше. Возраст все-таки влияет на внешний вид».

Перейти на страницу:

Похожие книги

Теория праздного класса
Теория праздного класса

Автор — крупный американский экономист и социолог является представителем критического, буржуазно-реформистского направления в американской политической экономии. Взгляды Веблена противоречивы и сочетают критику многих сторон капиталистического способа производства с мелкобуржуазным прожектерством и утопизмом. В рамках капитализма Веблен противопоставлял две группы: бизнесменов, занятых в основном спекулятивными операциями, и технических специалистов, без которых невозможно функционирование «индустриальной системы». Первую группу Веблен рассматривал как реакционную и вредную для общества и считал необходимым отстранить ее от материального производства. Веблен предлагал передать руководство хозяйством и всем обществом производственно-технической интеллигенции. Автор выступал с резкой критикой капитализма, финансовой олигархии, праздного класса. В русском переводе публикуется впервые.Рассчитана на научных работников, преподавателей общественных наук, специалистов в области буржуазных экономических теорий.

Торстейн Веблен

История / Прочая старинная литература / Финансы и бизнес / Древние книги / Экономика