Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных

Иногда для этой цели могут использоваться статистические тесты. Например, мы могли бы разделить мужей на две группы в зависимости от того, указали их жены свой возраст или нет. Разница в моделях распределения возрастов мужей в этих двух группах позволит предположить, что данные не входят в категорию NDD. Американский статистик Родерик Литтл, один из ведущих экспертов в вопросе недостающих данных, разработал общий статистический тест, чтобы определить по нескольким переменным, принадлежат ли такие данные категории NDD[151]. Также есть статистические тесты, позволяющие увидеть, относятся ли данные к категории SDD, но эти тесты чувствительны к предположениям, заложенным в моделях. Это означает, что если ваша базовая модель интерпретации данных неверна, то и выводы будут ошибочными. Опять же, удивляться тут нечему.

Мы убедились, что определение механизма появления недостающих данных, а также той степени, в которой данные отсутствуют по причине своих возможных значений, важно для предотвращения ложных результатов. В некоторых случаях бывает сразу понятно, какой именно механизм задействован, но иногда одновременно действуют два или три механизма. Три разных процесса не являются взаимоисключающими, и то, что некоторые из недостающих данных относятся к категории NDD, не означает, что другие данные не могут отсутствовать по причинам, свойственным категории UDD. Несмотря на это, если мы сможем классифицировать отсутствующие значения, то тем самым встанем на путь преодоления проблемы недостающих данных.

Вооружившись классификацией по трем категориям (UDD/SDD/NDD), мы можем приступить к изучению практических методов работы с темными данными. В следующем разделе мы начнем знакомство с ними с самых простых – и потому не всегда эффективных – методов.

<p>Работа с имеющимися данными</p>

Определение механизма появления недостающих данных дает нам мощное средство решения проблемы. Но оно требует довольно глубокого понимания, поэтому часто используются более простые методы, в том числе и широкодоступные в пакетах статистических программ. К сожалению, «более простые» и «широкодоступные» необязательно означает «эффективные». Давайте рассмотрим некоторые из этих методов и то, как они соотносятся с классификацией UDD/SDD/NDD.

В табл. 6 показана небольшая выборка, иллюстрирующая данные, собранные на начальном этапе исследования диет для похудения. Аббревиатура «Н/Д» означает, что значения ячеек недоступны, поскольку не были зарегистрированы.

Анализ полных наблюдений

Во-первых, мы можем использовать только заполненные без пропусков строки таблицы, то есть такие, которые содержат наблюдения для всех характеристик. Это имеет смысл, если мы полагаем, что темные данные принадлежат категории NDD, и по понятным причинам такой метод часто называют анализом полных наблюдений. Однако если вы внимательно посмотрите на табл. 6, то сразу заметите в чем состоит проблема: даже если темные данные действительно относятся к категории NDD, во всех строках таблицы отсутствует хотя бы одно значение. Если исключить из анализа неполные строки, то у нас вообще не останется данных!

Конечно, это исключительный и, надо признать, искусственный пример, но даже в менее экстремальных случаях такой подход может означать резкое уменьшение размера выборки. Если со спокойной совестью можно делать выводы на основе 1000 наблюдений, то 20 наблюдений из этой тысячи вряд ли можно считать основанием для тех же выводов. Даже если бы данные принадлежали категории NDD и 20 полных наблюдений должным образом представляли генеральную совокупность, дисперсия, возникающая из-за столь малого размера выборки, могла бы заставить нас сомневаться в точности любых выводов.

И, конечно, надо отметить, что если темные данные не принадлежали категории NDD, то даже небольшое уменьшение размера выборки может означать, что мы остались с искаженным набором данных на руках.

Использование всех доступных данных

Вторая столь же нехитрая стратегия – использовать все имеющиеся у нас данные. Например, у нас есть семь строк, содержащих значения возраста, поэтому можно вычислить средний возраст, используя только эти семь значений. Это приемлемо, если недостающие значения возраста не имеют общих признаков, отличающих их от имеющихся данных, то есть если они относятся к категории NDD. Но, если недостающие значения отличаются от собранных, мы можем сделать неправильный вывод. Например, если в табл. 6 эти значения будут указывать на больший возраст, то такой подход приведет к занижению среднего возраста.

Перейти на страницу: