Диаграмма на рис. 44 учитывает важную информацию: препарат не влияет на пол пациента; пол влияет на риск сердечного приступа (у мужчин риск выше); пациент решил принять лекарство
Рис. 42. Диаграмма причинности для примера с парадоксом Симпсона
В группе женщин сердечный приступ случился у 5,0 % не принимавших лекарство
В группе мужчин сердечный приступ случился у 30 % принимавших лекарство
В среднем (поскольку мужчины и женщины встречаются одинаково часто) сердечный приступ случился у 17,50 % не принимавших лекарство
Это четкий и недвусмысленный ответ, который мы искали. Лекарство
Я не хочу, чтобы из этого примера у вас создалось впечатление, что агрегировать данные всегда неверно, а разделять их всегда верно. Все зависит от процесса, который произвел данные. В парадоксе Монти Холла мы увидели, что, изменив правила игры, мы также изменили ее исход. Тот же принцип работает и здесь. Я использую другую историю, чтобы продемонстрировать, когда объединение данных окажется уместным. Хотя данные будут абсолютно такими же, роль скрытой третьей переменной изменится, и то же произойдет с результатом.
Давайте начнем с предположения о том, что лекарство В снижает артериальное давление (АД), повышение которого, как известно, может привести к сердечному приступу. Естественно, исследователи лекарства
Табл. 9 показывает данные из исследования лекарства
Таблица 9. Вымышленные данные для примера с артериальным давлением
Как видите, прием лекарства
Как обычно, диаграмма причинности все прояснит и позволит нам вывести результат механически, даже не думая о данных и о том, понижает или повышает это лекарство наше кровяное давление. В этом случае скрытая третья переменная — артериальное давление, и диаграмма выглядит, как показано на рис. 43. Здесь артериальное давление — скорее посредник, чем вмешивающийся фактор. Один взгляд на диаграмму показывает, что на взаимосвязь лекарства и сердечного приступа не действует конфаундер (т. е. нет черного хода), поэтому стратификация данных не требуется. Более того, если учитывать только артериальное давление, мы исключим один из каузальных путей (возможно, основной) для действия лекарства. По обеим этим причинам наш вывод прямо противоположен выводу для препарата
С исторической точки зрения примечательно, что Симпсон в статье 1951 года, которая вызвала всю эту шумиху, сделал то же самое, что и я. Он представил две истории с абсолютно одинаковыми данными. В одном примере было интуитивно понятно, что агрегирование данных оказалось, как он выразился, «разумной интерпретацией»; в другом более разумным стало разделение данных. Итак, Симпсон понял, что это парадокс, а не просто инверсия. Однако он не предложил никакого решения, кроме как использовать здравый смысл. И самое важное: он не предположил, что, если история содержит дополнительную информацию, которая позволяет различить «разумное» и «неразумное», возможно, статистикам стоит учесть ее при анализе.
Рис. 43. Диаграмма причинности для примера с парадоксом Симпсона (второй вариант)