В начале пандемии наблюдался странный феномен: среди госпитализированных с ковидом доля курильщиков была меньше, чем среди остального населения. Этот факт упоминался и в
Это
Но как бы странно и нелогично это ни выглядело, зависимость была налицо. В чем же тут дело?
Есть проявляющаяся время от времени статистическая аномалия под названием «ошибка коллайдера». Она выдает настолько странные результаты, что настоящие взаимосвязи кажутся исчезнувшими или же на пустом месте создаются воображаемые зависимости. Порой из-за нее реальность искажается с точностью до наоборот.
В главе 7 мы говорили о контролировании искажающих факторов. Представьте, что вы проводите исследование с целью определить, скорость, с которой бегают люди. И заметили такой феномен: в среднем чем больше у человека седых волос, тем медленнее он пробегает милю.
Возможно, седина замедляет бег. Или скорее оба фактора связаны с неким третьим – возможно, с возрастом. Видимо, чем человек старше, тем больше у него седых волос и тем медленнее он бегает.
Если вы сделаете поправку на возраст, зависимость может исчезнуть. Подобные искажающие переменные способны спутать результаты: если вы не будете их учитывать, ваши результаты, скорее всего, окажутся преувеличенными или приуменьшенными. В итоге могут обнаружиться выдуманные связи вроде той, что седые волосы заставляют бежать медленнее.
Это можно отобразить на диаграмме – направленном ациклическом графе. Укажем направление стрелок причинно-следственной связи: искажающая переменная служит причиной двух других: независимой, которую вы выбираете (седые волосы), и зависимой, на которую, по вашему мнению, может оказывать влияние независимая (скорость бега). Нас интересует, влияет ли седина на скорость бега – черная стрелка на нижней диаграмме. Однако, несмотря на корреляцию между этими переменными, на самом деле на обе – как показывают белые стрелки – влияет третий фактор: возраст.
Контроль искажающих переменных необходим – он входит в кодекс чести статистиков. Но это не значит, что нужно контролировать как можно больше переменных, предполагая, что все они искажающие: это не всегда верно. Иногда после добавления в анализ дополнительной переменной две переменные покажутся связанными, хотя на деле это не так.
Вот один пример. Предположим, что актерский талант и физическая привлекательность не связаны; талантливый актер не с большей (и не с меньшей вероятностью) красив, чем любой другой человек. Одна характеристика не дает вам никакой информации о другой.
А теперь представьте, что тот, кто обладает красотой или актерским талантом, может сделать карьеру. Например, стать знаменитым голливудским артистом. Некрасивым
Но если рассматривать голливудских актеров и
Это происходит потому, что знаменитые актеры выбираются на основании этих двух характеристик. Если вы потрясающе привлекательны, от вас не требуют выдающегося таланта, и наоборот. Таким образом все непривлекательные плохие актеры удаляются из выборки немедленно, и диаграмма выглядит так, как на следующей странице.
Похожая ситуация с поступлением в американские колледжи, куда зачисляются способные ученики или хорошие спортсмены. Среди населения в целом эти характеристики не связаны или связаны очень слабо. Но поскольку для поступления в колледж достаточно одного из этих свойств,
Эти примеры объясняются выбором данных: вы рассматриваете только голливудских актеров или только американских студентов. Но то же самое произойдет, если вы рассмотрите все данные, а потом проконтролируете их по этим переменным. Например, если у ребенка температура, он мог отравиться или простудиться. (Возможны и другие причины, но мы ограничимся этими двумя.) Будем считать, что эти две болезни совершенно не связаны: если ребенок заболел одной из них, нет никаких оснований считать, что он с большей вероятностью заболеет и другой.