Допустим, что мы выполняем исследование на основе наблюдаемых данных и собрали информацию по курению, смоле и раку для каждого из участников. Нам, к сожалению, недоступны данные по гену курильщика, потому что неизвестно, существует ли такой ген. Поскольку таким образом у нас отсутствуют сведения по переменной-конфаундеру, мы не в состоянии заблокировать путь через черный ход курение ← ген курильщика → рак
. Таким образом, мы не можем и использовать поправки черного хода для устранения воздействия конфаундера. Поэтому нам придется искать другие способы. Вместо перемещения черным ходом мы пойдем через парадный вход! В приведенном случае это прямой каузальный путь курение → смола → рак, для которого у нас есть данные по всем трем переменным. Интуитивно мы рассуждаем следующим образом. Прежде всего, мы в состоянии оценить средний каузальный эффект влияния курения на смолу, потому что на схеме нет незаблокированных путей через черный ход от курения к раку — путь курение ← ген курильщика → рак ← смола уже заблокирован схождением у переменной рак. Поскольку этот путь уже заблокирован, нам даже не нужна поправка черного хода. Мы просто наблюдаем вероятности P (смола | привычка курить) и P (смола | отсутствие привычки курить), а разница между ними и будет средним каузальным воздействием курения на смолу. Аналогично диаграмма позволяет нам оценить среднее каузальное воздействие смолы на рак. Чтобы сделать это, мы заблокируем путь черного хода от смолы к раку: смола ← курение ← ген курильщика → рак, введя поправки по курению. Здесь пригодятся уроки главы 4: нам нужны только данные по минимальному достаточному набору переменных, снимающих осложнения (здесь — курение). Тогда формула поправки черного хода даст нам вероятности P (рак | do (смола)) и P (рак | do (отсутствие смолы)). Разница между этими двумя вероятностями и будет средним каузальным воздействием смолы на рак.Теперь нам известно среднее увеличение вероятности отложения смол благодаря курению и среднее увеличение вероятности заболеть раком из-за отложения смол. Можем ли мы как-либо объединить эти вероятности, чтобы получить средний рост заболеваемости раком из-за курения? Да, можем. Рассуждаем мы при этом таким образом: рак возникает двумя путями: при отложении смол и без отложения смол. Если мы заставим кого-либо курить, вероятности этих двух состояний будут соответственно P
(смола | do (курение)) и P (отсутствие смолы | do (отсутствие курения)). Однако, если возникнет состояние отсутствия смолы, вероятность рака будет P (рак | do (отсутствие смолы)). Оценив оба сценария по их относительным вероятностям при do (курение), получится рассчитать общую вероятность возникновения рака по причине курения. Те же аргументы действуют, если мы не даем кому-либо курить, — do (отсутствие курения). Разница между результатами дает нам среднее каузальное воздействие курения по сравнению с воздержанием от него на возникновение рака. Как я только что объяснил, мы оцениваем каждую из двух do-вероятностей, обсужденных выше, прямо из данных, т. е. записываем их математически в терминах вероятностей, не использующих оператор do. Таким образом, математика делает для нас то, чего не могли добиться десятилетия споров и свидетельств конгрессов, — количественно оценить каузальное воздействие курения на рак, конечно, при условии, что наши предположения верны.Процесс, который я только что представил, описывающий вероятность P
(рак | (курение)) в терминах вероятностей, исключающих оператор do, называется поправкой парадного входа. От поправки черного хода он отличается тем, что мы вносим поправки для двух переменных (курение и смола) вместо одной, и эти переменные лежат на прямом пути от курения к раку, а не на пути через черный ход. Для читателей, знакомых с математическим языком, я покажу эту формулу, которой нет в обычных учебниках статистики. Здесь X — это курение, Y — рак, Z — смола, а U (которое подозрительно отсутствует в формуле) — это ненаблюдаемая переменная, ген курильщика:P(Y
|do(X)) = ∑Z P(Z = Z,X) ∑Z P(Y|X = X,Z = Z) P(X = X). (2)Читателям со вкусом к математике будет интересно сравнить эту формулу с формулой для поправки черного хода, которая записывается так:
P(Y
|do(X)) = ∑Z P(Y|X, Z = Z) P(Z = Z). (3)