Примерно в 1923 или 1924 году Фишер догадался, что единственный дизайн исследования, неподвластный «джинну», — это случайность. Представим, что мы ставим этот же самый эксперимент 100 раз на поле с неизвестным распределением плодородия почвы. Каждый раз вы назначаете то или иное удобрение для того или иного участка поля случайным образом. Иногда вам очень не везет, и вы назначаете удобрение 1 как раз на те участки, которые сами по себе наименее плодородны. В другой раз, наоборот, оно случайно попадает на плодородные участки. Но если вы свободно и случайно тасуете части поля при всякой следующей итерации эксперимента, можно гарантировать, что эффект везения или невезения нивелируется. В этом случае удобрение 1 будет назначено на определенной общей выборке участков поля, репрезентативно представляющей поле в целом. Это как раз то, что и нужно для контролируемого опыта. Поскольку распределение плодородности по полю остается одним и тем же во всех итерациях эксперимента — «джинн» не может его изменить, — он оказывается вынужден ответить (ну чаще всего!) на тот каузальный вопрос, который вы ему задали.
С нашей современной точки зрения в эпоху, когда рандомизированные опыты — это золотой стандарт, все вышесказанное может казаться очевидным. Но в то время сама идея случайности в схеме эксперимента привела коллег Фишера на статистическом поприще в откровенный ужас. Неприязнь усиливало, вероятно, и то, что Фишер буквально вынимал карты из тасованной колоды, назначая то или иное удобрение для определенных участков поля. Подчинить науку причудам шанса — каково!
Рис. 23. Одна из множества придуманных инноваций Р. Э. Фишера — схема исследования «латинский квадрат», согласно которой один участок, засаженный данным типом растений, появляется в каждой строке (тип удобрения) и в каждом столбце (тип почвы). Подобные схемы все еще используются на практике, но Фишер затем убедительно показал, что рандомизированная схема еще более эффективна.
Однако Фишер хорошо понимал, что не очень точный ответ на правильный вопрос гораздо лучше, чем очень точный ответ на неверный вопрос. Если задавать «джинну» неправильные вопросы, вам никогда не выяснить у него то, что вы хотите знать. Если же вы ставите вопрос правильно, отдельные неверные ответы — гораздо меньшая проблема. Вы можете оценить, насколько эти ответы неточны, потому что неточность образуется в результате процедуры рандомизации (которая известна и понятна), а вовсе не из-за характеристик почвы на участках (которые неизвестны).
Таким образом рандомизация дает нам два преимущества. Первое — она элиминирует системную ошибку (благодаря ей мы правильно задаем вопрос природе). Во-вторых, она позволяет исследователю оценить неточность ответа. Тем не менее, согласно историку Стивену Стиглеру, Фишер ратовал за рандомизацию преимущественно из-за второго момента. В подсчете неточности, или, статистическим языком, ошибки, ему не было равных в мире, он разработал для этого множество новых математических процедур. При этом его понимание вмешивающихся переменных и их устранения было чисто интуитивным, поскольку ему недоставало математической символики, для того чтобы адекватно передать то, что он искал.
Теперь, через 90 лет, мы можем воспользоваться оператором
Начнем, как обычно, с каузальной диаграммы. Модель 1, показанная на рис. 24, показывает, как урожайность каждого участка определяется при нормальных условиях, когда фермер решает, как удобрять тот или иной участок, руководствуясь предвзятостью или прихотью. Вопрос, который он хочет задать джинну по имени Природа, таков: «Какова будет урожайность при однородном применении удобрения 1 (в сравнении с удобрением 2) на всем поле?». Или в терминах оператора
Рис. 24. Модель 1: неправильно контролируемое исследование
Если фермер ставит эксперимент наивно, например применяя удобрение 1 на верхней части поля, а удобрение 2 на нижней, то в качестве вмешивающейся переменной у него, вероятно, окажется дренированность. Если в один год он применит удобрение 1, а на другой — удобрение 2, то вмешивающейся переменной окажется погода. В любом случае сравнение окажется необъективным.
То, что хотел бы знать фермер, описывается моделью 2, когда все участки получают одно и то же удобрение (рис. 25). Как объяснялось в главе 1, действие оператора
Рис. 25. То, что мы хотели бы знать