В 1930-е годы в научных кругах вспыхнула трехсторонняя схватка. Площадкой для спора стало Королевское статистическое общество, которое тогда (как и сейчас) тщательно протоколировало и публиковало дискуссии о работах, представленных на его заседаниях. Когда в 1934 году Ежи Нейман предложил теорию доверительных интервалов, Артур Боули, ярый сторонник байесовского подхода, тогда известного как обратная вероятность, отмечал: «Я совсем не уверен, что “доверие” – это не “злоупотребление доверием”». А затем предложил байесовский подход: «Действительно ли это продвигает нас дальше?.. Действительно ли ведет нас к тому, что нам необходимо, – к шансам, что во Вселенной, где мы берем выборки, эта доля находится в… определенных границах? Я думаю, что нет». Издевательское связывание доверительных интервалов со злоупотреблением доверием в последующие десятилетия продолжилось.
В следующем, 1935 году началась открытая война между двумя небайесовскими лагерями – Рональдом Фишером с одной стороны и Ежи Нейманом и Эгоном Пирсоном – с другой. Подход Фишера базировался на оценивании с использованием функции правдоподобия, выражающей относительное подтверждение для различных значений параметра, которое давали данные, а проверка гипотез основывалась на P-значениях. Напротив, подход Неймана – Пирсона, известный как «индуктивное поведение», в значительной степени фокусировался на принятии решений: если вы решаете, что истинный ответ находится в 95-процентном доверительном интервале, то будете правы 95 % времени и должны контролировать ошибки первого и второго рода при проверке гипотез. Ученые даже предлагали «принимать» нулевую гипотезу, если она включала 95-процентный доверительный интервал, – концепция, которая Фишеру казалась кощунством (и впоследствии была отвергнута статистическим сообществом).
Сначала Фишер обвинил Неймана «в ряде заблуждений, выявленных в его статье». Тогда на защиту Неймана встал Пирсон, сказав, что, «хотя он знает о распространенной вере в непогрешимость профессора Фишера, он должен в первую очередь просить позволения усомниться в мудрости обвинений какого-нибудь коллеги в некомпетентности, если при этом не продемонстрированы успехи в овладении предметом спора». Желчные дискуссии между Фишером и Нейманом длились десятилетиями.
Борьба за идеологическое лидерство в статистике продолжилась и после Второй мировой войны, но со временем более классические небайесовские школы стали применять прагматичное сочетание подходов: эксперименты в целом разрабатывались с использованием теории ошибок первого и второго рода по Нейману – Пирсону, а их анализ проводился с фишеровской точки зрения – с P-значениями в качестве меры подтверждения. Как мы видели в контексте клинических испытаний, этот странный сплав, похоже, неплохо себя проявил, и в итоге выдающийся (байесовский) статистик Джером Корнфилд заметил: «Парадокс состоит в том, что, несмотря ни на что, возникла прочная конструкция непреходящей ценности, которой не хватает всего лишь надежного логического фундамента, на котором она, как изначально предполагалось, должна быть построена»[237]
.Предполагаемые преимущества традиционных статистических методов перед байесовским подходом включают явное отделение фактов в данных от субъективных факторов, общую простоту вычислений; распространенность и установившиеся критерии «значимости»; доступность программного обеспечения; существование робастных методов, при которых нет нужды делать сильные предположения о форме распределения. В то же время сторонники байесовской теории утверждают, что сама возможность использовать внешние и даже явно субъективные элементы – это то, что позволяет делать более мощные выводы и прогнозы.
Статистическое сообщество долгое время было втянуто в злобные споры об основах предмета, но сейчас объявлено перемирие и нормой стал более универсальный подход, когда методы выбираются в соответствии с практическими потребностями, а не идеологическими сертификатами, выданными школами Фишера, Неймана – Пирсона или Байеса. Это выглядит разумным и прагматичным компромиссом в дискуссии, которая нестатистикам может показаться довольной запутанной. Я думаю, что разумные статистики в целом придут к сходным заключениям, несмотря на расхождения в отношении фундаментальных основ. Проблемы, возникающие в статистике, обычно появляются не из-за различной философии, лежащей в основе используемых методов. Чаще их причина – не лучший проект эксперимента, данные со смещением, неправильные предположения и – возможно, самое важное – отсутствие надлежащей научной практики. И в следующей главе мы рассмотрим эту темную сторону статистики[238]
.