Идеи, лежащие в основе проверки байесовских гипотез, по сути, те же, что и в судебных разбирательствах, когда нулевая гипотеза обычно означает невиновность, а альтернативная – вину, и мы каждым фактом-доказательством выражаем поддержку той или иной гипотезы в виде отношения правдоподобия. Для проверки научных гипотез точным эквивалентом отношения правдоподобия служит коэффициент Байеса
, с той лишь разницей, что научные гипотезы обычно содержат неизвестные параметры, например реальный эффект при альтернативной гипотезе. Коэффициент Байеса можно получить только посредством усреднения по отношению к априорному распределению неизвестных параметров, что делает именно априорное распределение критически важным. Это самая спорная часть байесовского анализа. Поэтому попытки заменить стандартные проверки значимости байесовскими коэффициентами (в частности, в психологии) стали источником серьезных споров; при этом критики указывают, что за любым байесовским коэффициентом скрываются предположительные априорные распределения для любых неизвестных параметров в обеих – нулевой и альтернативной – гипотезах.Роберт Касс и Адриан Рафтери – два известных байесовских статистика – предложили широко используемую шкалу для байесовских коэффициентов (табл. 11.3). Обратите внимание на ее контраст со шкалой из табл. 11.2
для словесных интерпретаций отношения правдоподобия, применяемых в юриспруденции, где для объявления какого-то факта «очень сильным подтверждением» отношение правдоподобия должно быть 10 000, в отличие от научных гипотез, для которых нужен байесовский коэффициент больше 150. Возможно, это отражает необходимость установить вину на уровне «вне разумных сомнений», в то время как о научных открытиях заявляют на основании более слабых доказательств, многие из которых опровергаются в ходе дальнейших исследований.Таблица 11.3
Шкала Касса и Рафтери для интерпретации коэффициентов Байеса в пользу какой-либо гипотезы[235]
В главе о проверке гипотез говорилось, что P-значение 0,05 эквивалентно только «слабому подтверждению». Частично такое утверждение основано на коэффициентах Байеса: можно показать, что P = 0,05 соответствует (при некоторых разумных априорных условиях при альтернативной гипотезе) коэффициентам Байеса, лежащим между 2,4 и 3,4, что, согласно табл. 11.3, будет «слабым подтверждением». Как мы узнали из главы 10, это привело к предложению понизить пороговый уровень P-значения для объявления об «открытии» до 0,005.
В отличие от проверки значимости нулевой гипотезы, коэффициенты Байеса обращаются с обеими гипотезами симметрично и поэтому могут активно поддерживать нулевую гипотезу. И при готовности поставить в гипотезы априорные вероятности мы могли бы даже вычислить апостериорные вероятности для альтернативных теорий об устройстве мира.
Предположим, что мы, основываясь исключительно на теоретических соображениях, оценили бы вероятность существования бозона Хиггса в 50 %, то есть шансы на его существование – 1:1. Данные, рассмотренные в предыдущей главе, дали P-значение, примерно равное 1 / 3 500 000. Можно вычислить, что это приводит к коэффициенту Байеса 80 000 в пользу существования бозона Хиггса, что считается очень сильным подтверждением даже по юридической шкале.
Соединив это значение коэффициента и априорные шансы 1:1, мы получим апостериорные шансы 80 000:1, или вероятность 0,99999 существования бозона Хиггса. Однако ни юридическое, ни научное сообщество не одобряют подобный анализ, даже если его использовать для идентификации останков Ричарда III.
В этой книге мы перешли от неформального изучения данных путем знакомства с характеристиками выборки (статистиками) к использованию вероятностных моделей для получения доверительных интервалов, P-значений и так далее. Эти стандартные математические инструменты, с которыми сражались поколения учащихся, известны как «классические» или «частотные» методы, поскольку они основаны на свойствах больших выборок.
Альтернативный байесовский подход базируется на совершенно иных принципах. Как мы видели, внешние факты о неизвестных величинах, выраженные в виде априорного распределения в сочетании с вероятностной моделью для данных (правдоподобие) дают итоговое апостериорное распределение, которое становится основой для всех заключений.
Если мы всерьез принимаем такую статистическую философию, выборочные свойства становятся неактуальными. И, потратив годы на изучение того, что 95-процентный доверительный интервал не означает, что истинное значение лежит в нем с вероятностью 95 %[236]
, бедный студент теперь должен все это забыть: байесовский 95-процентный интервал неопределенности означает в точности последнее.Однако дискуссии о «правильном» способе статистических выводов еще сложнее, чем простые споры между «частотниками» и «байесовцами». Как и политические движения, каждая школа делится на несколько фракций, которые нередко конфликтуют друг с другом.