Это сложная, но важная идея. Когда Арбетнот проверял свою нулевую гипотезу, согласно которой мальчики и девочки рождаются равновероятно, он смог легко выяснить, что наблюдаемые данные ни в малейшей степени не совместимы с нулевой гипотезой – шансы, что по чистой случайности мальчики будут численно превосходить девочек 82 года подряд, ничтожно малы. В более сложных ситуациях выяснить, совместимы ли данные с нулевой гипотезой, не так просто. Однако приведенный ниже тест перестановки отображает мощную процедуру, позволяющую избежать сложной математики.
Представьте, что все 54 человека выстроились в ряд, сначала 14 женщин, а затем 40 мужчин, и каждому присвоен номер от 1 до 54. Допустим, у каждого есть билет, указывающий, какая рука у него при скрещивании сверху – левая или правая. А теперь вообразите, что все эти билеты смешали в шляпе и раздали присутствующим наугад. Это пример того, каких результатов можно ожидать, если бы нулевая гипотеза была верна, ведь при случайной раздаче скрещивание рук и пол никак не связаны.
Но даже при случайном распределении доля «держащих сверху правую руку» не будет в точности совпадать для мужчин и женщин (просто из-за чистой случайности), и мы можем вычислить наблюдаемую разницу в долях для этой случайной раздачи билетов. Затем мы могли бы повторить процесс, скажем 1000 раз, и посмотреть, какое распределение будет у этой разницы. Результаты приведены на рис. 10.2(a): показан разброс наблюдаемых разниц – некоторые в пользу мужчин, некоторые в пользу женщин – с центром в нуле. Фактически наблюдаемая разница находится недалеко от центра распределения.
Рис. 10.2
Эмпирическое распределение разницы между долями женщин и мужчин, которые при скрещивании рук кладут сверху правую руку: (a) для 1000 случайных перестановок, (b) для всех равновероятно возможных перестановок по отношению к скрещиванию рук. Наблюдаемое различие в пропорциях (7 %) обозначено вертикальной пунктирной линией
В качестве альтернативы (при наличии времени) можно взять все возможные перестановки билетов, не ограничиваясь моделированием 1000 симуляций. Каждая перестановка даст какую-то наблюдаемую разницу в долях «праворуких» у мужчин и женщин, и, нанеся на график все результаты, мы получим более гладкое распределение, чем построенное по 1000 симуляциям.
К несчастью, таких перестановок масса, и даже если вычислять их со скоростью миллион в секунду, на это уйдет число лет с 57 нулями[190]. К счастью, нам незачем производить эти вычисления, поскольку распределение для наблюдаемой разницы в таких долях при нулевой гипотезе можно найти теоретически: оно представлено на рис. 10.2(b) и основано на так называемом гипергеометрическом распределении.
Рис. 10.2 показывает, что реально наблюдаемая разница в долях «праворуких» мужчин и женщин (7 % в пользу женщин) лежит достаточно близко к центру распределения для разниц, которых можно было бы ожидать, если бы никакой связи вообще не было. Нам нужна мера, характеризующая, насколько близко к центру лежит наблюдаемое значение, и одна из таких характеристик – это площадь хвоста распределения. Например, площадь части фигуры, расположенной справа от вертикальной пунктирной линии, составляет 0,45, или 45 %.
Это число именуется P-значением[191] и считается одним из самых полезных понятий в статистике, а потому заслуживает строгого определения:
Но тут есть важный нюанс, что мы подразумеваем под «экстремальным» результатом? Наше P-значение 0,45 одностороннее, так как указывает, насколько вероятно получить в эксперименте не меньшую разницу в пользу только женщин, если нулевая гипотеза верна. Это P-значение используется при так называемых односторонних критериях. Но ведь большая разница в пользу мужчин тоже заставила бы нас сомневаться в справедливости нулевой гипотезы. Поэтому мы должны также вычислить вероятность получить отклонение не меньше 7 % в