Арбетнот предоставил первый зафиксированный пример такой процедуры: при нулевой гипотезе (когда девочки и мальчики рождаются с равной вероятностью) вероятность того, что 82 года подряд мальчики будут рождаться чаще девочек, равна 1/282. Но так определяется «экстремальность» только в терминах превосходства мальчиков. А поскольку мы можем сомневаться и в нулевой гипотезе, что 82 года подряд девочки будут рождаться чаще мальчиков, то должны удвоить это число, чтобы получить экстремальный результат в обоих направлениях. Поэтому число 1/282 можно считать первым установленным двусторонним P-значением, хотя этот термин появился только через 250 лет.
Кстати, моя небольшая выборка не выявила никакой связи между полом и скрещиванием рук, да и другие, более научные исследования не обнаружили взаимосвязи между поведением при скрещивании рук, полом, леворукостью и остальными признаками.
Идея статистической значимости проста: когда P-значение достаточно мало, мы говорим, что результаты статистически значимы. Этот термин был популяризирован Рональдом Фишером в 1920-х годах и, несмотря на критику, которую мы рассмотрим позже, продолжает играть в статистике важную роль.
Рональд Фишер был незаурядным, но трудным человеком. Незаурядным потому, что его считают пионером в двух областях – генетике и статистике. А трудным, поскольку, имея весьма скверный характер, мог крайне негативно отзываться о тех, кто (по его мнению) оспаривал его идеи; к тому же его репутации сильно повредила поддержка евгеники и критика доказательств связи между курением и раком легких. И хотя его личная репутация пострадала в результате обнаружения его финансовых связей с табачной промышленностью, на научной репутации ученого это никак не сказалось, так как его идеи неизменно находят новое применение при анализе больших массивов данных.
Как упоминалось в главе 4, Фишер развил идею рандомизации для сельскохозяйственных испытаний во время работы на опытной сельскохозяйственной станции в Ротамстеде. Потом он продемонстрировал идеи рандомизации в своем знаменитом тесте с дегустацией чая, в ходе которого некая женщина (по имени Мюриэль Бристоль) заявила, что может по вкусу определить, добавляли в чашку молоко
В четыре чашки налили сначала чай, а затем молоко, а в четыре – сначала молоко, а потом чай. Все восемь чашек в случайном порядке выставили в ряд и сообщили Мюриэль, что здесь по четыре чашки каждого вида наливания. Говорят, она правильно определила все чашки. Если считать нулевой гипотезой то, что Мюриэль просто угадывала, то с помощью гипергеометрического распределения нетрудно показать, что вероятность этого равна 1/70 ≈ 1,4 %[192]. Такое P-значение считается маленьким[193], а потому результат можно объявить статистически значимым подтверждением того, что Мюриэль не угадывала, а действительно умела различать, в какой последовательности доливали молоко.
Подводя итог, мы действуем следующим образом.
1. Ставим вопрос в терминах нулевой гипотезы, которую хотим проверить. Обычно она обозначается
2. Выбираем какую-нибудь статистику критерия, которая, если ее величина будет достаточно экстремальной, позволит нам поставить под сомнение нулевую гипотезу (часто большие значения такой статистики указывают на несовместимость с нулевой гипотезой).
3. Создаем выборочное распределение этой статистики при условии, что нулевая гипотеза верна.
4. Проверяем, находится ли наблюдаемая величина в хвостах этого распределения, что определяем с помощью P-значения: какова вероятность наблюдаемого экстремального распределения в случае, если верна нулевая гипотеза. Численно эта вероятность представляет собой площадь части распределения, лежащей правее наблюдаемой величины.
5. Аккуратно подходим к определению, что такое «экстремальная» величина, – например, если с нулевой гипотезой несовместимы и большие положительные, и большие отрицательные значения статистики критерия, то P-значение должно это учитывать.
6. Объявляем результат статистически значимым, если P-значение меньше некоторой критической пороговой величины.
Рональд Фишер использовал в качестве удобных порогов значимости P < 0,05 и P < 0,01 и составил таблицы критических значений статистики критерия, которые нужно превзойти, чтобы получить такие уровни значимости. Ввиду популярности этих таблиц числа 0,05 и 0,01 стали общепринятыми, хотя сейчас рекомендуется указывать точные P-значения. Важно подчеркнуть, что точное P-значение зависит не только от истинности нулевой гипотезы, но и ото всех других допущений, лежащих в основе статистической модели, например отсутствия систематической ошибки, независимости наблюдений и так далее.
Весь этот процесс известен как проверка значимости нулевой гипотезы (NHST – Null Hypothesis Significance Testing), и, как мы увидим далее, он стал источником серьезных разногласий. Но сначала посмотрим, как идеи Фишера работают на практике.