Начиная с 1920-х годов пороговым уровнем вероятности случайного результата, необходимым, чтобы открытие можно было признать «статистически значимым» и пригодным для публикации, считают 1/20. Когда эта вероятность ниже, говорят, что P-значение меньше 0,05. Одна двадцатая означает 5-процентную вероятность того, что рассматриваемое событие произошло случайно.
Беда в том, что, если взять всего двадцать исследовательских групп, одна из них с очень высокой вероятностью может получить такой случайный результат. Девятнадцать групп займутся другими идеями, но двадцатая придет в чрезвычайно сильное волнение, так как будет считать, что получила значимый результат, соответствующий статистическому критерию пригодности для публикации. Легко понять, почему при использовании этого порогового критерия в научной литературе появляется такое количество сумасбродных гипотез. Именно поэтому появляются призывы перепроверять многие из результатов, опубликованных благодаря тому, что они прошли эту проверку на статистическую значимость.
Напротив, если P-значение результата равно 0,06 (то есть вероятность того, что он был получен случайно, составляет 6 процентов), его считают слишком недостоверным, чтобы его можно было признать статистически значимым, и часто отбрасывают. Однако такой критерий отбраковки гипотез может быть не менее опасен. Но об отрицательных результатах неинтересно писать в новостях. Поэтому девятнадцать исследовательских групп не пишут о том, что обнаружили отсутствие связи.
С такими порогами следует обращаться чрезвычайно осторожно. Если вы хотите определить, «честную» ли монету вы подбрасываете, такой критерий может быть вполне пригодным. Но представьте себе, что вы пытаетесь понять, связано ли количество неблагоприятных исходов у пациентов некоего врача с его некомпетентностью. Не хотелось бы расследовать деятельность каждого двадцатого врача. И все же в какой момент следует начинать беспокоиться?
Например, в сентябре 1998 года доктор Гарольд Шипман, уважаемый семейный врач, был арестован за то, что вколол по меньшей мере 215 пациентам смертельные дозы опиатов. Впоследствии группа статистиков, которую возглавлял Дэвид Шпигельхальтер, заявила, что аномалии в данных Шипмана можно было обнаружить гораздо раньше при помощи теста, применявшегося во время Второй мировой войны для контроля качества военных материалов; это могло спасти 175 жизней.
С порогами значимости следует обращаться с осторожностью. В марте 2019 года 850 ученых написали в журнал Nature письмо, критикующее, как они писали, одержимость научного сообщества использованием P-значений в качестве эталона значимости научных открытий. «Мы не призываем запретить P-значения, – говорилось в этом письме, – и не утверждаем, что их нельзя использовать в качестве критерия принятия решений в некоторых специализированных приложениях (например, при определении соответствия производственного процесса каким-либо стандартам качества). Мы также не выступаем за вседозволенность, при которой недостаточно обоснованные результаты считались бы заслуживающими доверия… но призываем прекратить общепринятое дихотомическое использование P-значений для принятия решений о том, противоречит ли результат научной гипотезе или подтверждает ее».
Коллективный разум
Один из полезных шорткатов, которые изобрел статистик сэр Фрэнсис Гальтон, заключался в следующем: опросить множество простых людей, чтобы всю тяжелую работу сделали они, а потом завершить исследование при помощи некоторых хитроумных математических операций. Хотя сегодня Гальтона справедливо критикуют за безнравственные расистские теории в области евгеники, его теория коллективного разума по-прежнему считается важным инструментом анализа больших данных. Собственно говоря, он наткнулся на это открытие случайно, когда пытался доказать, что справедливо прямо обратное. Более того, он настолько не верил в коллективный разум среднестатистических членов общества, что был активным противником идеи предоставления широкой общественности права участвовать в политической жизни: «Ибо глупость и заблуждения многих мужчин и женщин настолько огромны, что в это почти невозможно поверить».
Надеясь доказать свою правоту, Гальтон решил поставить опыт, использовав для этого ярмарку, проходившую в городе Плимуте, где он жил. Там был устроен конкурс, участникам которого предлагалось угадать вес забитого и освежеванного вола. 800 участников конкурса заплатили по шесть пенсов и высказали свои догадки. Хотя среди них могли быть и фермеры, большинство составляли посетители ярмарки, не обладавшие особенными знаниями в этой области. «Средний участник конкурса был, вероятно, настолько же способен правильно угадать вес освежеванного вола, насколько средний избиратель способен судить о достоинствах большинства политических вопросов, по которым он голосует», – презрительно писал Гальтон.