Как указывалось ранее, разница в среднем объеме головного мозга между выборкой детей-аутистов и контрольной группой составляет 71,6 кубических сантиметра. Стандартная ошибка для этой разницы – 22,7. Это означает, что разница между средними значениями двух выборок больше нуля на три стандартные ошибки. Можно ожидать, что столь (или еще более) экстремальный исход окажется возможным лишь в 2 случаях из 1000, если эти выборки сформированы из одной и той же совокупности.
Как отмечалось выше, авторы статьи, опубликованной в Archives of General Psychiatry, сообщают о
Несмотря на все достоинства статистического вывода, он не лишен недостатков. И они становятся очевидны из примера, приведенного в начале главы. Если вы помните, в нем речь шла о моем преподавателе статистики, заподозрившем меня в обмане. Процесс статистического вывода основывается на понятии вероятности, а вовсе не на абсолютной и не вызывающей ни малейшего сомнения достоверности. Таким образом, когда речь идет о проверке той или иной гипотезы, мы имеем дело с фундаментальной дилеммой.
Эта статистическая реальность заявила о себе во весь голос в 2011 году, когда Journal of Personality and Social Psychology готовился опубликовать одну научную статью, которая на первый взгляд ничем особенным не выделялась{63}
. Некий профессор Корнелльского университета предложил нулевую гипотезу, а затем, на основе полученных им экспериментальных результатов, отверг ее с уровнем значимости 0,05. Этот результат произвел настоящий фурор в научных кругах, а также широко освещался в ведущих средствах массовой информации, таких как The New York Times.Достаточно сказать, что статьи в Journal of Personality and Social Psychology обычно не привлекают к себе внимания СМИ. Что же вызвало на сей раз столь повышенный интерес прессы? Упомянутый мной исследователь проверял способность человека к экстрасенсорному восприятию (Extra Sensory Perception – ESP). Основная гипотеза ученого отрицала существование ESP; альтернативная подтверждала. Чтобы изучить вопрос, исследователь предложил большой выборке людей, которых он пригласил поучаствовать в эксперименте, рассмотреть два «занавеса», представленных на экране монитора. Компьютерная программа случайным образом помещала некое эротическое изображение то за одним, то за другим «занавесом». В ходе повторяющихся попыток испытуемым удалось правильно выбрать «занавес», за которым скрывалось эротическое изображение, в 53 случаях из 100, тогда как, согласно теории вероятностей, это должно происходить лишь в 50 случаях из 100. Достаточно большой размер выборки позволил ученому отклонить нулевую гипотезу и принять альтернативную. Решение опубликовать статью об этом эксперименте подверглось широкой критике на том основании, что какое-то одно статистически значимое событие вполне может оказаться следствием чистой случайности, особенно при отсутствии каких-либо других свидетельств, подтверждающих или даже объясняющих полученный результат. Статья в The New York Times так резюмировала критические высказывания: «Утверждения, которые бросают вызов практически всем законам науки, по определению являются экстраординарными и, как правило, требуют экстраординарных, неопровержимых доказательств. Нежелание учитывать это обстоятельство – как того требует общепринятый научный метод – делает результаты многих исследований гораздо значимее, чем они есть на самом деле».
Одним из достойных ответов на подобную критику был бы выбор более жесткого порога для определения статистической значимости, например 0,001[49]
. Однако это порождает собственные проблемы. Выбор надлежащего уровня значимости в любом случае предполагает определенный компромисс.Если наше «бремя доказательства», которое позволило бы отвергнуть основную гипотезу, будет чересчур низким (например 0,1), то нам придется периодически отклонять нулевую гипотезу, хотя на самом деле она верна (я подозреваю, что именно так и произошло при исследовании ESP). На языке статистики это называется