В главе 8
мы очень внимательно различали соответствующие утверждения об условных вероятностях, такие как «только 10 % женщин без рака молочной железы имеют положительную маммограмму» и (ложное) «только у 10 % женщин с положительной маммограммой нет рака молочной железы». Эта ошибка известна как «ошибка прокурора», и мы видели, что есть аккуратные способы ее исправить, представив, чего можно ожидать для 1000 тестируемых женщин.Аналогичные проблемы могут возникать с P-значениями, которые измеряют вероятность
Когда команда ЦЕРН сообщила о результате «пять сигма» для бозона Хиггса, что соответствует P-значению примерно 1 на 3,5 миллиона, «Би-би-си» правильно это интерпретировала, сказав, что это означает «вероятность примерно 1 на 3,5 миллиона, что такой сигнал появился бы при отсутствии частицы Хиггса». Однако почти во всех остальных источниках это P-значение истолковали неверно. Например, журнал Forbes писал: «Шансы на то, что это не бозон Хиггса, составляют меньше одной миллионной» – яркий пример ошибки прокурора. Типичной реакцией был текст в газете The Independent: «Вероятность, что их результат – статистическая случайность, составляет меньше одной миллионной». Это, возможно, не так явно вводит в заблуждение, как у Forbes, но все равно приписывает малую вероятность тому, что «их результат – статистическая случайность», что, по логике, то же самое, что сказать о вероятности проверяемой нулевой гипотезы. Вот почему ASA пытается подчеркнуть, что P-значение – это
Третий принцип ASA пытается противостоять одержимости статистической значимостью.
3. Научные заключения и процесс принятия решений не должны основываться только на том, переходит ли P-значение определенный порог.
Когда Рональд Фишер начал публиковать таблицы со значениями статистик, которые соответствовали результатам P < 0,05 или P < 0,01, он вряд ли представлял, что такие довольно произвольные значения станут доминировать в научных публикациях, причем все результаты будут стремиться поделить на «значимые» и «незначимые». Отсюда уже недалеко и до того, чтобы расценивать «значимые» результаты как доказанные открытия, что создает крайне упрощенный и опасный прецедент перехода от данных прямо к заключениям – без паузы на размышление.
Губительное следствие такой дихотомии – неправильное толкование «незначимого». Незначимое P-значение подразумевает, что данные совместимы с нулевой гипотезой, но это не говорит о том, что нулевая гипотеза определенно верна. В конце концов, отсутствие прямых доказательств пребывания преступника на месте преступления еще не означает, что он невиновен. Но эта ошибка на удивление распространена.
Рассмотрим крупный научный спор о пользе алкоголя, скажем одной порции[209]
в день. Как показало одно исследование, умеренное потребление алкоголя полезно только пожилым женщинам, однако тщательная проверка выявила и другие группы населения, извлекшие из него пользу, но она не была статистически значимой, поскольку доверительные интервалы вокруг оценки предполагаемой выгоды в этих группах были очень широкими. Хотя доверительные интервалы включали 0 (и потому эффект не был статистически значим), данные полностью согласовывались с высказанным ранее предположением о 10–20-процентном снижении риска смертности. Между тем The Times провозгласила, что «алкоголь не приносит никакой пользы здоровью»[210].Подытоживая, можно сказать, что крайне неправильно интерпретировать выражение «незначимо отличается от 0» как означающее, что реальный эффект действительно
Четвертый принцип ASA звучит вполне безобидно.
4. Правильный вывод требует полной отчетности и прозрачности.
Самое очевидное – необходимо четко указать, сколько проверок фактически проведено. Если подчеркивается самый значимый результат, то можно сделать какую-то поправку (например, методом Бонферрони). Но проблемы с выборочной отчетностью могут быть намного тоньше, как мы увидим в следующей главе. Только зная план исследования и то, что было на самом деле сделано, можно избежать проблем с P-значениями.
Вы запланировали исследование, собрали данные, провели анализ и получили «значимый» результат. Обязательно ли это должно быть важным открытием? Пятый принцип ASA просит вас быть не слишком самонадеянным.
5. P-значение или статистическая значимость не измеряет величину эффекта или важность результата.
Наш следующий пример показывает, что (особенно в случае больших выборок) мы можем быть достаточно уверены в наличии связи, но при этом не сильно впечатляться ее важностью.
Почему поступление в университет повышает риск развития опухоли мозга?