Мы рассматривали этот вопрос в главе 4
. Сделав поправку в регрессионном анализе на семейное положение и уровень дохода, шведские ученые обнаружили относительное повышение риска на 19 % между низким (начальная школа) и более высоким (университетский диплом) уровнем образования, с 95-процентным доверительным интервалом от 7 до 33 %. Интересно, что в работе не указывалось никаких P-значений, однако в силу того что 95-процентный интервал для относительного риска не включает 1, можно заключить, что P < 0,05.К этому моменту читатель уже должен иметь наготове список потенциальных вопросов к такому выводу, однако авторы упредили их, обнародовав одновременно с полученными результатами следующее:
• вывод о причинно-следственной связи невозможен;
• никакие поправки относительно факторов, потенциально влияющих на образ жизни (например, потребление алкоголя), не вносились;
• люди с более высоким экономическим статусом обычно чаще обращаются за медицинской помощью, поэтому может возникнуть так называемая предвзятость отчетности.
Но одна важная характеристика все же не была упомянута: небольшая величина видимой связи. Повышение риска на 19 % между низким и высоким уровнем образования гораздо ниже, чем для многих видов рака. В статье сообщалось, что в группе из более чем 2 миллионов человек старше 18 лет было диагностировано 3715 опухолей головного мозга (примерно 1 на 600). Следовательно, если мы, как в главе 1
, переведем относительные риски в абсолютные, то получим такие расчеты:• мы можем ожидать, что среди примерно 3 тысяч человек с минимальным уровнем образования будет диагностировано пять опухолей (если базовый риск 1 на 600);
• а среди примерно 3 тысяч человек с максимальным уровнем образования – шесть опухолей (относительное увеличение на 19 %).
Такой расчет формирует несколько иное восприятие результатов и весьма обнадеживает. Столь небольшой повышенный риск развития редкого вида рака может оказаться статистически значимым только при изучении огромного количества людей: в нашем случае – свыше двух миллионов.
Поэтому из этого научного исследования можно извлечь два важных урока:
• «большие данные» способны легко привести к статистически значимым, но не имеющим практической значимости
результатам;• не следует беспокоиться, что учеба в вузе приведет к развитию опухоли головного мозга.
Последний принцип ASA довольно тонкий.
6. Само по себе P-значение не дает надежного подтверждения модели или гипотезы. Например, P-значение, близкое к 0,05, взятое само по себе, предлагает лишь слабое свидетельство против нулевой гипотезы.
Это утверждение, частично основанное на «байесовской» аргументации, описанной в следующей главе, побудило группу известных статистиков выдвинуть предложение изменить стандартное пороговое значение для «открытия» нового эффекта на P < 0,005[211]
.Какой эффект это может дать? Если на рис. 10.5
мы изменим уровень значимости с 0,05 (1 на 20) на 0,005 (1 на 200), то вместо 45 ложноположительных «открытий» получим только 4,5. Это уменьшит общее количество открытий до 84,5, и всего лишь 4,5 из них (5 %) будут ложными. Выглядит как значительное улучшение по сравнению с 36 %, не так ли?Исходная идея Фишера для проверки гипотез оказалось очень полезной для практического использования и предотвращения необоснованных научных заявлений. Однако статистики часто жаловались на готовность некоторых исследователей перейти от P-значений, полученных в плохо спланированных экспериментах, к уверенным обобщающим выводам: своего рода алхимия для превращения неопределенности в определенность, механически применяющая статистические критерии к разделению результатов на «значимые» и «незначимые». В главе 12 мы рассмотрим некоторые из печальных последствий такого поведения, но сначала обратимся к альтернативному подходу к статистическим выводам, который полностью отвергает саму идею проверки значимости нулевой гипотезы.
Итак, еще одно расширяющее кругозор требование статистической науки: будет полезно, если вы сможете (временно) забыть все, что узнали из этой и предыдущих глав.