Все это совершенно не означает, что я считаю неправильным вопрос, заданный в рамках
Статистическая значимость
Чарльз Сейфе
Понятие статистической значимости – настоящий подарок для посредственных, доверчивых, нечестных и полностью некомпетентных людей. Это понятие превращает бессмысленный результат в нечто, заслуживающее публикации, а потерю времени и усилий – в топливо для продвижения научных карьер. Статистическая значимость была придумана, чтобы помочь исследователям отличить реальный эффект от статистической случайности, однако превратилась в количественное оправдание, позволяющее облечь полную бессмыслицу в мантию респектабельности. И в этом состоит единственная важная причина, по которой основная масса научной и медицинской литературы не стоит бумаги, на которой она напечатана.
Если правильно его использовать, то показатель статистической значимости позволяет избавиться от капризов случайности – ни больше, ни меньше. К примеру, предположим, что вы тестируете эффективность лекарственного препарата. Даже если его состав химически совершенно инертен, имеются немалые шансы (около 50 %) на то, что пациенты будут лучше реагировать на ваше (мнимое) лекарство, чем на плацебо. Иными словами, чистая случайность может придать вашему лекарству кажущуюся эффективность. Однако чем сильнее выявляется различие между лекарством и плацебо, тем менее вероятно, что за результат отвечает одна лишь случайность. «Статистически значимым» результатом может считаться результат, превышающий определенную погрешность. В большинстве журналов в области социальных наук и медицины наблюдение обычно считается статистически значимым, если вероятность того, что наблюдаемый эффект случаен, составляет менее 5 %. В мире физики погрешность обычно оказывается ниже и часто составляет 0,3 % («правило трех сигм», 3) или даже 0,00003 % (три десятитысячных процента, «правило пяти сигм», 5). Однако суть остается прежней: если ваш результат заметно выше этого порога, он получает весомый ярлык «статистически значимого».
Однако чаще всего этот термин используется неправильно. Если вы посмотрите на типичную научную работу, опубликованную в рецензируемых журналах, то увидите, что тестирование на статистическую значимость проводится не для одного наблюдения, а для десятков или даже сотен. Исследователь, изучающий болеутоляющее средство для страдающих от артрита, рассматривает данные, позволяющие последовательно отвечать на один вопрос за другим: помогает ли лекарство уменьшить боль у пациента? помогает ли оно пациенту с болью в колене? с болью в спине? с болью в локте? с сильной болью? с умеренной болью? с болью в степени между умеренной и сильной? помогает ли оно пациенту расширить диапазон доступных движений? качество жизни?
Каждый из этих вопросов проверяется с точки зрения статистической значимости и обычно сравнивается со стандартным для отрасли пятипроцентным правилом. Иными словами, существует вероятность 5 % – то есть один шанс из 20, – что бесполезный препарат будет казаться эффективным исключительно благодаря случайности.