Заставить вероятности работать на себя можно и раздробив эксперимент на несколько более мелких. Или повторив его столько раз, сколько нужно для получения значимого результата. Или замеряя результаты как можно чаще и остановив эксперимент не когда это планировалось сделать, а ровно в тот момент, когда будет обнаружена статистическая значимость: случайные колебания разницы между группами могут в какой-то момент дать желанный результат. Вывод об эффективности лекарства будет в этом случае так же обоснован, как если вы заявите, что владеете телекинезом, потому что можете заставить все игральные кубики выпасть одной стороной, только получается у вас это когда на девяносто седьмой попытке, а когда на двести четвертой.
Много возможностей открывает перебор существующих инструментов статистического анализа. Есть множество методов, позволяющих получить несколько различающиеся результаты. Сравним, например, две группы, в одной из которых определенный исход наступил с частотой 1/10, а в другой – 6/10. Точный тест Фишера даст статистически незначимый результат p
=0,057, но вычисление критерия Mid-P – значимое p=0,030. Расчет критерия хи-квадрат по методу Пирсона тоже дает значимое p=0,019, но рассчитанный с поправкой Ийтса – незначимое p=0,061, а с поправкой Вальда – значимое p=0,035. Конечно, наиболее чувствительны к перебору методов пограничные значения p, близкие к 0,05.Что можно делать по-другому?
Оставим в стороне рассуждения о том, что полностью решить проблему можно, лишь устранив прямую заинтересованность исследователей и производителей в положительных результатах. Возможно, так оно и есть, но абсолютно непонятно, как добиться этого на практике. Реалистичнее двигаться в сторону большей прозрачности: если все данные клинических экспериментов публичны и могут быть проверены независимыми специалистами, это затруднит p-
хакинг.Уже упомянутое снижение уровня статистической значимости до p
< 0,005 тоже будет полезно. Однако важнее перестать ориентироваться на p-значение как на единственный критерий положительного результата. Отбросить нулевую гипотезу можно, только если на ее ошибочность указывают и другие статистические инструменты.В последнее время звучат предложения перейти от расчета p
-значений к байесианским методам анализа. Это направление статистики возникло в середине XVIII века благодаря английскому математику и священнику Томасу Байесу, автору теоремы Байеса. В рамках байесианской статистики был сформулирован альтернативный подход к нулевой гипотезе: использовать в качестве альтернативы p-значению фактор Байеса (BF), который рассчитывается так:
В отличие от p-
значения, смысл фактора Байеса интуитивно понятен. Он говорит о том, насколько такие данные вероятнее наблюдать при верной нулевой гипотезе (эффекта нет), чем если при верной альтернативной (эффект есть). Его значение интерпретируют следующим образом: обычно, если BF > 3, мы принимаем нулевую гипотезу, а если BF < 1/3 – альтернативную. Интересно, что во многих ситуациях p-значению в диапазоне 0,03–0,05 соответствует BF > 1. То есть наблюдать такие данные вероятнее, когда никакого эффекта нет. Но при этом p-значение меньше порогового и дает основания считать результат статистически значимым.Фактор Байеса позволяет легко перейти от вероятности получения наблюдаемых данных к оценке вероятностей самих гипотез. Мы рассчитываем вероятность и нулевой, и альтернативной гипотезы и можем, сравнив их, выбрать из двух гипотез более убедительную. Расчет p-
значения ничего не говорит о вероятности альтернативной гипотезы: мы оценим только данные против нулевой, на основе чего отбрасываем или оставляем ее. Здесь преимущество байесианского подхода очевидно: возможны ситуации, когда вероятность нулевой гипотезы невелика, но при этом вероятность альтернативной еще ниже.Проиллюстрировать это можно тем же примером с беременностью. Примем, что нулевая гипотеза гласит – вы женщина[218]
, а альтернативная – вы мужчина. При этом вы беременны. Тогда p-значение, то есть вероятность наблюдать такие данные (беременность) при условии корректности нулевой теории (вы женщина), будет равно 0,03[219], удовлетворяя распространенному критерию статистической значимости p < 0,05. Соответственно, если вы беременны, мы должны отвергнуть нулевую гипотезу. Руководствуясь этой логикой, вы беременны, значит, вы мужчина. Расчет фактора Байеса приведет нас к более разумному выводу: 0,03, деленное на бесконечно малую вероятность наблюдать беременность у мужчины, даст бесконечно большое значение фактора Байеса и будет сильнейшим аргументом за то, чтобы признать беременную женщиной.