Но попробуйте провести тестирование по 10 вопросам – и шанс, что случайность исказит ваш результат при ответе на 1 или несколько из этих вопросов, тут же возрастет до 40 %. Но в типичной научной работе задается больше 10 вопросов, а иногда и намного больше. Вы можете скорректировать эту «проблему множественных сравнений» с помощью математических инструментов (хотя это и нельзя считать общепринятым методом). Вы также можете попробовать избавиться от этих нежелательных эффектов, приняв решение ответить всего на 1 главный вопрос (хотя на практике такие «первичные результаты» оказываются на удивление пластичными). Однако даже эти корректировки часто не учитывают влияние множества эффектов, способных негативно сказаться на расчетах исследователя, – подобно тому как незначительные изменения в классификации данных могут повлиять на исходный результат: «острая» боль – это 7 баллов по 10-балльной шкале? Или 8 и выше?.. Иногда подобные вопросы упускаются из виду; иногда они сознательно игнорируются или становятся объектом манипуляций.
Даже в лучшем случае, когда статистическая значимость рассчитывается самым правильным образом, она способна сказать вам не так уж много. Разумеется, маловероятно, что нужный эффект достигается лишь благодаря стечению случайных факторов. Однако это соображение ничего не говорит нам о том, насколько правильным был протокол проведения эксперимента; насколько точно были откалиброваны измерительные приборы; не было ли ошибок в компьютерной программе; в достаточной ли степени экспериментатор замаскировал данные, чтобы предотвратить предвзятость при их анализе; понимали ли ученые все возможные источники ложных сигналов; было ли надлежащим образом простерилизовано все вспомогательное оборудование; и так далее. Когда эксперимент оказывается неудачным, скорее всего, ответственность лежит не на случайности – точнее, не на статистической случайности, а на старой доброй ошибке исследователя.
Когда физики ЦЕРНа сообщили, что им удалось поймать нейтрино, двигающиеся быстрее скорости света, даже порога статистической значимости на уровне 6 сигм (и тщательной проверки на наличие ошибок) оказалось недостаточно для того, чтобы убедить физическое сообщество в том, что команда ЦЕРНа нигде не ошиблась. Ведь полученный результат противоречил не только физическим законам, но и результатам наблюдения за нейтрино, рождающимися при взрыве сверхновых звезд. И вполне естественно, что через несколько месяцев кому-то удалось выявить неточность в расчетах (в общем и целом незначительную), которая позволила опровергнуть заключение команды.
Подобные вещи происходят в научном мире на удивление часто. Управление по контролю за продуктами и лекарствами США каждый год инспектирует несколько сотен клинических лабораторий. Примерно в 5 % случаев делается вывод о том, что та или иная лаборатория использует в своей работе «крайне сомнительные условия и практики» и полученная в этой лаборатории информация не может считаться надежной.
Зачастую такие практики включают в себя откровенное мошенничество. Любой инспектор способен сразу заметить подобное, однако ему сложно представить, что реальное количество ошибок в лабораториях может оказаться в несколько раз выше того, что он видит. Что толку в том, чтобы называть результат статистически значимым с погрешностью 5 %, 0,3 % или даже 0,00003 %, если вероятность того, что данные существенно искажены ошибками в лаборатории, составляет 10 %, 25 % или даже еще выше? В условиях, когда возможны такие ошибки (не говоря уже о сознательном мошенничестве), даже самые железобетонные выводы, основанные на статистической значимости, теряют любой смысл.
Тем не менее, несмотря на то что статистика не всегда выдерживает проверку практикой, ученые зачастую пытаются использовать понятие статистической значимости как универсальный и простой способ определения того, заслуживает ли то или иное наблюдение доверия, а выводы – публикации. Из-за этого рецензируемая литература замусорена «статистически значимыми» абсурдными результатами, которые невозможно повторить и в которые невозможно поверить даже при самом богатом воображении.
Концепция «статистической значимости» стала своего рода «количественным костылем» качественного по своей сути процесса определения правильности выводов. Без нее науке станет намного лучше.
Научные выводы и статистические ритуалы
Герд Гигеренцер