А пока, вместо того чтобы призывать исследователей полностью отказаться от статистического метода, особенно столь глубоко укоренившегося, как проверка значимости, полезно, наверное, получше объяснить ученым, что он способен показать, а что не способен, и начать использовать его немного иначе – так, чтобы избегать ошибок. Например, недавно было предложено изменить стандартный критерий для значимости с p
< 0,05 на p < 0,005, то есть сильно поднять планку, которую должны преодолеть результаты, чтобы считаться интересными[713]. Учитывая нарывы, вскрытые кризисом воспроизводимости, мы должны, казалось бы, значительно осторожнее относиться к тому, что принимаем в качестве доказательств наших гипотез. Но поднятие планки опасно: если только мы не увеличим одновременно размер всех своих выборок, наши тесты будут обладать гораздо меньшей статистической мощностью. Правда, сторонники значения 0,005 доказывают, что проблема ложноположительных результатов, которую их метод, вероятно, уменьшит, требует решения сильнее, чем проблема результатов ложноотрицательных.Вот еще один способ борьбы со статистической предвзятостью и p
-хакингом: полностью вывести анализ данных из-под контроля исследователей. В таком сценарии после сбора данных ученые должны будут передавать их для анализа независимым статистикам или другим специалистам, которые, как предполагается, практически свободны от конкретных предубеждений и стремлений тех, кто разработал и провел эксперимент[714]. Управлять подобной системой было бы непросто, и легко представить, как она ведет к конфликтам, когда ученые не согласны с анализом или интерпретацией, которые назначенный статистик навязал их ценным данным[715]. Но, как и в случае с некоторыми радикальными идеями для реформ, которые мы обсудим дальше, пожалуй, в небольших масштабах это все же стоило бы попробовать сделать.В четвертой главе мы видели, что огромное количество способов, какими можно проанализировать набор данных, тоже доставляет ученым проблемы: откуда им знать, что выбранный анализ не даст как раз случайные результаты? Альтернатива беспокойству, верно ли вы выбрали конкретный анализ, – принять проблему “сада расходящихся тропок” и прогнать все
анализы, какие только можно провести с вашим набором данных. Вы могли бы включать и исключать определенных участников, объединять и разделять определенные переменные, вводить и не вводить поправку на определенные спутывающие факторы – и основывать свои выводы на том, что результаты говорят вам в целом. Этой идее дали множество названий, например “анализ кривой спецификаций”, “анализ вибраций эффектов” и, мое любимое, “анализ мультивселенной”[716]. Если мы представим себе бесконечное число параллельных вселенных, в каждой из которых вы провели анализ немного по-другому, в какой доле из них вы обнаружили бы одинаковый эффект? А в какой доле – совершенно противоположный? Все ли эти анализы в целом сходились бы к одному и тому же общему результату?Оксфордские психологи Эми Орбен и Эндрю Пшибыльски, например, использовали анализ мультивселенной для решения животрепещущего вопроса о влиянии экранного времени на психическое здоровье молодых людей[717]
. Результаты исследований в этой области постоянно раздуваются в прессе, и во многих газетных статьях и популярных книгах утверждается, что современным подросткам вредит то количество времени, которое они проводят онлайн[718]. Социальные сети видятся особой проблемой, поскольку якобы уменьшают число личных контактов подростков с другими людьми, подвергают их воздействию кибербуллинга и жесткой порнографии, а также снижают устойчивость внимания[719]. Были даже предложены новые психологические диагнозы: “видеоигровое расстройство”, “зависимость от онлайн-порнографии”, “зависимость от айфона”, список можно продолжить[720]. Бо́льшая часть доказательств, которые вызывают панику, связанную с технологиями, получена в крупных наблюдательных исследованиях, изучающих корреляции между временем, проведенным подростками за экраном, и проблемами с их психическим здоровьем. Учитывая большой потенциал для р-хакинга в подобных исследованиях (вспомните, как легко было к нему прибегать в исследованиях по питанию с большими массивами данных, когда практически все продукты могли оказаться так или иначе связанными с раком), они идеальные кандидаты для метода “анализ мультивселенной”.