Наиболее противоречивая из применяемых практик – техника «просеивания» данных, или по-английски «p
-hacking», где p — значение, при котором полученные экспериментальным путем результаты могут считаться статистически значимыми. Возможность подсчитать значение p сделало его общепринятым показателем научной строгости при проведении экспериментов. При p меньше 0,05 вероятность того, что корреляция случайна или ошибочна, составляет менее 5 процентов, и во многих науках эта цифра принята в качестве порогового показателя успешности гипотезы. К сожалению, следствием такой договоренности стало то, что значение p менее 0,05 превратилось из мерила в основную цель. Исследователи, когда перед ними ставится конкретная задача, могут произвольно отсортировывать большие объемы данных так, чтобы доказать любую интересующую гипотезу.Чтобы продемонстрировать, как работает просеивание данных, предположим, что зеленые игральные кости (в отличие от всех остальных игральных костей) имеют смещенный центр тяжести. Возьмем десять зеленых костей и бросим каждую из них по сто раз. Из тысячи бросков 183 раза выпадало «шесть». Если бы кости не были мечеными, то «шесть» должно было бы выпадать при каждом шестом броске, то есть 167 раз. Что-то здесь нечисто. Чтобы определить состоятельность эксперимента, нужно подсчитать, чему равно p
. Хотя значение p не имеет никакого отношения к рассматриваемой гипотезе, p – это всего лишь вероятность, с которой случайным образом может 183 раза выпасть «шесть». Для тысячи бросков эта вероятность составляет всего четыре процента, следовательно, p = 0,04, а значит, мы экспериментальным путем получили результат, который во многих научных сообществах считается приемлемым для публикации(15).Разве не должен такой смехотворный процесс считаться крайним упрощением? Должен, но он всех устраивает. Значение p
легко подсчитать и понять, следовательно, все больше научных журналов используют его в качестве условного критерия, чтобы отсеять наиболее достоверные из тысяч поступивших на рассмотрение статей. Более того, «просеивание» зависит не только от этих случайных результатов. Сами исследователи могут прочесывать огромные объемы данных в поисках нужных им результатов. Допустим, помимо десяти зеленых костей, мы бросали еще и десять синих, десять желтых, десять красных и так далее. Я мог бы бросить кости пятидесяти разных цветов, и для большинства из них результаты были бы приближены к статистически усредненным. Но чем больше совершено бросков, тем выше вероятность получить аномальный результат, вот его-то можно опубликовать. Такая практика и дала название методу «просеивания», проявившему себя с особенно плохой стороны в общественных науках, в которых исследователи стремительно получили доступ к колоссальным объемам информации, поставляемой социальными сетями и другими источниками поведенческих данных. Однако вездесущее «просеивание» характерно не только для социальных наук.Согласно проведенному в 2015 году масштабному анализу 100 000 научных работ, находящихся в открытом доступе, метод просеивания присутствовал в самых разных дисциплинах(16). В ходе анализа рассматривались все показатели p
в каждой из работ, и было обнаружено, что в большинстве случаев значение p лишь немного недотягивало до границы в 0,05, что, вероятно, свидетельствует о том, что многие исследователи «подгоняли» результаты экспериментов, наборы данных или статистические методы, чтобы получить результат в пределах допустимых значений. Именно это побудило редакторов PLOS ONE, одного из ведущих медицинских научных журналов, опубликовать редакционную статью «Почему большинство опубликованных результатов исследований неверны», в которой они раскритиковали применяемые статистические методы(17).Необходимо подчеркнуть, что просеивание данных само по себе не является мошенничеством. Даже если с результатами что-то не в порядке, беспокойство вызывает не намеренная подмена данных, а тот факт, что это может происходить бессознательно под давлением институтов, из-за низких стандартов принятия работ к публикации и самого объема данных, доступных ученым. Научное сообщество встревожено сочетанием растущего числа отзывов статей, невозможности воспроизвести эксперименты, внутренней сложности научного анализа и распространения материалов, и уже одна эта тревога губительна, так как наука строится на доверии между исследователями и доверии общественности. Любое снижение доверия плохо отразится на будущем научных исследований, независимо от того, вызвано ли оно недобросовестностью нескольких «паршивых овец» или совокупными действиями множества самых разных акторов, притом что во втором случае установить большинство причин невозможно.