Тем не менее эти три исследования — и десятки других, например в таких отдаленных друг от друга областях, как маркетинг и медицина, — теперь вызывают вопросы. Они могут быть ошибочными.
В различных науках наступил кризис[169]. Многие ученые десятилетиями выкладывались по полной и обнаружили, что теперь работа всей их жизни висит на волоске. Виною тому не обман, или отсутствие целостности, или чрезмерное количество абзацев, опровергающих свободу воли. Болезнь гнездится глубже, в общих статистических методах, составляющих основу исследовательского процесса. Речь идет о коэффициенте, который сделал современную науку возможной — и теперь угрожает ее стабильности.
1. Под властью призрака
Каждый научный эксперимент ищет ответ на какой-то вопрос. Существуют ли гравитационные волны? Ненавидят ли миллениалы финансовую устойчивость? Может ли этот новый препарат вылечить от антипрививочной паранойи? Вне зависимости от вопроса есть два возможных ответа («да» и «нет») и, учитывая неизбежную ненадежность данных, два возможных исхода («вы правы» и «вы ошиблись»). Таким образом, результаты экспериментов можно поделить на четыре категории:
Ученые хотят добиться истинно положительных результатов. Их называют «открытия»: вам вручают ништяки типа Нобелевских премий, любимый человек готовит вам смузи, ваши изыскания продолжают получать финансирование.
Истинно отрицательные результаты воодушевляют меньше. Вам казалось, что вы уже помыли полы и постирали белье, но вдруг вы осознали, что вам это просто примерещилось. Вы узнали правду, но лучше бы она была другой.
Ложноотрицательные результаты раздражают. Вы искали потерянные ключи в нужном месте, но почему-то они все равно не нашлись. Вы никогда не узнаете, насколько близок был успех.
Ложноположительные результаты самые пугающие. Это фантомы: ложь, которая в один пригожий день может сойти за истину. Они сеют смуту в науке, годами таятся незамеченными в научной литературе и влекут за собой тонны впустую потраченного времени. Наука — это непрерывный поиск истины, поэтому ложноположительных результатов невозможно избежать, но крайне важно свести их к минимуму.
Именно тогда на помощь приходит
В качестве иллюстрации проведем эксперимент:
Но есть определенная опасность. Даже если шоколад не влияет на уровень счастья, респонденты из первой группы могут выставить более высокие оценки. Например, взгляните, что произошло, когда я сгенерировал пять случайных наборов данных для одной и той же группы респондентов.
Из-за стечения обстоятельств две теоретически одинаковые группы могут продемонстрировать очень разные результаты. Что, если «шоколадная» группа выставит более высокие оценки по чистой случайности? Как мы отличим подлинное повышение уровня счастья от бессмысленного фантома?
Для того чтобы распознать фантомы,
1. Насколько велико отличие? Незначительное отличие (скажем, 3,3 против 3,2) скорее говорит о случайном совпадении, чем существенная разница (скажем, 4,9 против 1,2).
2. Насколько велик набор данных? Выборка из двух человек не внушает особого доверия. Может быть, я случайно дал шоколадку восторженному любителю жизни, а хрустящее печенье — неблагодарному нигилисту. Но в выборке из 2000 человек, случайным образом разделенной пополам, индивидуальные различия должны стираться. Даже небольшой разрыв (3,08 против 3,01) вряд ли может быть случайным.
3. Дисперсия внутри каждой группы. Если разброс оценок широк и дисперсия высока, разница в результатах двух групп легко могла быть продиктована случайностью. Но если оценки стабильные и дисперсия низкая, то даже небольшая разница, скорее всего, неслучайна.
Вся эта информация сводится к
(Чуть больше технических деталей вы найдете в примечании[170].)
Некоторые