Итак, будут опубликованы 95 положительных результатов, 45 из которых, то есть почти половина, будут ошибочны. Доля ложноположительных результатов в этом случае 47%, а вовсе не 5%. Соответственно, на более ранних этапах поиска, например при доклинических исследованиях, где доля ошибочных гипотез намного выше, соотношение ошибочных и реальных положительных результатов будет еще больше смещаться в сторону первых. Очевидно, что
Предложение снизить критерий статистической значимости до
Другие критики обратили внимание, что если на практике доля воспроизведенных результатов в интервале
Как стать p-хакером
В 1980 году группа исследователей провела контролируемый эксперимент, для которого было отобрано 1075 пациентов с заболеваниями сосудов сердца. Их рандомизировали в две группы, назначив каждой определенное лечение, назовем их А и В. Рандомизация была проведена корректно, и исходно группы были похожи по основным параметрам. После лечения выживаемость в обеих группах оказалась одинаковой. Но, разделив группы на несколько подгрупп – по возрасту, количеству пораженных сосудов и некоторым важным симптомам, – исследователи получили интересные результаты. Выживаемость группы А стала статистически значимо выше в подгруппе с поражением трех сосудов сердца и аномальным сокращением левого желудочка (
Отлично, разве не для этого мы проводим рандомизированные клинические исследования? Однако исследователи не спешили рекомендовать лечение А пациентам с поражением трех сосудов, аномальным сокращением левого желудочка и отсутствием признаков сердечной недостаточности. На самом деле в этом эксперименте ни одна из групп не получила никакого лечения. Да и пациентов никаких не было: их роль выполнили истории болезни из базы данных медицинского центра при Университете Дьюка. Они содержали данные о возрасте и поле когда-то лечившихся там пациентов, симптомах болезни, количестве пораженных сосудов и о том, сколько они прожили после лечения. Всех пациентов лечили одним и тем же методом. Статистически значимые различия между группами A и B обнаружили там, где их не должно было быть.
Что же произошло? Авторы исследования-имитации всего лишь задействовали пару приемов, используемых для
Масштаб