Читаем 0,05. Доказательная медицина от магии до поисков бессмертия полностью

0,05. Доказательная медицина от магии до поисков бессмертия

Итак, будут опубликованы 95 положительных результатов, 45 из которых, то есть почти половина, будут ошибочны. Доля ложноположительных результатов в этом случае 47%, а вовсе не 5%. Соответственно, на более ранних этапах поиска, например при доклинических исследованиях, где доля ошибочных гипотез намного выше, соотношение ошибочных и реальных положительных результатов будет еще больше смещаться в сторону первых. Очевидно, что p < 0,05 абсолютно не пригодно в качестве единственного критерия, разделяющего результаты клинических испытаний на положительные и отрицательные.

Предложение снизить критерий статистической значимости до p < 0,005 встретило бурное сопротивление. Некоторые были против, поскольку такое изменение потребовало бы значительно увеличить количество участников, а значит, и стоимость исследований. Помимо этого, очевидно, что будет поставлена под сомнение реальность невероятного количества найденных ранее эффектов в диапазоне 0,005 < p < 0,05.

Другие критики обратили внимание, что если на практике доля воспроизведенных результатов в интервале p-значения 0,005–0,05 равна 24%, то для p < 0,005 она тоже далека от идеальной и составит 49%. Судя по всему, простое снижение порогового p-значения улучшит ситуацию, но не решит проблему полностью. Причина в том, что кризис воспроизводимости вызван не p < 0,05 самим по себе, а различными приемами, которые исследователи применяют для того, чтобы искусственно протолкнуть результаты своих исследований за столь желанный порог статистической значимости. Такая манипуляция данными в процессе статистического анализа называется p-хакингом.

Как стать p-хакером

В 1980 году группа исследователей провела контролируемый эксперимент, для которого было отобрано 1075 пациентов с заболеваниями сосудов сердца. Их рандомизировали в две группы, назначив каждой определенное лечение, назовем их А и В. Рандомизация была проведена корректно, и исходно группы были похожи по основным параметрам. После лечения выживаемость в обеих группах оказалась одинаковой. Но, разделив группы на несколько подгрупп – по возрасту, количеству пораженных сосудов и некоторым важным симптомам, – исследователи получили интересные результаты. Выживаемость группы А стала статистически значимо выше в подгруппе с поражением трех сосудов сердца и аномальным сокращением левого желудочка (p < 0,025), а в подгруппе с поражением трех сосудов, аномальным сокращением левого желудочка и отсутствием признаков сердечной недостаточности критерий статистической значимости для разницы был еще ниже (p < 0,01).

Отлично, разве не для этого мы проводим рандомизированные клинические исследования? Однако исследователи не спешили рекомендовать лечение А пациентам с поражением трех сосудов, аномальным сокращением левого желудочка и отсутствием признаков сердечной недостаточности. На самом деле в этом эксперименте ни одна из групп не получила никакого лечения. Да и пациентов никаких не было: их роль выполнили истории болезни из базы данных медицинского центра при Университете Дьюка. Они содержали данные о возрасте и поле когда-то лечившихся там пациентов, симптомах болезни, количестве пораженных сосудов и о том, сколько они прожили после лечения. Всех пациентов лечили одним и тем же методом. Статистически значимые различия между группами A и B обнаружили там, где их не должно было быть.

Что же произошло? Авторы исследования-имитации всего лишь задействовали пару приемов, используемых для p-хакинга – преодоления порога статистической значимости в отсутствие реальной разницы между группами. Легко представить, что, будучи примененными в реальном РКИ, эти манипуляции позволят легко обосновать ложный вывод об эффективности бесполезного лекарства.

Масштаб p-хакинга помогает осознать опубликованная в интернете база данных tidypvals, где собрано два с половиной миллиона p-значений из разных областей науки. Ее создатели предположили, что если p-хакинг существует и распространен, то при анализе распределения опубликованных в научных журналах p-значений будет виден “горбик” – заметное увеличение количества p-значений, которые лишь немногим меньше 0,05. Действительно, для большинства областей науки он оказался явно выражен, и медицина – одна из тех, где проблема наиболее наглядна. При этом внутри медицины есть сегменты, например альтернативная медицина, диетология, фармакология и стоматология, где она особенно бросается в глаза.

Читаем 0,05. Доказательная медицина от магии до поисков бессмертия полностью

0,05. Доказательная медицина от магии до поисков бессмертия

Как стать p-хакером

Похожие книги

Все жанры