Еще один классический пример ошибки, спровоцированной суррогатными исходами, – применение антиаритмических препаратов[211]
у пациентов с инфарктом миокарда. Только в США четверть миллиона пациентов с инфарктом ежегодно получали энкаинид и флекаинид, исходя из простой логики: у таких больных высока вероятность внезапной смерти от аритмии. Электрокардиография подтверждала нормализацию сердечного ритма, поэтому врачи считали, что приносят пациентам безусловную пользу. Тем сильнее был шок, когда четырехлетнее клиническое исследование показало, что прием антиаритмических препаратов при инфаркте увеличивает смертность в три раза. Вероятно, эти препараты стимулировали неизвестный опасный процесс. При этом не факт, что они вообще приносили какую-либо пользу, – аритмия могла быть не причиной смерти, а побочным следствием приводящего к гибели процесса.Еще один показательный пример – применение фторида натрия для профилактики переломов. Известно, что вероятность переломов тем выше, чем ниже плотность костей. Остеопороз
, уменьшение плотности костей, – серьезная проблема пожилых людей, особенно женщин. Для ее решения было предложено использовать фторид натрия. Клинический эксперимент показал, что его прием значительно увеличивает плотность костей. Но в следующем трехлетнем РКИ оценили не только изменение плотности костей, но и частоту переломов. Прием фторида натрия действительно увеличивал плотность костной ткани. Но частота переломов не снижалась, а увеличивалась на 30% для переломов позвоночника и почти в три раза для всех остальных. Судя по всему, при приеме фторида натрия образовывалась более хрупкая костная ткань.Полностью отказаться от суррогатных исходов невозможно. Они могут значительно уменьшить количество участников, продолжительность эксперимента, а значит, и его стоимость. Однако полагаться на единичные суррогатные исходы опасно, и к их выбору нужно относиться очень серьезно. Нельзя использовать биомаркер лишь на основании обнаруженной в наблюдательных исследованиях статистической корреляции c важным для пациента исходом и биологически правдоподобной связи между ними. Нужно, чтобы надежность суррогатного исхода подтверждалась и данными многочисленных клинических экспериментов.
P < 0,05
Предложенный Рональдом Фишером критерий статистической значимости p
< 0,05[212] надежно закрепился в качестве порога, разделяющего результаты научных исследований на положительные и отрицательные. Практически во всех медицинских исследованиях используют тот или иной метод расчета p, и в большинстве 0,05 выбрано как пороговое значение. Однако недавно эта практика, которой скоро исполнится уже сто лет, была подвергнута жесткой критике и названа одной из главных причин кризиса воспроизводимости.В 2017 году несколько ведущих статистиков опубликовали в журнале Nature
манифест “Пересмотреть статистическую значимость”, в котором призвали отказаться от критерия p < 0,05 и заменить его на p < 0,005. Авторы пообещали, что этот простой шаг немедленно приведет к улучшению ситуации с воспроизводимостью научных исследований во многих областях. В чем же проблема с проверенным десятилетиями и привычным большинству ученых и врачей p < 0,05?Многие из тех, кто читает и даже пишет научные статьи, неправильно понимают смысл p
-значения. Распространена ошибочная интерпретация p как вероятности ложноположительного результата. А значит, при p < 0,05 вероятность, что нулевая теория верна и отклонена ошибочно, не превышает 5%. Ошибка в том, что p-значение – это не вероятность правильности нулевой теории при условии получения наблюдаемых данных. Это вероятность наблюдать такие данные при условии, что нулевая теория верна. Разница принципиальная. Так, вероятность, что вы беременны, если вы женщина, не равна вероятности того, что вы женщина, если вы беременны. В первом случае она равна 3%[213], во втором же стремится к 100%.Так какова же реальная вероятность, что мы ошибочно отклонили нулевую теорию и пришли к выводу о существовании эффекта там, где его нет, если мы ориентируемся на p
< 0,05? Предположим, что верны 10% выдвигаемых экспериментаторами гипотез. Судя по доле лекарств, которые доходят от начала клинических испытаний до регистрации, даже эта цифра оптимистична[214]. Тогда из 1000 экспериментов в 900 будет верна нулевая гипотеза (лекарство не работает), а в 100 – альтернативная (лекарство работает). При пороговом p=0,05 или чуть меньшем нулевая гипотеза будет ошибочно опровергнута в 900 × 0,05=45 случаях из 900.Чтобы понять, что произойдет с теми 100 экспериментами, где нулевая гипотеза ошибочна, то есть эффект лекарства реально существует, нам нужно учесть статистическую мощность[215]
. По некоторым оценкам, в клинических испытаниях она, как правило, недостаточна и в среднем составляет примерно 50%. А значит, мы обнаружим существующий эффект в 50 случаях из 100.