Это тот случай, когда статистика очень полезна. Статистический тест вычисляет значение P, которое показывает вероятность того, что мы будем наблюдать разницу в 21 пациента или больше, если лекарство не работает. В этом случае Р = 0,04. Медицинская литература полна значениями P, и традиция такова, что если значение P меньше 0,05, то мы говорим, что разница статистически достоверна, и верим, что разница, которую мы нашли, реальна. Р=0,04 означает, что мы наблюдали бы разницу в 21 пациента и более четыре раза из ста, если лекарство не работает, и мы повторили наше испытание много раз.
Если бы на два пациента меньшего чувствовали себя лучше на активном лекарстве, то есть 119, а не 121, то разница все равно была бы почти такой же, но при этом она не была бы статистически достоверной (Р = 0,07).
Этот пример иллюстрирует то, что весьма часто «доказательство» эффективности лечения зависит всего от нескольких пациентов. Это верно даже для случая, когда, как в этом примере, в исследование были рандомизированы 400 пациентов, а это довольно крупное исследование депрессии.
Как правило, не требуется предпринимать больших усилий, чтобы превратить недостоверный результат в достоверный. Иногда исследователи или компании переосмысливают или повторно анализируют данные, после того как получают значение P выше 0,05, до тех пор, пока не придут к значению Р ниже 0,05. Это они делают путем, например, вранья о том, что еще у нескольких пациентов на активном лекарстве было улучшение или еще у нескольких пациентов на плацебо не было улучшения или за счет исключения некоторых рандомизированных пациентов из анализа5
.Это нечестный подход к науке, но, как мы увидим в главах 4 и 8, нарушения в научной практике очень широко распространены.
Помимо такого мошенничества, недостаточное «ослепление» в исследованиях может также подвести нас к представлению, что неэффективные препараты эффективны. «Ослепление» важно не только когда пациенты оценивают свое состояние, но и когда их оценивают врачи. Депрессия имеет сложную шкалу, включающую множество субъективных элементов, и совершенно очевидно, что знание того, какое лечение получает пациент, может положительно влиять на оценку врачом эффективности этого лечения.
Это было убедительно продемонстрировано Хробьяртссоном и коллегами в 2012 году с помощью серии клинических испытаний при различных заболеваниях, в которых участвовали как «ослепленные», так и «не ослепленные» подопытные. Обзор 21 такого испытания, в которых в основном использовались субъективные результаты, показал, что эффект вмешательства был преувеличен в среднем на 36% при оценке его «не ослепленными» исследователями по сравнению с «ослепленными»6
. Это очень большое смещение, учитывая, что заявленный эффект большинства лечебных вмешательств гораздо ниже, чем 36%.Таким образом, двойное слепое исследование, в котором «ослепление» недостаточно эффективно, может преувеличивать эффект весьма существенно. Можем проверить это на нашем примере с антидепрессантами, допуская для простоты, что «ослепление» нарушается у всех пациентов. Для расчета соотношения шансов мы переставим числа так, чтобы низкое значение символизировало полезный положительный эффект, что вполне соответствует принятой договоренности (
Таблица 3.2. Те же результаты, что в таблице 3.1, но переставленные
Этот пример был слишком упрощенным, поскольку «ослепление» редко нарушается для всех пациентов, но упражнение тем не менее отрезвляет. Даже если «ослепление» нарушается только по отношению к нескольким пациентам, этого может быть достаточно, чтобы сделать недостоверный результат достоверным. Хробьяртссон c коллегами отметили в своем обзоре, что 36-процентное преувеличение эффекта лечения, связанное с отсутствием «ослепления» оценщиков, было вызвано неправильным распределением результатов по медиане у 3% оцененных пациентов на каждое клиническое испытание (что соответствует 12 пациентам из общего числа, в данном случае – 400).