Альтернативой может считаться метод Бонферрони, то есть требование, чтобы P-значение равнялось 0,05/25 000, или 1 на 500 000. В этом случае Шипман был бы пойман в 1984 году, когда при ожидаемом количестве 59,2 у него было 105 смертей, то есть на 46 больше.
Но даже это не будет надежной процедурой для всех врачей в стране. Вторая проблема заключается в проведении повторных проверок на значимость, поскольку ежегодно добавляются новые данные и производится очередная проверка. Существует один замечательный, но сложный теоретический результат, именуемый очаровательным термином «закон повторного логарифма», который показывает, что, выполняя такое повторное тестирование, даже при справедливости нулевой гипотезы, мы
Это настораживает, потому что означает, что при долгосрочной проверке какого-нибудь доктора в итоге мы гарантированно посчитаем, что нашли доказательства избыточной смертности, хотя в реальности его пациенты не подвергаются никакому излишнему риску. К счастью, существуют статистические методы для решения проблемы последовательного тестирования, изначально разработанные во время Второй мировой войны группой статистиков, которая не имела ничего общего со здравоохранением, а трудилась над задачами контроля качества при производстве вооружения и других военных материалов.
Изделия, сходящие с производственной линии, проверяли на соответствие стандарту, а весь процесс контролировался посредством постепенно накапливавшегося общего количества отклонений от стандарта – ровно так же, как при отслеживании избыточной смертности. Ученые поняли, что из закона повторного логарифма следует, что повторное тестирование всегда приводит к предупреждению, что промышленный процесс вышел из-под контроля, даже если на самом деле все функционирует нормально. Независимо друг от друга статистики из США и Соединенного Королевства разработали метод, известный как последовательный критерий отношения вероятностей (ПКОВ), представляющий собой статистику, которая отслеживает накапливающуюся информацию об отклонениях и может быть в любой момент сопоставлена с простыми пороговыми значениями. Как только один из этих порогов преодолевается, срабатывает сигнал тревоги и производственная линия исследуется[205]. Эти методы позволили создать более эффективные промышленные процессы, а позже были адаптированы к использованию в так называемых последовательных клинических испытаниях, при которых накапливаемые результаты регулярно отслеживаются, чтобы понять, не пересечен ли порог, указывающий на полезное лечение.
Я был одним из команды разработчиков варианта ПКОВ, который можно применить к данным о Шипмане. Рис. 10.4 отображает картину для мужчин и женщин в случае, когда в качестве альтернативной гипотезы выступает предположение, что смертность у Шипмана вдвое больше, чем у его коллег. У этого критерия есть пороговые значения, которые контролируют вероятность ошибки первого (альфа) и второго (бета) рода для значений 1 из 100, 1 из 10 000 и 1 из 1 000 000: ошибка первого рода – это общая вероятность того, что статистика пересечет пороговое значение в какой-нибудь точке, если бы у Шипмана был ожидаемый уровень смертности, а ошибка второго рода – общая вероятность статистики
Рис. 10.4
Статистика для последовательного критерия отношения вероятностей (ПКОВ) для обнаружения удвоения риска смертности: пациенты в возрасте >64 лет, умершие дома / на приеме. Прямые линии отображают пороговые значения «сигнала тревоги» для показанных общих величин ошибок первого (альфа) и второго (бета) рода – предполагается, что они совпадают. Если смотреть на линию для женщин, видно, что Шипман пересек бы внешний порог в 1985 году
Поскольку насчитывается около 25 тысяч семейных врачей, разумно взять пороговое P-значение 0,05/25 000, или 1 на 500 000. Для одних только женщин Шипман преодолел бы более строгий порог α = 0,000001, или 1 на миллион, в 1985 году, а суммарно для женщин и мужчин – в 1984-м. Поэтому последовательный критерий забил бы тревогу в тот же момент, что и примитивный повторяемый тест значимости.
Мы пришли к выводу, что если бы кто-то занимался таким отслеживанием и на Шипмана в 1984 году завели бы уголовное дело и осудили, то тем самым спасли бы примерно 175 жизней. И все исключительно с помощью применения простой процедуры статистического мониторинга.