Здесь я приведу пример из главы 6 с несуществующей болезнью, блуритом. Давайте вспомним, о чем шла речь.
• Вы сдаете анализы на гипотетическую болезнь – и получаете положительный результат.
• Основной показатель для блурита – 1 случай из 10 000, или 0,0001.
• Если лечиться хлорогидроксиленом, то существует вероятность 5 %, или 0,05, что у вас проявятся побочные эффекты.
• Анализы на блурит в 2 % случаев, или 0,02, оказываются неверными.
Вопрос: принимать лекарство или нет?
Для начала построим четырехпольную таблицу и подпишем ячейки.
Ячейки внутри позволяют распределить данные на взаимоисключающие категории:
• люди с положительными результатами анализов, у которых есть заболевание (верхняя левая ячейка внутри). Назовем ее ПРАВИЛЬНОЕ ПОДТВЕРЖДЕНИЕ.
• люди с отрицательными результатами анализов, у которых есть заболевание (верхняя правая ячейка внутри). Назовем ее ЛОЖНООТРИЦАТЕЛЬНЫЕ.
• люди с положительными результатами анализов, у которых нет заболевания (нижняя левая ячейка внутри). Назовем ее ЛОЖНОПОЛОЖИТЕЛЬНЫЕ.
• люди с отрицательными результатами анализов, у которых нет заболевания (нижняя правая ячейка внутри). Назовем ее ПРАВИЛЬНОЕ ОТКЛОНЕНИЕ.
Начнем заполнять известные данные. Основной показатель болезни – 1 из 10 000. В нижнем правом углу, за пределами большой ячейки, напишем «общее население» – 10 000. Я говорю «население», потому что это общее количество человек, которое мы рассматриваем (могли бы взять 380 миллионов человек, живущих в США, а затем изучить все случаи за год – 38 000, но мне удобнее заполнять таблицу меньшими числами, потому что с ними легче обращаться и представить себе «масштабы катастрофы»).
Теперь с помощью этой таблицы нужно посчитать данные во всех остальных ячейках, как в основных четырех внутри, так и снаружи. Мы знаем: один человек из этих 10 000 болеет блуритом. Пока не видим результатов анализов, поэтому пишем цифру 1 справа в поле «Болезнь: есть», показывая наличие болезни.
То, каким образом организована таблица, когда значения идут сверху вниз и слева направо, предполагает, что сумма этих значений заполняется на полях за ее пределами. Это логично: если количество заболевших равно единице, а общее число – 10 000, мы знаем, сколько людей не болеют: 10 000 – 1 = 9999. Впишем.
От врача мы знаем (об этом я писал выше), что в 2 % случаев анализы дают неправильные результаты. Из 9999 незаболевших 2 % получили неверные анализы, предполагающие диагноз, в том смысле, что они не болеют, но результаты анализов положительные (ложноположительные, нижнее левое поле). Считаем 2 % × 9999 = 199,98, округляем до 200.
Теперь, ввиду того, что нам нужно заполнить данные и по горизонтали, и по вертикали, можно посчитать здоровых людей, результаты анализов у которых были отрицательные, то есть правильное отклонение. Это 9999 – 200 = 9799.
Теперь заполним данные о другой ошибке в постановке диагноза: 2 % ложноотрицательных. Эти результаты означают, что человек на самом деле болен, а по результатам анализов – нет. Это количество представлено в верхнем правом поле. Болен (как мы видим в таблице, посмотрев на правое поле за пределами основных ячеек) один человек. Тогда считаем 2 % × 1 = 0,2, округляем до 0.
И конечно, давайте теперь заполним оставшееся пустое поле – вписываем туда 1 (это значение получилось так: от 1 в боковом поле, которую мы вписали вначале, вычитаем 0, записанный в верхнее правое поле, поскольку у нас должны быть заполнены все ячейки).
Теперь, чтобы действительно заполнить всю таблицу, выпишем значения в нижние поля за пределами основных ячеек. Чтобы узнать общее количество человек с положительными результатами анализов, просто сложим значения в колонке: 1 + 200 = 201. Общее количество человек с отрицательными результатами анализов: 0 + 9799 = 9799.
Уже отсюда мы можем решить задачу так, как показано в главе 6.
1. Какова вероятность того, что вы больны,
1.1. p (Есть заболевание | анализы положительные)
Это удобный формат записи, потому что так мы видим: первая часть предложения, то есть все, что до знака |, – это числитель (верхняя часть уравнения), а все, что после – знаменатель.
Чтобы ответить на вопрос 1, мы смотрим
2. Какова вероятность того, что анализы окажутся положительными,
2.1. p (Анализы положительные | есть заболевание).
Здесь мы смотрим только на верхний ряд, и дробь получается 1/1. Это говорит о том, что вероятность получить положительные анализы при наличии заболевания равна 100 %.