Не забывайте, что хлорогидроксилен, гипотетическое лекарство, о котором я говорил, в 20 % случаев дает побочные эффекты. Если бы лечили всех, то есть 201 человека с положительными анализами на блурит, то 20 % из них – 40 человек – получили бы побочные эффекты. Помните, что на самом деле болеет только один человек, а лечение в 40 раз чаще приводит к побочным эффектам, нежели выздоровление.
В обоих описанных в шестой главе случаях, как с блуритом, так и с «синей» болезнью, даже при положительных анализах вряд ли вы оказываетесь больным. Конечно, если вы на самом деле болеете, очень важно подобрать правильное лекарство. Что можно сделать?
Стоит сдать анализы второй раз. Мы применяем закон умножения вероятностей, считая, что результаты анализов независимы. То есть любые ошибки могут случайно привести к тому, что только у вас из всех, кто сдавал анализы, получится неверный результат. Это совсем не значит, что у кого-то в лаборатории на вас зуб, поэтому если вы получили некорректный результат однажды, то шансы получить ошибку второй раз у вас не больше, чем у кого-то другого. Вспомните, я говорил, что существует двухпроцентная вероятность того, что анализы окажутся неверными. Рассчитать вероятность того, что лаборант два раза подряд ошибется, можно 2 % × 2 %, или 0,0004. Если вы предпочитаете дроби, то вероятность 1/50, и 1/50 × 1/50 = 1/2500. Но даже эта статистика не включает основной показатель, то есть то, насколько редко встречается эта болезнь. И основной посыл раздела: это нужно делать.
Безусловно, очень поможет, если вы и в этом случае построите четырехпольную таблицу и ответите на вопрос «Какова вероятность того, что я болею,
Когда мы начинали рассматривать блурит, у нас была только гора цифр, и мы расставляли их в таблицу. Так было проще посчитать скорректированную вероятность. Одна из особенностей байесовского вывода в том, что вы можете поместить скорректированные данные в новую четырехпольную таблицу. И каждый раз, обновляя информацию, строить новую таблицу и фокусировать внимание на все более точных оценках.
Вот так выглядит заполненная таблица:
И по ней мы видим:
• Количество человек с положительными результатами анализов: 201
• Количество человек с положительными результатами анализов, имеющие заболевание: 1
• Количество человек с положительными результатами анализов, не имеющие заболевания: 200.
Обратите внимание, мы сейчас рассматриваем только ту половину таблицы, где собраны данные людей с положительными результатами анализов. Это потому, что вопрос, на который мы хотим ответить, предполагает у вас положительные результаты: «Какова вероятность того, что я на самом деле болею, если два раза подряд анализы получились положительными?»
Теперь построим новую таблицу с имеющейся информацией. Как видно из заголовков ячеек, второй анализ может быть положительным или отрицательным, у вас может быть заболевание, а может не быть, но теперь мы рассматриваем не все население в 10 000 человек, а только тех из этого количества, у кого положительные анализы, то есть 201 человека. И теперь в ячейку «Все население» в нижнем правом поле мы записываем 201.
Можно сразу добавить дополнительную информацию, которая встречалась выше. Мы знаем количество человек, среди которых проводим исследование и которые либо болеют, либо нет. Мы добавляем это число в правое поле.
Вернемся к первоначально предоставленным данным: анализ показывает неправильные результаты в 2 % случаев. Один человек действительно болен; в 2 % случаев диагноз неверный, а в 98 % – верный: 2 % от 1 = 0,02. Я округлю этот результат до 0 – это и будет количество человек с ложноотрицательными результатами (заболевание есть, но второй раз его неправильно определили). А 98 % от 1 – очень близко к 1.
Теперь давайте применим тот же показатель ошибок, 2 %, к результатам тех, у кого нет заболевания. 2 % из 200 здоровых людей, чьи анализы окажутся положительными: 2 % от 200 = 4. Остается 196 человек, кого диагностировали правильно; это количество запишем в нижнем левом поле внутри таблицы. Пусть вас не беспокоит, что числа не целые.
Можно заполнить оставшиеся поля, сложив результаты в колонках: для этого нужно суммировать новые получившиеся вероятности.
Как и ранее, мы смотрим на левую колонку, потому что нас интересуют только люди с положительными результатами второго анализа.
Из пятерых людей, сдавших анализы второй раз, болеет только один: 1: 5 = 0,2. Другими словами, болезнь действительно настолько редкая, что, даже если два раза подряд получить положительный результат анализа, все равно 20 %, что вы больны, а 80 % – что нет.