Предположим, вы прошли медицинское обследование, чтобы узнать, есть ли у вас заболевание, и результат оказался положительным. Насколько вероятно, что вы действительно больны? Ради конкретности предположим, что речь идет о раке груди, а метод обследования — маммография. Здесь прямая вероятность — это вероятность положительного результата в случае, если вы действительно больны: P (обследование | болезнь). Врач назвал бы это «чувствительностью» обследования, подразумевая его способность правильно выявлять болезнь. Как правило, это одинаковая величина для всех пациентов, потому что она зависит только от технических возможностей прибора, выявляющего связанные с заболеванием отклонения. Обратная вероятность, скорее всего, окажется для вас более важной: какова вероятность, что вы больны, если результат оказался положительным? Это P (болезнь | обследование), и здесь информация идет не в причинном направлении, а от результата обследования к вероятности болезни. Вероятность не одинакова для всех типов пациентов; безусловно, положительный результат будет более тревожным для пациентки с семейным анамнезом болезни, чем для пациентки без такого анамнеза.
Обратите внимание, что мы начали говорить о причинных и непричинных направлениях. Мы не сделали этого в примере с чайной, потому что там было не важно, что делали в первую очередь — заказывали чай или просили пирожные. Было важно одно: какую условную вероятность можно оценить. Но причинно-следственный контекст проясняет, почему мы чувствуем себя менее уверенно, оценивая обратную вероятность, а в эссе Байеса прямо говорится, что его интересовала именно эта задача.
Предположим, 40-летней женщине сделали маммографию, чтобы проверить, нет ли у нее рака груди, и результаты оказались положительными. Гипотеза D (от англ. disease — «болезнь») состоит в том, что у нее рак. Доказательство, T (от англ. test — «анализ, обследование») представляет собой результат маммографии. Насколько стоит верить этой гипотезе? Следует ли делать операцию?
Мы можем ответить на эти вопросы, переписав правило Байеса следующим образом:
Обновленная вероятность D = P (D | T) = Отношение правдоподобия × Априорная вероятность D (1),
где новый термин «отношение правдоподобия» определяется как P (T | D) /P (T). Он измеряет, насколько вероятнее положительный результат обследования у людей с этим заболеванием, чем у населения в целом. Таким образом, уравнение (1) говорит, что новые данные T увеличивают вероятность D на фиксированную пропорцию независимо от того, какой была априорная вероятность.
Приведем пример, чтобы увидеть, как работает эта важная концепция. У обычной 40-летней женщины вероятность заболеть раком груди в следующем году — приблизительно 1:700, поэтому мы будем использовать ее в качестве априорной вероятности.
Чтобы вычислить отношение правдоподобия, нам нужно знать P (T | D) и P (T). В медицинском контексте P (T | D) — это чувствительность маммограммы, т. е. вероятность положительного результата, если у пациентки рак. По данным Консорциума по надзору за раком груди (Breast Cancer SUrveillance ConsortiUm; BCSC), чувствительность маммограммы для 40-летних женщин составляет 73 %.
Со знаменателем P (T) дело обстоит немного сложнее. Положительный результат T может быть получен как от пациенток, у которых есть эта болезнь, так и от пациенток, у которых ее нет. Таким образом, P (T) должно быть средневзвешенным значением P (T | D) (вероятность положительного результата у тех, кто болеет) и P (T | ~D) (вероятность положительного результата у тех, кто этим не болеет). Второй называют уровнем ложноположительных результатов. Согласно BCSC, уровень ложноположительных результатов для 40-летних женщин составляет около 12 %.
Почему средневзвешенная? Потому что здоровых женщин (~D) намного больше, чем женщин, больных раком (D). Фактически только 1 из 700 женщин страдает этим недугом, а остальные 699 — нет, поэтому вероятность положительного результата теста для случайно выбранной женщины должна гораздо сильнее зависеть от 699 женщин, у которых нет рака, чем от одной женщины, у которой он есть.
Получить средневзвешенное значение можно с помощью следующих вычислений: P (T) = 1/700 ∙ 73 % + 699/700 ∙ 12 % a 12,1 %. Коэффициенты обусловлены тем, что только у 1 из 700 женщин вероятность положительного результата составляет 73 %, а у остальных 699–12 %. Как и следовало ожидать, P (T) оказался очень близок к уровню ложноположительных результатов.