Дерево на рис. 11.2 начинается с 1000 спортсменов, из которых 20 употребляли допинг, а 980 нет. Все допингисты, кроме одного, выявлены (95 % от 20 = 19), однако положительные тесты также оказались у 49 атлетов, не употреблявших допинг (95 % от 980 = 931). Следовательно, в общей сложности мы можем ожидать 19 + 49 = 68 положительных тестов, из которых только 19 действительно отражают допинг. Поэтому вероятность, что атлет с положительным допинг-тестом истинный допингист, составляет всего 19/68 = 28 %, а оставшиеся 72 % будут ложными обвинениями. Итак, хотя объявлено, что точность тестирования на допинг 95 %, большинство людей с положительным допинг-тестом на самом деле будут невиновными. Нетрудно представить все проблемы, которые этот парадокс может вызвать в реальной жизни, когда спортсменов незаслуженно клеймят за проваленный допинг-тест.
Рис. 11.2
Дерево ожидаемых количеств для задачи о допинге, показывающее, чего можно ожидать при проверке 1000 спортсменов, когда допинг принимает 1 из 50, а «точность» тестирования составляет 95 %
Один из способов осмыслить этот процесс – «поменять порядок» в дереве, сначала поставив тестирование, а затем раскрыв истину. Это показано на рис. 11.3.
Рис. 11.3
«Обращенное» дерево ожидаемых количеств для задачи о допинге, перестроенное так, чтобы сначала шли результаты тестов, а затем истинное положение вещей
Это «обращенное» дерево дает в точности те же числа, но учитывает временной порядок, в котором мы получаем информацию (тестирование → допинг), а не порядок по фактической временн
Пример со спортивным допингом показывает, насколько легко спутать вероятность наличия допинга при условии положительного теста (28 %) с вероятностью положительного теста при условии наличия допинга (95 %). Мы уже сталкивались со случаями, когда вероятность события А при условии, что произошло событие В, путали с вероятностью события В при условии, что произошло событие А:
• неправильная интерпретация P-значений, когда вероятность какого-то факта при условии нулевой гипотезы смешивается с вероятностью нулевой гипотезы при условии этого факта;
• ошибка прокурора в судебных разбирательствах, когда вероятность факта при условии невиновности путается с вероятностью невиновности при условии такого факта.
Разумный наблюдатель может подумать, что формальное байесовское мышление внесло бы ясность и строгость в работу с доказательствами в судебных разбирательствах, а потому точно удивится, узнав, что британские суды фактически запрещают теорему Байеса. Прежде чем объяснить, почему, нам нужно рассмотреть статистическую величину, которая в суде разрешена, – отношение правдоподобия
.Пример с допингом демонстрирует логические шаги, позволяющие добраться до той величины, которая действительно важна при принятии решения:
С помощью дерева ожидаемых количеств анализ становится вполне интуитивно понятным, хотя теорема Байеса также предоставляет удобную формулу для выражения в вероятностях. Но сначала мы должны вернуться к идее шансов, введенной в главе 1
, хотя опытные игроки, по крайней мере в Британии, прекрасно с ней знакомы. Шансы на какое-то событие – это вероятность того, что оно произойдет, деленная на вероятность того, что оно не произойдет. Например, если мы бросаем игральную кость, то шансы на выпадение шестерки – 1 к 5. На самом деле вероятность выпадения шестерки равна 1/6, а вероятность выпадения нешестерки – 5/6; поэтому шансы на выпадение шестерки равны 1/6: 5/6 = 1/5[216] (обычно именуется «один к пяти» или «пять против одного», если вы используете британский метод выражения шансов в азартных играх).Теперь нам нужно ввести идею отношения правдоподобия – понятия, ставшего критически важным при выражении силы судебных доказательств в уголовном судопроизводстве. Судьи и адвокаты постепенно учатся понимать отношения правдоподобия, которые фактически сравнивают относительную поддержку, предоставляемую неким фактом (свидетельством, доказательством) для двух конкурирующих гипотез, назовем их А и В, часто означающих виновность и невиновность. С технической точки зрения отношение правдоподобия – это вероятность факта при условии гипотезы А, деленная на вероятность факта при условии гипотезы В.