Читаем Цифры врут. Как не дать статистике обмануть себя полностью

Цифры врут. Как не дать статистике обмануть себя

Эту врезку читать необязательно, но, если вы хотите узнать больше об условной вероятности, не пропускайте ее.

В теореме Байеса говорится об условной вероятности – возможно, вы помните ее со школы. Представьте, что у вас в руках тщательно перетасованная колода карт. Какова вероятность, что первым вы достанете из нее туза? Она равна 4/52, потому что всего в колоде 52 карты, а тузов в ней – 4. Поскольку оба числа делятся на 4, эту дробь можно сократить до 1/13.

Предположим, в первый раз вы открыли туза. Какова вероятность, что такой же окажется и вторая карта? Поскольку одного туза вы уже вытащили, шансы изменились: теперь это три туза из 51 карты, то есть 3/51.

Это – вероятность вытащить туза, если одного туза вы уже вытащили и удалили из колоды.

В статистике вероятность (обозначим ее P) события (обозначим его A) записывается так:

P(A)

Если есть еще одно событие, которое произошло до A (обозначим его B), то вероятность записывается так:

P(A|B)

Здесь вертикальная линия обозначает «при условии». P(A|B) попросту значит «вероятность A при условии, что B уже произошло». Так что P(A|B) для «выпадения туза при условии, что одного туза вы уже из колоды удалили», равна 3/51, или примерно 0,06.

С помощью одних обозначений это трудно объяснить, поэтому давайте рассмотрим пример. В таких случаях обычно вспоминают медицинские обследования. Представим, что некоторый анализ крови позволяет выявить очень редкое, но смертельное нейродегенеративное заболевание на начальной стадии. Анализ крайне точный.

Важно отметить, что существует два вида точности. Первый – насколько вероятно определить наличие заболевания у того, у кого оно есть, – это доля истинно положительных случаев, которые тест идентифицировал верно, или чувствительность. Второй – насколько вероятно определить отсутствие заболевания у того, у кого его нет, – доля истинно отрицательных случаев, которые тест правильно идентифицировал, или специфичность. Будем считать, что у нас оба показателя составляют 99 %.

Важно отметить, что заболевание очень редкое. Предположим, оно встречается у одного человека из десяти тысяч. Это наша априорная вероятность.

Итак, вы берете анализы у миллиона человек. Из каждых десяти тысяч один болен, итого сто больных. Ваш анализ покажет, что 99 из них больны. Пока всё в порядке.

И он правильно выявит 989 901 человека, у которых заболевания нет. По-прежнему все идет неплохо.

Но есть одна загвоздка. Несмотря на то что анализ верен в 99 % случаев, он тем не менее покажет наличие смертельного заболевания у 9999 здоровых людей. Из тех 10 098 человек, у которых анализ выявит болезнь, на самом деле больны 99, то есть менее 1 %. Если бы вы стали принимать результаты за чистую монету и говорили каждому с положительным результатом, что он болен, то вы бы ошибались в 99 случаях из 100, напрасно пугая людей и, возможно, посылая их на ненужные, инвазивные и рискованные медицинские процедуры.

Не зная априорной вероятности, вы не можете знать значения положительного теста. Оно не скажет вам, с какой вероятностью у вас то заболевание, которое выявляет анализ. Поэтому сообщение о 95 %-ной точности бессмысленно.

Перейти на страницу: