Ладно, «в 1 случае из 10» – не такое уж маловероятное событие. Рассмотрим эту проблему в контексте утверждения нового лекарства от рака. На каждые десять препаратов, которые мы одобряем с этим относительно низким «бременем статистического доказательства», один на практике оказывается неэффективным, а в процессе тестирования показывает обнадеживающие результаты лишь по чистой случайности. (Или, если воспользоваться примером из судебной практики, из каждых десяти подсудимых, признанных виновными, один фактически невиновен.) Ошибка первого рода заключается в ошибочном отказе от основной гипотезы. Иногда это называют «ложным позитивом», хотя употребление такого термина кажется несколько парадоксальным. Вот один способ примириться с подобным жаргоном. Когда вы приходите к врачу, чтобы выяснить, не страдаете ли вы некой болезнью, основная гипотеза заключается в том, что вы ею не страдаете. Если результаты анализов позволяют отвергнуть нулевую гипотезу, то врач говорит, что у вас положительный результат анализов. А если у вас положительный результат анализов, хотя в действительности вы не больны, то это и есть случай «ложного позитива».
Как бы то ни было, чем ниже «статистическое бремя» для отклонения нулевой гипотезы, тем выше вероятность «ложного позитива». Очевидно, что мы предпочли бы не утверждать неэффективные лекарства от рака и не отправлять невинных людей за решетку.
Но здесь есть один нюанс. Чем выше порог для отказа от нулевой гипотезы, тем вероятнее, что нам не удастся отвергнуть ту нулевую гипотезу, которую на самом деле следовало было бы отвергнуть. Если бы нам потребовалось не менее пяти свидетелей, чтобы признать виновным каждого обвиняемого, то на свободе оказалось бы немалое число настоящих преступников. (Разумеется, при этом за решетку не угодили бы многие невиновные люди.) Если при клинических испытаниях всех новых лекарств от рака мы примем уровень значимости 0,001, то мы действительно минимизируем утверждение неэффективных препаратов. (В этом случае будет лишь 1 шанс из 1000 ошибочно отвергнуть нулевую гипотезу, которая заключается в том, что испытываемое лекарство эффективно не более чем плацебо.) Однако при этом возникает риск не допустить на рынок много эффективных лекарств, поскольку мы установили очень высокую планку для их утверждения. На языке статистики это называется ошибкой второго рода, или «ложным негативом»[50]
.Какая же из двух ошибок хуже? Это зависит от конкретных обстоятельств. Самое важное – что вы признаете необходимость компромисса. В статистике «бесплатный завтрак» невозможен. Рассмотрим перечисленные ниже нестатистические ситуации, каждая из которых предполагает достижение определенного компромисса между ошибками первого и второго рода.
1. Спам-фильтры.
Основная гипотеза: любое конкретное сообщение, приходящее по электронной почте, не спам. Ваш спам-фильтр отыскивает признаки, которые могут использоваться для отказа от нулевой гипотезы для того или иного конкретного сообщения, например огромные списки рассылки или наличие фраз типа «удлинение пениса». Ошибка первого рода предполагает отбраковку сообщения, которое на самом деле не является спамом («ложный позитив»). Ошибка второго рода предполагает пропуск спама через фильтр и его попадание в ваш почтовый ящик («ложный негатив»). Сравнивая последствия от потери важного сообщения и незначительное раздражение, вызванное получением совершенно не интересующего вас письма, содержащего, скажем, рекламу БАДов, большинство людей, скорее всего, предпочтут терпеть неудобства, обусловленные ошибками второго рода. Оптимально разработанный спам-фильтр должен требовать относительно высокой степени определенности, прежде чем отвергнуть нулевую гипотезу и заблокировать соответствующее сообщение.