Я также наблюдал за студентами-медиками, ожидая, что и они не усовершенствуют умение применять статистику в решении повседневных проблем. Но я оказался не прав. Эти студенты значительно улучшили показатели. Я несколько дней ходил к медикам Мичиганского университета, чтобы понять причину. К моему удивлению, медицинское образование требует некоторого изучения статистики: студентам на раннем этапе обучения раздают специальные брошюры. Вероятно, здесь важно не изучение стандартного минимума по статистике, а то, что студенты учились думать о количественных аспектах медицины и поведения людей и рассуждать о них, оперируя статистическими терминами. У пациента есть симптомы А, Б и В, но нет симптомов Г и Д. Какова вероятность того, что у пациента обнаружат заболевание К? Заболевание М? Заболевание К, говорите вы? Вы, вероятно, не правы. Заболевание К встречается очень редко. Если вы слышите топот копыт, то это скорее лошади, чем зебры. Какие анализы вы хотите сдать? Анализы Р и С? Неправильный ответ. Статистически эти анализы не очень надежны; кроме того, они дорогие. Вам лучше сдать анализы Т или У, они дешевые и статистически более надежны. Но ни один из этих анализов не может точно спрогнозировать, что у вас не проявится заболевание К или М.
Как только вы приобретете навык интерпретации повседневных проблем как статистических задач и кодирования составляющих их элементов таким образом, чтобы к ним можно было применить статистическую эвристику, нужные правила каким-то чудом окажутся у вас под рукой и помогут решить проблему — причем вы можете даже не осознавать, что уже применяете приготовленный на скорую руку статистический принцип.
Я расскажу о некоторых основных принципах статистики, о которых известно уже добрую сотню лет, самыми простым языком. Представители разных наук используют эти понятия, чтобы понимать, насколько они могут быть уверены, что дают верную характеристику предмета исследования, чтобы оценивать степень взаимосвязи между событиями разных типов, чтобы узнать, есть ли между событиями причинно-следственная связь. Мы также увидим, что эти принципы могут пролить свет на повседневные вопросы и помогать нам и другим принимать более качественные решения на работе и в личной жизни.
7. Вероятность и объем выборки
В 2007 г. губернатор Техаса Рик Перри издал распоряжение, согласно которому всем девочкам по достижении 12 лет должны были делать прививки от вируса папилломы человека, заражение которым может привести к раку шейки матки. Критикуя Рика Перри в дебатах перед республиканскими выборами в 2012 г., кандидат Мишель Бахманн заявила, что одна женщина рассказала ей, что «ее дочке сделали эту прививку, а после этого у нее диагностировали задержку в умственном развитии».
Какая ошибка заключалась в выводе, сделанном Бахманн, — или по крайней мере в ее призыве сделать этот вывод — о том, что прививка от ВПЧ провоцирует умственную отсталость? Давайте подумаем.
Слова Бахманн нужно рассматривать как сообщение о примере инцидента, произошедшего среди представителей определенной популяции, а именно группы двенадцатилетних девочек из США, которым была сделана прививка против ВПЧ. Один случай умственной отсталости в этой популяции представляет собой слишком малую выборку (малое количество учтенных примеров), которой даже с натяжкой недостаточно для вывода, что здоровью этих девочек угрожают такие прививки.
Интересно, что на самом деле было проведено несколько опытов с произвольным распределением объектов по контрольным группам, в ходе которого экспериментаторы произвольно выбрали некоторых девочек для проведения прививок. Было обследовано огромное число девочек. Ни одно из исследований не показало, что среди девочек, которым была сделана прививка, количество умственно отсталых впоследствии оказалось выше, чем среди тех, кому прививку не сделали.
Приведенный Бахманн пример с прививкой является типичным образцом доверия статистике, основанной на источнике «я знаю одного человека, который сказал, что...». Пример Бахманн — в лучшем случае непродуманный, но никак не случайный. Чем больше процесс отбора образцов соответствует золотому стандарту случайного выбора — который означает, что каждый индивидуум данной популяции имеет равные шансы появления в выборке, — тем большего доверия он заслуживает. Если мы не знаем, случайно ли выбран данный пример, то любая статистическая оценка, которую мы дадим этому явлению, может оказаться необъективной.