Рассмотрим теперь округа с самым высоким уровнем заболеваемости раком почки. Эти нездоровые округа в основном сельские, малонаселенные и расположены в традиционно республиканских штатах на Среднем Западе, Юге и Западе. Вейнер и Цверлинг в шутку комментируют: «Легко предположить, что высокий уровень заболеваемости – прямое следствие бедности сельской жизни: хорошая медицина далеко, пища жирная, злоупотребление алкоголем и табаком». Конечно же, что-то не так. Сельская жизнь не может служить одновременным объяснением и для высокого, и для низкого уровня заболеваемости раком почки.
Основной фактор здесь – не то, что округа сельские или в основном республиканские. Все дело в том, что население сельских округов малочисленно. Главный урок, который нужно усвоить, касается не эпидемиологии, а сложных отношений между нашим разумом и статистикой. Система 1 отлично приспособлена к одной форме мышления – она автоматически и без усилий опознает каузальные связи между событиями, иногда даже в тех случаях, когда связи не существует. Услышав об округах с высоким уровнем заболеваемости, вы немедленно заключили, что они чем-то отличаются, что у этой разницы есть объяснение. Однако, как мы увидим, Система 1 не слишком способна управляться с «чисто статистическими» фактами, которые меняют вероятность результатов, но не заставляют их случаться.
Случайное событие – по определению – не подлежит объяснению, но серии случайных событий ведут себя чрезвычайно регулярным образом. Представьте себе сосуд, наполненный небольшими шариками. Половина из них – красные, половина – белые. Затем представьте очень терпеливого человека (или робота), который вслепую достает по четыре шарика, записывает число красных, бросает их обратно и повторяет так много-много раз. Если обобщить результаты, то обнаружится, что сочетание «два белых, два красных» появляется почти в шесть раз чаще, чем «четыре белых» или «четыре красных». Это соотношение – математический факт. Результат многократного извлечения шариков из урны можно предсказать с той же точностью, как результат удара молотком по яйцу. Предсказать, как именно разлетятся осколки скорлупы, вы не сможете, но в целом вы уверены в результате. Впрочем, есть одно различие: удовлетворенное ощущение причинной связи, которое вы испытываете, думая о молотке и яйце, в случае с шариками напрочь отсутствует.
С этим связан и другой статистический факт, относящийся к примеру о раке. Из одного и того же сосуда два очень терпеливых экспериментатора по очереди достают шарики. Джек в каждой попытке вытаскивает по 4 штуки, а Джилл – по 7. Они оба делают отметку каждый раз, когда им достаются шарики одного цвета, все белые или все красные. Если достаточно долго этим заниматься, то Джек будет наблюдать такие результаты примерно в 8 раз чаще Джилл (ожидаемый процент составляет 12,5 и 1,56 % соответственно). И вновь ни молотка, ни причины, просто математический факт: наборы из 4 шариков чаще дают однородные результаты, чем наборы из 7.
А теперь представьте население США шариками в огромном сосуде, причем некоторые шарики помечены буквами «РП», что говорит о раке почки. Вы извлекаете наборы шариков и по очереди населяете каждый округ. Выборки в сельских местностях меньше остальных. Как и в игре Джека и Джилл, экстремумы – то есть очень высокие и/или очень низкие уровни заболеваемости раком – с большей вероятностью окажутся в малонаселенных округах. Вот и вся история.
Мы начали с факта, который требует объяснения: уровень заболеваемости раком почки сильно меняется в зависимости от округа, и в этих изменениях есть закономерность. Я предложил статистическое объяснение: экстремумы (высокие и низкие показатели) вероятнее появятся в маленьких выборках, чем в больших. Это – не причина. Маленькое население округа не порождает рак и не спасает от него. Оно просто позволяет уровню заболеваемости быть намного выше (или намного ниже), чем в более многочисленной популяции. Истина состоит в том, что объяснять здесь нечего. На самом деле уровень заболеваемости раком не выше и не ниже нормы; если в округе маленькое население, она лишь кажется такой в отдельно взятом году из-за случайности выборки. Если повторить анализ на следующий год, мы заметим, что в целом ситуация с экстремумами в малых выборках та же, но округа, где в предыдущем году было много случаев рака, необязательно и на этот раз покажут высокий уровень заболеваемости. Если так, то разница между плотно населенными и сельскими округами не считается, это просто
Вы, может, и удивились моему рассказу, но не восприняли его как откровение. Вам давно известно, что результаты исследований надежнее на больших выборках, и о законе больших чисел слышали даже те, кто статистики совершенно не знает. Но просто «знать» недостаточно, и, возможно, вы обнаружите, что в отношении вас справедливы следующие утверждения: