Представьте, что вы отвечаете за маркетинг гибридного автомобиля и хотите сообщить об эффективности его топлива. Вы сажаете за руль водителя и получаете данные, что машина проезжает 129 километров на 4,5 литра топлива. Выглядит впечатляюще — получилось! Но, может, вам просто повезло? Ваш конкурент проводит более масштабное исследование, выпускает пять водителей на пяти автомобилях и получает, что на таком количестве топлива можно проехать 97 километров. Кто же прав? Вы оба! Предположим, ваш конкурент сообщил о полученных результатах следующим образом:
Тест 1: 93 км (на 4,5 л топлива)
Тест 2: 61 км (на 4,5 л топлива)
Тест 3: 111 км (на 4,5 л топлива)
Тест 4: 87 км (на 4,5 л топлива)
Тест 5: 129 км (на 4,5 л топлива)
Дорожные условия, температура окружающей среды, манера вождения — все это создает определенную вариабельность. Если бы вам повезло (а вашему конкуренту нет), ваш единственный водитель мог бы получить предельный результат, о котором вы бы потом радостно сообщили (и, конечно, если вы хотите только лучшее, то вы просто игнорируете результаты остальных тестов). Но если вам нужна правда, то необходима выборка побольше. Какая-нибудь независимая лаборатория, протестировавшая 50 разных заездов, могла бы обнаружить, что среднее арифметическое будет совершенно иным. В целом аномалии вероятнее в маленьких выборках.
Если вы посмотрите на количество детей, рожденных в какой-нибудь сельской больнице за месяц, и увидите, что 70 % новорожденных — это мальчики (по сравнению с 51 % в крупных городских больницах), то можете решить, что в сельских больницах происходит что-то странное. Может, и происходит, но это не доказательство, чтобы делать выводы. Мы снова имеем дело с маленькой выборкой. В крупной больнице могли заявить, что среди 100 новорожденных 51 был мужского пола, а в маленькой больнице могли сказать, что у них семь мальчиков из десяти новорожденных. Как и в случае с монеткой, описанном выше, среднее арифметическое в статистическом смысле, 50 на 50, чаще встречается в больших выборках.
А какой должна быть выборка, чтобы считаться достаточной? Это задачка для профессионального статистика, но существует несколько простых, но эффективных правил, которые вы можете использовать, чтобы самостоятельно разобраться в прочитанном. Для демографического исследования (например, предпочтения во время голосования, предпочтения в выборе зубной пасты и т. д.) в интернете можно найти калькулятор для расчета размера выборки. Чтобы определить частоту чего-либо (например, сколько новорожденных мужского пола, сколько раз в день человек в среднем говорит о том, что он голоден, и т. д.), нужно знать базовые данные о том, что вы исследуете. Если исследователь хотел узнать, сколько случаев рождения альбиносов было зарегистрировано в каком-то сообществе, изучил тысячу новорожденных и среди них ни одного альбиноса не нашел, было бы глупо делать вообще какие-либо выводы: альбиносы рождаются в одном случае из 17 тысяч. Выборка в тысячу случаев слишком мала, если учесть, как редко встречается исследуемый феномен. С другой стороны, если исследуется частота преждевременных родов, тысячи случаев было бы более чем достаточно, потому что такое случается в одном случае из девяти[132]
.Статистическая грамотность
Давайте представим себе уличную игру: в шляпе или корзине лежат три карты, у каждой из которых две стороны, — одна карта красного цвета с обеих сторон, одна белая с обеих сторон, а третья белого цвета с одной стороны и красного с другой[133]
. Мошенник вытягивает карту и показывает вам одну сторону — она красная. Он ставит пять долларов, что оборотная сторона тоже будет красной. Он хочет, чтобы вы думали, будто вероятность тут 50 на 50, — вы соглашаетесь, делаете ставку, думая, что оборотная сторона будет белой. Ход ваших мыслей может быть таким:Он мне показывает красную сторону карты. То есть он вытянул либо красно-красную карту, либо красно-белую. Следовательно, оборотная сторона будет либо красная, либо белая — вероятность одинакова в обоих случаях. Могу себе позволить принять эту ставку, потому что, даже если я не выиграю в этот раз, то уж точно в следующий.
Отставим в стороне типичное заблуждение любого игрока — многие потеряли деньги, удваивая ставки в рулетку, а в результате их накрывало осознанием, что удача не саморегулируема, — мошенник как раз и рассчитывает на то, что вы придете к подобным, в корне неверным, выводам, и обычно начинает говорить быстрее, чтобы отвлечь вас. Попробуем представить себе происходящее визуально:
Вот эти три карты: