Этот простой пример преподает нам важный урок. Даже в эпоху открытых данных, науки о данных и журналистики данных нам по-прежнему нужны базовые статистические принципы, чтобы нас не ввели в заблуждение видимые закономерности в числах.
Наша диаграмма показывает, что единственное наблюдение, требующее внимания, – это точка, соответствующая Глазго. Неужели колоректальный рак – это, некий шотландский феномен? Действительно ли верно это наблюдение? Более поздние данные за 2009–2011 годы показывают, что уровень смертности от колоректального рака в Большом Глазго[170] составлял 20,5 на 100 тысяч человек, в Шотландии в целом – 19,6, а в Англии – 16,4: эти результаты ставят под сомнение вышеуказанное наблюдение для Глазго, но демонстрируют, что в Шотландии уровень смертности выше, чем в Англии. Как правило, заключения, сделанные после одного цикла решения задачи, поднимают новые вопросы и цикл начинается заново.
Отдельные наблюдения могут быть взяты из самых разных распределений, которые порой бывают сильно асимметричными или имеют длинные хвосты (как в случае дохода или числа сексуальных партнеров). Однако мы сделали решительный шаг в сторону изучения распределения статистик, а не отдельных наблюдений, и эти статистики в каком-то смысле обычно более усреднены. Мы уже видели в главе 7, что распределение выборочных средних у бутстрэп-выборок сходится к симметричной форме независимо от вида исходного распределения данных, и теперь можем пойти дальше, к более глубокой и замечательной идее, которая появилась около 300 лет назад.
Пример с левшами показывает, что по мере увеличения размера выборки отклонения для наблюдаемой доли уменьшаются – вот почему воронка на рис. 9.2 сужается вокруг среднего значения. Это классический закон больших чисел, который в начале XVIII века вывел швейцарский математик Якоб Бернулли. Испытанием Бернулли называется эксперимент с двумя исходами – «успехом» и «неудачей», которые обычно обозначаются 1 и 0. Соответствующая случайная величина, принимающая значение 1 с вероятностью p и 0 с вероятностью 1 – p имеет распределение Бернулли. Например, если вы один раз подбрасываете симметричную монету, то число выпавших орлов – это случайная величина, имеющая распределение Бернулли с p = 0,5. Предположим, что вы с помощью монеты будете производить последовательность испытаний Бернулли. Тогда доля орлов будет постепенно приближаться к 0,5, и мы скажем, что наблюдаемая доля орлов сходится к реальной вероятности их выпадения. Конечно, поначалу эта доля может отличаться от 0,5, и после нескольких выпавших подряд орлов появляется искушение поверить, что решки теперь как-то «обязаны» появляться чаще, чтобы восстановить баланс. Это заблуждение известно как
В главе 3 мы представили классическую колоколообразную кривую, также известную как нормальное (гауссовское) распределение, когда показывали, что оно хорошо описывает распределение веса новорожденных в США, и объяснили, что вес детей зависит от огромного количества факторов, каждый из которых оказывает небольшое влияние; складывая все эти маленькие воздействия, в итоге мы получаем нормальное распределение.
Именно это лежит в основе так называемой центральной предельной теоремы, впервые доказанной в 1733 году французским математиком Абрахамом де Муавром[171] для частного случая биномиального распределения. Однако к нормальному распределению сходится среднее не только для биномиальных случайных величин – примечательно то, что какое бы распределение для наших наблюдений мы ни взяли, можно считать, что при больших размерах выборки среднее значение наблюдений имеет нормальное распределение[172]. При этом его среднее совпадает со средним исходного распределения, а среднеквадратичное отклонение (как уже упоминалось, его часто называют стандартной ошибкой) имеет простую связь со среднеквадратичным отклонением для исходного распределения[173].
Фрэнсис Гальтон не только написал работы о мудрости толпы, корреляции, регрессии и на многие другие темы, но и считал настоящим чудом то, что нормальное распределение (называемое в то время законом распределения ошибок) каким-то упорядоченным образом возникает из видимого хаоса: