Огромное преимущество использования нормального распределения – в его изученности и возможности взять все его важные характеристики из таблиц или программ. На рис. 3.2(b) показано положение среднего и 1, 2 и 3 среднеквадратичных отклонения в обе стороны от него. Из математических свойств нормального распределения мы знаем, что примерно 95 % всей генеральной совокупности содержится в промежутке [среднее ±2 СКО], а примерно 99,8 % всей генеральной совокупности – в промежутке [среднее ±3 СКО]. Ребенок вашей подруги находится приблизительно на 1,2 СКО ниже среднего – параметр, известный как Z-оценка (или просто число, показывающее, на сколько СКО данное значение отличается от среднего).
Среднее и стандартное отклонение могут также использоваться в качестве кратких описаний (большинства) других распределений, однако полезными могут быть и другие характеристики. На рис. 3.2(c) показаны выбранные процентили для нормальной кривой: например, 50-й процентиль – это медиана, которая делит генеральную совокупность пополам. Можно сказать, что медианное значение – это вес «среднего» ребенка. В случае симметричных распределений (каким и есть нормальное) медиана совпадает со средним значением. 25-й процентиль (3167 граммов) – это вес, меньше которого имеют 25 % родившихся детей. 25-й и 75-й процентиль (3791 граммов) называются квартилями, а расстояние между ними (в нашем случае 624 грамма), или интерквартильный размах – мерой разброса для распределения. И снова те же характеристики, которые в главе 2 мы относили к выборке, здесь применяются ко всей совокупности в целом.
Ребенок вашей подруги находится в 11-м процентиле, а значит, 11 % всех доношенных детей у белых неиспаноговорящих женщин будут весить меньше. На рис. 3.2(d) эта 11-процентная область выделена серым цветом. Процентили веса ребенка важны на практике, поскольку изменения массы его тела будут отслеживаться по отношению к росту, ожидаемому у малышей в 11-м процентиле[84], и низкое значение процентиля может стать причиной для беспокойства.
По медицинским, а не статистическим причинам дети с весом ниже 2500 граммов считаются «имеющими низкую массу тела при рождении», а с весом меньше 1500 граммов – «очень низкую массу тела при рождении». Рис. 3.2(d) показывает, что, согласно ожиданиям, 1,7 % младенцев в этой генеральной совокупности будут иметь низкую массу тела при рождении. Фактическое число таких детей составило 14 170 (1,3 %) – хорошее соотношение с прогнозом, который дает нормальная кривая. Следует отметить, что в этой группе (доношенные дети у белых неиспаноязычных женщин) уровень детей с низкой массой тела очень небольшой, в то время как общий уровень в 2013 году по всей стране составил 8 %, а у черных женщин – 13 %; как видите, разница между расами существенна.
Возможно, самый важный урок, извлеченный из этого примера, состоит в том, что темно-серая закрашенная область на рис. 3.2(d) выполняет две функции:
1. Отображает
2. Демонстрирует
Таким образом, генеральную совокупность можно рассматривать не только как группу реальных людей, но и как представление вероятностного распределения для случайных наблюдений. Эта двойная интерпретация будет иметь фундаментальное значение, когда мы перейдем к более формальным статистическим заключениям.
Конечно, в этом случае мы знаем форму и параметры генеральной совокупности, поэтому можем что-то сказать и о долях, и о вероятностях различных событий, которые могут наступать при случайных наблюдениях. Но суть этой главы в том, что мы, как правило, не знаем параметры генеральной совокупности, а потому хотим с помощью индукции переходить от данных выборки ко всей совокупности. Мы видели, что стандартные измерения выборочного среднего, медианы, моды и так далее, которые мы создали для выборки, распространяются на всю генеральную совокупность. Но разница в том, что мы не знаем, что это такое. Именно с этой проблемой мы и столкнемся в следующей главе.
Рассмотренные выше индуктивные этапы хорошо работают с плановыми исследованиями, однако значительная часть статистических анализов не так легко вписывается в эту структуру. Мы видели, что иногда (например, при использовании полицейской документации о преступлениях) у нас могут быть все доступные данные. И хотя это не выборка, идея лежащей в их основе какой-то генеральной совокупности все же имеет ценность.
Вернемся к данным об операциях на сердце у детей из главы 1. Мы сделали довольно смелое предположение, что проблем с измерениями не было – иными словами, что у нас есть полный набор операций и всех выживших детей в течение 30 дней во всех больницах, то есть идеальное знание выборки (этап 2).