Например, если вы измерите температуру случайного человека, любой конкретный результат будет иметь определенную вероятность, при этом наиболее вероятным результатом является норма – 98,2 °F, а величины, сильно отклоняющиеся от этой нормы, все менее вероятны. Учитывая, что распределение вероятностей описывает все возможные результаты, все вероятности в распределении сводятся к 100 % (или к единице).
Чтобы лучше это понять, давайте рассмотрим еще один пример. Как мы уже упоминали, рост людей также примерно соответствует нормальному распределению. На графике ниже представлено распределение роста мужчин и женщин на основании данных Центров США по контролю и профилактике заболеваний. Оба распределения имеют типичную форму колокола, несмотря на то что стандарты роста для мужчин и женщин отличаются.
Центр по контролю за заболеваниями «Антропометрические справочные данные для детей и взрослых: Соединенные Штаты, 2011–2014 годы». Vital and Health Statistics серия 3, № 39 (август 2016 года).
В подобных нормальных распределениях (как мы уже видели на примере температуры тела) около 68 % всех значений должны попадать в одно отклонение от нормы, около 95 % – в два и почти все (99,7 %) в три. Таким образом, нормальное распределение можно однозначно описать только его нормой и стандартным разбросом. Знание этих фактов особенно полезно, так как очень много явлений можно описать нормальным распределением.
Таким образом, если вы остановите на улице случайную женщину, можно использовать эти факты, чтобы довольно точно угадать ее рост. Вариант 5 футов 4 дюйма (162 сантиметра) подойдет лучше всего, потому что это норма. Кроме того, вы можете с вероятностью приблизительно 2: 1 угадать, что ее рост будет от 5 футов 1 дюйма (156 см) до 5 футов 7 дюймов (170 см). Это связано с тем, что стандартный разброс для женского роста составляет чуть меньше 3 дюймов (8 см), поэтому около двух третей женщин будут примерно такого роста (в пределах одного отклонения от стандарта). Напротив, женщины ниже 4 футов 10 дюймов (147 см) или выше 5 футов 10 дюймов (178 см) составляют менее 5 % всех женщин (за пределами двух отклонений от стандарта).
Распределение вероятностей, блог Cloudera Engineering, Шон Оуэн, 3 декабря 2015 года.
Существует много других распределений вероятности помимо нормального распределения, которые используются в различных обстоятельствах. Некоторые из них изображены выше.
Но мы назвали этот раздел «Кривая нормального распределения», поскольку нормальное распределение особенно полезно благодаря одному из самых практичных результатов во всей статистике, который называется центральной предельной теоремой.
Эта теорема утверждает, что когда числа взяты из одного и того же распределения, а затем усреднены, полученный средний результат примерно соответствует нормальному распределению. Так получается даже тогда, когда изначальные числа взяты из совершенно иного распределения.Чтобы понять эту теорему и ее пользу, вспомните известный опрос о рейтинге одобрения[65]
. Механика проведения таких опросов очень проста – человека спрашивают, одобряет он, например, политическую партию или нет. Это значит, что каждая точка данных сводится всего лишь к «да» и «нет».Такой тип данных совершенно не похож на нормальное распределение, потому что каждая точка может иметь лишь одно из двух возможных значений. Подобные бинарные данные часто анализируются через другое распределение вероятностей, которое называется распределением Бернулли. Оно представляет собой результат одного эксперимента или вопроса типа да/нет, например в анкете. Такое распределение полезно в самых разных ситуациях, например при анализе рекламных кампаний (купили ли товар), в клинических испытаниях (подействовало ли лечение) и в А/В-тестировании (нажали ли кнопку).
Оценочный рейтинг одобрения – это среднее значение всех отдельных ответов (1 – одобрение, 0 – нет). Например, если было опрошено 1 000 человек и 240 ответили одобрительно, то рейтинг одобрения будет 24,0 %. Центральная предельная теорема сообщает, что это среднее статистическое значение (норма выборки) приблизительно нормально распределено (при условии, что в опросе приняло участие достаточно людей). График ниже наглядно показывает, как это работает с распределением Бернулли и двумя другими, которые тоже изначально совершенно не похожи на нормальное распределение.
Марк Л. Беренсон, Дэвид М. Левин и Тимоти К. Кребиэль. Базовая бизнес-статистика: концепции и приложения. Upper Saddle River, N.J.: Prentice Hall, 2006.