Итак, мы очень близки к тому, чтобы воплотить в жизнь все свои статистические мечты! Средние значения выборок распределены приблизительно по нормальному закону, как описано выше. Эффективность нормального распределения является следствием нашей информированности о том, какая примерно доля наблюдений окажется выше или ниже среднего значения на расстоянии, не превышающем одного среднеквадратического отклонения (68 %); на расстоянии, не превышающем двух среднеквадратических отклонений (95 %), и т. д. Это очень важная для нас информация.
Ранее в этой главе я указывал на возможность интуитивного вывода о том, что автобус с пассажирами, средний вес которых на двадцать пять фунтов превышает средний вес всех зарегистрированных участников марафона, вряд ли может быть потерявшимся автобусом с его участниками. Чтобы получить численное подтверждение своей интуитивной догадки – то есть иметь основания утверждать, что этот вывод окажется правильным в 95 (или в 99, или в 99,9) процентах случаев, – нам необходима еще одна техническая характеристика – стандартная (среднеквадратическая) ошибка.
Стандартная ошибка измеряет разброс средних значений выборок. Насколько предположительно близко они будут группироваться вокруг среднего значения совокупности? Здесь возможна некоторая путаница, поскольку вам уже известны два разных показателя разброса: среднеквадратическое (стандартное) отклонение и стандартная (среднеквадратическая) ошибка. Чтобы внести ясность в этот вопрос, нужно учитывать следующее.
1. Среднеквадратическое отклонение измеряет разброс в исходной совокупности. В данном случае оно может измерять разброс значения веса всех участников Framingham Heart Study, то есть разброс вблизи среднего значения для всех зарегистрированных участников марафона.
2. Стандартная ошибка измеряет разброс
3. Вот что связывает между собой эти две концепции: стандартная ошибка является среднеквадратическим отклонением средних значений выборок! Замечательно, не правда ли?
Большая стандартная ошибка означает, что средние значения выборок разбросаны на значительных расстояниях от среднего значения совокупности; малая стандартная ошибка означает, что средние значения выборок располагаются относительно близко вокруг среднего значения совокупности. Ниже приведены три реальных примера на основе данных Americans’ Changing Lives.
Второе распределение, размер выборки у которого больше, сгруппировано вблизи среднего значения плотнее, чем первое. Больший размер выборки снижает вероятность того, что ее среднее значение существенно отклонится от среднего значения совокупности. Последний набор средних значений выборок получен из подмножества рассматриваемой нами совокупности (в данном случае таким подмножеством являются женщины). Поскольку значения веса женщин в этой совокупности данных разбросаны в меньшей степени, чем значения веса всех лиц в рассматриваемой нами совокупности, вполне естественно, что вес выборок, сформированных исключительно из женской совокупности, должен быть менее разбросанным, чем выборок, извлеченных из всей совокупности Americans’ Changing Lives. (Эти выборки также сгруппированы вблизи несколько отличающегося среднего значения совокупности, так как средний вес всех женщин в исследовании Americans’ Changing Lives разнится со средним весом всей совокупности, охваченной данным экспериментом.)
Нарисованная мной картина носит универсальный характер. Средние значения выборок будут группироваться вблизи среднего значения совокупности