Пример таблицы для совместного распределения двух количеств, признаков см. в статье Корреляция
. Таблица 1а служит примером смешанного случая: материал группируется по одному качеств, признаку (принадлежность к основной выборке, произведённой для определения среднего уровня производственного процесса, и к трём выборкам, произведённым в различные моменты времени для проверки сохранения этого нормального среднего уровня) и по одному количеств, признаку (диаметр деталей). Простейшими сводными характеристиками распределения одного количественного признака являются среднее
,
и среднее квадратичное отклонение
,
где
При вычислении , S2
и D
по группированным данным пользуются формулами ,
или
,
где r
— число интервалов группировки, ak
— их середины (в случае таблицы 1а — 13,07; 13,12; 13,17; 13,22 и т. д.). Если материал сгруппирован по слишком крупным интервалам, то такой подсчёт даёт слишком грубые результаты. Иногда в таких случаях полезно прибегать к специальным поправкам на группировку. Однако эти поправки имеет смысл вводить лишь при условии выполнения определённых вероятностных предположений. О совместных распределениях двух и большего числа признаков см. Корреляция
, Корреляционный анализ
, Регрессия
, Регрессионный анализ
. Связь статистических распределений с вероятностными. Оценка параметров.
Проверка вероятностных гипотез.
Выше были изложены лишь некоторые избранные простейшие приёмы статистического описания, представляющего собой довольно обширную дисциплину с хорошо разработанной системой понятий и техникой вычислений. Приёмы статистического описания интересны, однако не сами по себе, а в качестве средства для получения из статистического материала выводов о закономерностях, которым подчиняются изучаемые явления, и о причинах, приводящих в каждом отд. случае к тем или иным наблюдённым статистическим распределениям. Например, данные, приведённые в таблице 2а, естественно связать с такой теоретической схемой. Заболевание гриппом каждого отдельного работника универмага следует считать случайным событием, так как общие условия работы и жизни обследованных работников универмага могут определять не сам факт заболевания такого-то и такого-то работника, а лишь некоторую вероятность заболевания. Вероятности заболевания для вдыхавших сыворотку (p
1
) и для не вдыхавших (p
0
), судя по статистическим данным, различны: эти данные дают основания предполагать, что p
1
существенно меньше p
0
. Перед М. с. возникает задача: по наблюдённым частотам h
1
= 4/501 » 0,008 и h
0
= 150/1825 » 0,082 оценить вероятности p
1
и p
0
и проверить, достаточен ли статистический материал для того, чтобы считать установленным, что p
1
< p
0
(то есть что вдыхание сыворотки действительно уменьшает вероятность заболевания). Утвердительный ответ на поставленный вопрос в случае данных таблицы 2а достаточно убедителен и без тонких средств М. с. Но в более сомнительных случаях необходимо прибегать к разработанным М. с. специальным критериям. Данные первого столбца таблицы 1а собраны с целью установления точности изготовления деталей, расчётный диаметр которых равен 13,40 мм,
при нормальном ходе производства. Простейшим допущением, которое может быть в этом случае обосновано некоторыми теоретическими соображениями, является предположение, что диаметры отдельных деталей можно рассматривать как случайные величины X
, подчинённые нормальному распределению вероятностей P{X
<x
} = . (1)Если это допущение верно, то параметры a
и s2
— среднее и дисперсию вероятностного распределения — можно с достаточной точностью оценить по соответствующим характеристикам статистического распределения (так как число наблюдений n
= 200 достаточно велико). В качестве оценки для теоретической дисперсии s2
предпочитают не статистическую дисперсию D
2
= S
2
/ n
, а несмещенную оценку
s
2
= S2
/
(n
- 1). Для теоретического среднего квадратичного отклонения не существует общего (пригодного при любом распределении вероятностей) выражения несмещенной оценки. В качестве оценки (вообще говоря, смещенной) для s чаще всего употребляют s
. Точность оценок и s
для a
и s указывается соответствующими дисперсиями, которые в случае нормального распределения (1) имеют вид s2
a
= s2
/
n
~ s2
/ n
, ~ 2s
4
/
n
, ~ s2
/
2n
,где знак ~ обозначает приближённое равенство при больших n
. Таким образом, уславливаясь прибавлять к оценкам со знаком ± их среднее квадратичное отклонение, имеем при больших n
в предположении нормального распределения (1): , . (2)
Для данных первого столбца таблицы 1а формулы (2) дают
a
= 13,416 ± 0,008, s = 0,110 ± 0,006.
Объём выборки n
= 200 достаточен для законности пользования этими формулами теории больших выборок.