Тогда как нормальное (гауссовское) распределение, описанное в главе 3, требует двух параметров (среднее значение и среднеквадратичное отклонение), у распределения Пуассона только один параметр (он имеет смысл среднего). В нашем конкретном примере это ожидаемое ежедневное число случаев убийства, которое мы принимаем равным 1,41, поскольку таково среднее значение за трехлетний период. Однако нам нужно тщательно проверить, насколько разумно предположение о распределении Пуассона, чтобы мы могли обращаться с количеством убийств так, словно это случайное наблюдение, взятое из пуассоновского распределения с параметром 1,41.
Например, зная это среднее, мы можем использовать формулу для распределения Пуассона или стандартное программное обеспечение, чтобы вычислить, что вероятность совершения пяти убийств в день равна 0,001134. А значит, за 1095 дней можно ожидать 1095 × 0,001134 = 12,4 дней, когда будут наблюдаться ровно пять случаев убийства.
Удивительно, но реальное число дней с пятью убийствами за трехлетний период… 13.
На рис. 8.5 приведено сравнение ожидаемого распределения для ежедневного числа убийств на основании распределения Пуассона и фактического эмпирического распределения для 1095 дней. Соответствие очень хорошее, и в главе 10 я покажу, как формально проверить, оправдано ли предположение о пуассоновском распределении данных.
Рис. 8.5
Наблюдаемое и ожидаемое (при условии распределения Пуассона) ежедневное количество зарегистрированных убийств за 2014–2016 годы в Англии и Уэльсе[167]
Чтобы ответить на вопрос, поставленный в начале этого раздела, мы можем вычислить вероятность семи и более убийств в день, исходя из распределения Пуассона. Она равна 0,07 %, а значит, такое событие можно ожидать в среднем раз в 1535 дней, то есть примерно раз в четыре года. Напрашивается вывод, что при нормальном ходе вещей оно маловероятно, но не невозможно.
Соответствие между этим математическим распределением и эмпирическими данными подозрительно хорошее. Несмотря на то что за каждой трагедией стоит какая-то личная история, и практически любая из них непредсказуема, данные ведут себя так, словно их сгенерировал какой-то известный случайный механизм. Благодаря способности представлять, что могли бы быть (но не были) убиты другие люди, мы наблюдаем один из множества возможных миров, которые могли реализоваться; точно так же как, подбрасывая монету, наблюдаем одну из возможных последовательностей.
Адольф Кетле – бельгийский статистик, социолог и астроном XIX века – одним из первых привлек внимание к потрясающей предсказуемости общей картины, составленной из отдельных непредсказуемых событий. Он был заинтригован появлением нормального распределения при различных явлениях (например, распределении веса новорожденного, как описывалось в главе 3) и предложил идею «среднего человека» (
К счастью, нам незачем верить, что реальные события обусловлены чистой случайностью (что бы это ни было). Просто предположение о «случайности» заключает в себе всю неизбежную непредсказуемость мира или то, что иногда называют
В следующей главе мы обратимся к поистине замечательной теме: как объединить эти два аспекта вероятности, чтобы получить строгую основу для формальных статистических выводов.