Конечно, мы не знаем этого α и не узнаем никогда, но оно заведомо меньше единицы, а значит, в любом случае утверждение из редакционной колонки нельзя принимать всерьез.
Можно ограничить себя жесткими рамками критерия 4σ, но он требует очень большого числа испытаний. Значит, надо увеличивать долю верных гипотез во множестве возможных предположений. На это и направлены стандартные подходы научного метода познания — логическая непротиворечивость гипотез, их согласованность с фактами и теориями, доказавшими свою применимость, опора на математические модели и критическое мышление.
Так правда ли, что дожди предпочитают выходные дни?
В начале главы мы говорили о том, что выходные и непогода совпадают чаще, чем хотелось бы
. Попробуем завершить это исследование.Каждый дождливый день можно рассматривать как наблюдение случайной величины — дня недели, подчиняющегося распределению Бернулли с вероятностью 1/7. Примем в качестве нулевой гипотезы предположение, что все дни недели одинаковы с точки зрения погоды и дождь может пойти в любой из них равновероятно. Выходных у нас два, итого получаем ожидаемую вероятность совпадения непогожего дня и выходного равной 2/7. Эта величина будет параметром распределения Бернулли. Как часто идет дождь? В разное время года по-разному, конечно, но в Петропавловске-Камчатском в среднем наблюдается девяносто дождливых или снежных дней в году. Так что доля дней с осадками составляет около 90/365 ≈ 1/4. Предположим на основании этого, что в течение некоторого периода (месяц, полгода, год) в среднем 1/4 дней окажутся непогожими. Посчитаем, какое количество дождливых выходных мы должны зарегистрировать, чтобы быть уверенными в том, что существует некоторая закономерность. Результаты приведены в таблице.
Период наблюдений | Лето | Год | 5 лет |
Ожидаемое число наблюдений | 23 | 90 | 456 |
Ожидаемое число положительных исходов | 6 | 26 | 130 |
Значимое отклонение | 4 | 9 | 19 |
Значимая доля непогожих в общем числе выходных дней | 42% | 33% | 29% |
О чем говорят эти цифры? Если вам кажется, что который год подряд «лета не было», злой рок преследует ваши выходные, насылая на них дождь, это можно проверить и подтвердить. Однако в течение лета уличить злой рок можно, лишь если больше двух пятых выходных окажутся дождливыми. Нулевая же гипотеза предполагает, что только четверть выходных должна совпасть с ненастной погодой. За пять лет наблюдений уже можно надеяться подметить тонкие отклонения, выходящие за пределы 5 %, и при необходимости приступать к их объяснению.
Я воспользовался школьным дневником погоды, который велся с 2014 по 2018 год, и выяснил, что за эти пять лет было 459 ненастных дней, из которых 141 пришелся на выходные. Это действительно больше ожидаемого числа на 11 дней, но значимые отклонения начинаются с 19 дней, так что это, как мы говорили в детстве, «не считается».
Вот как выглядят ряд данных и гистограмма, показывающая распределение непогоды по дням недели. Горизонтальными линиями на ней отмечен интервал, в котором может наблюдаться случайное отклонение от равномерного распределения при том же объеме данных (рис. 4.4).
Рис. 4.4.
Исходный ряд данных и распределение непогожих дней по дням недели, полученные за пять лет наблюденийВидно, что, начиная с пятницы, действительно наблюдается увеличение числа дней с плохой погодой. Но для поиска причины роста предпосылок недостаточно: такой же результат можно получать, перебирая случайные числа. Вывод: за пять лет наблюдения за погодой я накопил почти две тысячи записей, но ничего нового о распределении погоды по дням недели не узнал.
При взгляде на записи в дневнике явно бросается в глаза, что непогода приходит не отдельными днями, а двух-трехдневными периодами или даже недельными циклонами.
Это как-то влияет на результат? Можно попробовать принять это наблюдение во внимание и предположить, что дожди идут в среднем по два дня (на самом деле 1,7 дня); тогда вероятность перекрыть выходные увеличивается до 3/7. Тогда ожидаемое число совпадений для пяти лет должно составить 195±21, или от 174 до 216 раз. Наблюденная величина 141 не входит в этот диапазон, и, значит, гипотезу об эффекте сдвоенных дней непогоды можно смело отвергать. Узнали ли мы что-то новое? Да: казалось бы, очевидная особенность процесса не влечет никакого эффекта. Об этом стоит поразмыслить, и мы этим займемся чуть позже. Но главный вывод таков: какие-то более тонкие эффекты рассматривать нет резона, поскольку наблюдения и, главное, их количество согласованно говорят в пользу самого простого объяснения.