Врач Джон Арбетнот, ставший в 1705 году придворным лекарем королевы Анны, задался целью ответить на этот вопрос и проанализировал данные об обрядах крещения, проведенных в Лондоне за 82 года – с 1629 по 1710 год. Результаты его исследования приведены на рис. 10.1 в виде соотношения полов, то есть числа родившихся мальчиков на 100 родившихся девочек.
Рис. 10.1
Данные о соотношении полов (число мальчиков на 100 девочек) при обряде крещения в Лондоне между 1629 и 1710 годами, опубликованные Джоном Арбетнотом в 1710 году. Сплошная линия отображает равное число мальчиков и девочек; эта кривая построена по эмпирическим данным. Ежегодно мальчиков было окрещено больше, чем девочек
Арбетнот обнаружил, что ежегодно было окрещено больше мальчиков, чем девочек, причем соотношение колебалось от 101 до 116 и в целом составляло 107. Но он хотел вывести более общий закон, поэтому предположил, что если бы на самом деле никакой разницы между истинной долей мальчиков и девочек не было, то каждый год вероятность того, что мальчиков рождалось бы больше, чем девочек, а девочек рождалось бы больше, чем мальчиков, составила бы 50 на 50, то есть так же, как при подбрасывании монеты.
Но если предположить, что мальчики рождаются так же часто, как и девочки, и 82 года подряд наблюдается их избыток, то это все равно что 82 раза подбросить симметричную монету и каждый раз получить орла. Вероятность этого события составляет 1/282. Это очень маленькое число, с 24 нулями после запятой. Если бы мы наблюдали 82 выпадения орла в реальном эксперименте, то уверенно бы заявили, что монета нечестная. Точно так же и Арбетнот заключил, что некая сила заставляет рождаться больше мальчиков в целях компенсации повышенной смертности мужского пола: «Чтобы восстановить эти Потери, предусмотрительная Природа по промыслу мудрого Творца рождает больше Мужчин, чем Женщин; и это почти постоянное соотношение»[184].
Впоследствии данные Арбетнота не раз перепроверялись. И хотя в них могут быть ошибки подсчета и учтены только англиканские[185] обряды крещения, тем не менее его основной вывод по-прежнему верен: считается, что «естественное» соотношение полов – около 105, то есть на каждые 20 девочек рождается 21 мальчик. Название опубликованного им труда служит прямым статистическим подтверждением сверхъестественного вмешательства: «Аргумент в пользу Божественного провидения, извлеченный из постоянной регулярности, наблюдаемой при рождении обоих полов». И хотя Арбетнот тогда об этом не знал, он вошел в историю как человек, который выполнил первую проверку статистической значимости.
Пожалуй, мы подошли к самой важной части цикла решения проблем, где мы ищем ответы на конкретные вопросы о том, как устроен мир. Например:
1. Соответствует ли ежедневное число убийств в Соединенном Королевстве распределению Пуассона?
2. Изменился ли уровень безработицы в Соединенном Королевстве за последний квартал?
3. Снижает ли употребление статинов риск инфарктов и инсультов у людей вроде меня?
4. Связан ли рост матерей с ростом их сыновей, если учитывать рост отцов?
5. Существует ли бозон Хиггса?
Этот список показывает, что можно задавать самые разные вопросы – от преходящих до вечных.
1. Убийства и распределение Пуассона: общее правило, которое не представляет особого интереса для общества, но помогает ответить, произошли ли изменения в реальном уровне преступности.
2. Изменения в уровне безработицы: специфический вопрос, относящийся к конкретному времени и конкретному месту.
3. Статины: научное утверждение, но относящееся к конкретной группе.
4. Рост матерей: возможно, представляет научный интерес.
5. Бозон Хиггса: может изменить основные представления о физических законах Вселенной.
У нас есть данные, которые могут помочь ответить на некоторые из этих вопросов. Мы уже строили графики и делали какие-то неформальные заключения для подходящих статистических моделей. Однако сейчас мы подошли к составляющей этапа
Гипотезу можно определить как предлагаемое объяснение явления. Это не абсолютная истина, а временное рабочее предположение, которое, возможно, лучше всего представлять как подозреваемого в уголовном деле.
При обсуждении регрессии в главе 5 мы столкнулись с утверждением, что
наблюдение = детерминистская модель + остаточная ошибка.
Оно отражает идею, что статистические модели – это математические представления наших наблюдений, где сочетаются детерминистский и стохастический компоненты. Стохастический компонент отражает непредсказуемость, или случайную «ошибку», обычно выраженную в терминах какого-нибудь вероятностного распределения. В рамках статистики гипотезой считается какое-то конкретное предположение об одном из компонентов статистической модели, носящее смысловой оттенок «рабочей версии», а не «истины».