В опубликованной в 1809 году статье, в которой Гаусс обрисовал этот метод, он также указал, что данные часто образуют распределение, которое мы называем теперь гауссовым. По сути дела, если изобразить распределения многих и самых разных наборов данных – роста людей, артериального давления, экзаменационных оценок, ошибок астрономических наблюдений или геодезических съемок, – всюду получится одна и та же картина: большинство случаев скапливается в середине, а по краям оказываются немногочисленные отклонения. Эту кривую часто называют колоколообразной, так как ее форма напоминает колокол.
Статистические методы, созданные Гауссом и другими, стали теперь самыми используемыми шорткатами для всех, кто хочет разобраться в современном мире, богатом данными.
8 из 10 кошек
В детстве меня всегда приводила в недоумение одна реклама кошачьего корма, которую регулярно передавали по телевизору. В ней утверждалось, что 8 из 10 кошек предпочитают Whiskas – корм рекламируемой марки[96]
. Мне это казалось странным, потому что я не помнил, чтобы кто-нибудь приходил спросить нашу кошку, какую еду предпочитает она. Интересно, сколько кошек они опросили, чтобы это позволило им сделать такое решительное заявление? – думал я.Может показаться, что для того, чтобы такое заявление было обоснованным, необходимо проделать огромную работу. В конце концов, считается, что в Великобритании около 7 миллионов владельцев кошек. Понятно, что производители Whiskas не обошли со своим опросом 7 миллионов домов. Однако оказывается, что математические методы статистики открывают поразительный шорткат к определению корма, самого любимого кошками всей страны. Если смириться с небольшой неточностью, число кошек, которых нужно опросить, становится на удивление небольшим. Предположим, я готов допустить в определении доли кошек, утверждающих, что им нравится Whiskas, 5-процентную погрешность. Такая неточность приведет к тому, что из моего опроса могут выпасть 5 процентов кошек. Это не страшно, но 5 процентов от 7 миллионов – это всего 350 000 кошек. Кошек, которых по-прежнему нужно опросить, все еще остается чрезвычайно много.
Но дело в том, что мне должно уж очень сильно не повезти, чтобы все 350 000 кошек, исключенные из опроса, не любили Whiskas. В большинстве случаев распределение этих 350 000 будет очень похоже на общее распределение всей популяции. Тут-то и открывается хитроумный шорткат. Предположим, я готов использовать выборку такого размера, чтобы в 19 случаях из 20 доля любящих Whiskas кошек в этой выборке отличалась от их доли во всей популяции не более чем на 5 процентов. Какого размера должна быть такая выборка? Как это ни удивительно, для определения предпочтений всех 7 миллионов кошек Соединенного Королевства с таким уровнем достоверности нужно опросить всего 246 кошек. То есть поразительно малое количество. Таково могущество математической статистики: она позволяет делать обоснованные утверждения по результатам опроса такого небольшого числа кошек. Когда я прошел курс статистики, я понял, почему нашу кошку никто не спрашивал, какая еда ей нравится.
Пользу методов, позволяющих судить о многом по малому, сознавали еще древние греки. В 479 году до н. э., когда союз городов-государств собирался напасть на город Платеи, нужно было узнать длину лестниц, необходимых, чтобы подняться на его стены. К городу отправили воинов, поручив им измерить образцы кирпичей, из которых были сложены городские стены. Взяв средний размер и умножив его на число кирпичей, которые были видны в стенах, нападавшие получили достаточно точную оценку высоты стен.
Но более замысловатые методы начали появляться лишь в XVII веке. В 1662 году Джон Граунт впервые оценил численность населения Лондона по числу похорон, проходящих в городе. Исходя из данных приходских книг, он предположил, что в каждых 11 семьях ежегодно умирают по 3 человека, а средний размер семьи составляет 8 человек. Поскольку в городе регистрировались 13 000 похорон в год, это позволило ему оценить численность населения Лондона в 384 000 человек. В 1802 году французский математик Пьер-Симон Лаплас пошел еще дальше: он использовал выборку записей о крещении в 30 приходах для получения оценки численности населения всей Франции. Из его анализа этих данных следовало, что на каждых 28,35 человека, живущих в каждом приходе, получалось по одному крещению. Воспользовавшись суммарным числом крещений во Франции за тот же год, он получил оценку численности населения страны – 28,3 миллиона человек.