Вполне вероятно, а еще неплохо разбираться в том, что такое распределение. Это первое, о чем я намерен поговорить. И хотел бы заострить на нем внимание, поскольку в этом заключается один из главных уроков статистики[117]
: вещи кажутся безнадежно случайными и непредсказуемыми при рассмотрении их по отдельности, однако в совокупности в них обнаруживается закономерность и предсказуемость.Возможно, вы видели демонстрацию этого принципа в каком-нибудь научном музее (если нет, видеоролики можно найти в интернете). Типичный экспонат представляет собой приспособление под названием доска Гальтона[118]
, которая чем-то напоминает автомат для игры в пинбол, только без флипперов. Внутри его с равными интервалами располагаются ровные ряды штырьков.Опыт начинается с того, что в верхнюю часть доски Гальтона запускаются сотни шариков. При падении они сталкиваются со штырьками и с равной вероятностью отскакивают то вправо, то влево, а затем распределяются внизу доски, попадая в отсеки одинаковой ширины. Высота столбика из шариков показывает, с какой вероятностью шарик может оказаться в данном месте. Большинство шариков размещаются примерно в середине, по бокам их уже меньше, и еще меньше — по краям. В общем, картина чрезвычайно предсказуема: шарики всегда образуют распределение в форме колокола, хотя предугадать, где окажется каждый отдельно взятый шарик, невозможно.
Каким образом отдельные случайности превращаются в общие закономерности? Но именно так действует случайность. В среднем столбике скопилось больше всего шариков потому, что, прежде чем скатиться вниз, многие из них совершат примерно одинаковое количество прыжков вправо и влево и в результате окажутся где-то посередине. Несколько одиноких шариков, расположившихся по краям, образуют хвосты распределения — это те шарики, которые при столкновении со штырьками отскакивали всегда в одном направлении. Такие отскоки маловероятны, поэтому по краям так мало шариков.
Подобно тому как местоположение каждого шарика определяется суммой множества случайных событий, многие явления в этом мире являются следствием множества мелких обстоятельств и тоже подчиняются колоколообразной кривой. По этому принципу работают страховые компании. Они с высокой точностью могут назвать количество своих клиентов, которые умирают каждый год. Однако не знают, кому именно не повезет на этот раз.
Или возьмем, к примеру, рост человека. Он зависит от бесчисленного количества случайностей, связанных с генетикой, биохимией, питанием и окружающей средой. Следовательно, велика вероятность, что при рассмотрении в совокупности рост взрослых мужчин и женщин будет представлять собой колоколообразную кривую[119]
.В одном блоге под названием «Ложные данные, которые люди сообщают о себе в интернете» статистическая служба сайта знакомств OkCupid[120]
недавно опубликовала график роста своих клиентов или, скорее, указанных ими значений. Обнаружилось, что показатели роста представителей обоих полов, как и ожидалось, образуют колоколообразную кривую. Однако удивительно то, что оба распределения были примерно на два дюйма смещены вправо относительно ожидаемых значений.Таким образом, либо рост клиентов, опрошенных компанией OkCupid, превышает средний, либо при описании себя в интернете они прибавляют к своему росту еще пару дюймов.
Идеализированной версией подобных колоколообразных кривых является то, что математики называют нормальным распределением. Это одно из важнейших понятий в статистике, имеющее теоретическое обоснование. Можно доказать, что нормальное распределение возникает при сложении большого количества мелких случайных факторов, причем каждый из них действует независимо от других. И многие события происходят именно таким образом.
Но не все. И это второй пункт, на который я хотел бы обратить внимание. Нормальное распределение не такое уж вездесущее, как кажется. На протяжении сотни лет, и особенно в последние несколько десятилетий, ученые и специалисты в области статистики отмечают существование множества явлений, отклоняющихся от этой кривой и следующих собственному графику. Любопытно, что подобные типы распределений практически не упоминаются в учебниках по элементарной статистике, а если и встречаются, то обычно рассматриваются как некие патологии. Это странно. Я попытаюсь объяснить, что многие явления современной жизни приобретают больший смысл при условии понимания этих «патологических» распределений. Это новая нормальность.
Возьмем, к примеру, распределение размеров городов в США. Вместо того чтобы скапливаться вокруг некоей средней величины колоколообразной кривой, подавляющее большинство городов имеют небольшой размер и, следовательно, скапливаются в левой части графика.
И чем больше население города, тем реже такие города встречаются. Иначе говоря, в совокупности распределение будет представлять собой скорее кривую в форме буквы L, чем колоколообразную кривую.