Вскоре Гальтону стало ясно: процессы, не подпадающие под определение регрессии к среднему, в конце концов выходят из-под контроля. Например, предположим, что сыновья высоких отцов в среднем будут такими же высокими, как и их отцы. Поскольку рост каждого разнится, некоторые сыновья окажутся выше. А теперь представим следующее поколение, и предположим, что сыновья более высоких сыновей, внуки, тоже в среднем такие же высокие, как и их отцы. Некоторые из них также будут выделяться ростом по сравнению с отцами. Таким образом, из поколения в поколение самые высокие будут становиться все выше и выше. Однако благодаря регрессии к среднему этого не происходит. То же самое можно сказать и о врожденных умственных способностях, художественном таланте или способности ловко бить по мячу в гольфе. Очень высоким родителям не следует ожидать таких же высоких детей, очень умным родителям не стоит ожидать, что их отпрыски будут семи пядей во лбу, а многочисленные Пикассо и Тайгеры Вудсы[14] зря понадеются на то, что их прямые потомки сравняются с ними своим гением. С одной стороны, у очень приземистых родителей могут родиться высокие дети, так что те из нас, кто не может похвастать блестящим умом или не умеет рисовать, вполне могут надеяться на исправление этих недостатков в следующих поколениях.
Через объявления Гальтон привлекал испытуемых в свою лабораторию, где проводил измерения: роста, веса, даже некоторых костей. Его целью было найти определенный метод, позволявший вычислять данные детей, основываясь на данных их родителей. На одном из графиков Гальтона были показаны данные по росту родителей и детей. Если, скажем, рост всегда был одним и тем же, получалась аккуратная прямая, поднимавшаяся под углом в 45 градусов. Если же это соотношение в целом сохранялось, однако индивидуальные данные отличались, возникал пунктир выше и ниже прямой. Таким образом, график Гальтона демонстрировал наглядно не только общее отношение между ростом родителей и детей, но и то, до какой степени это отношение сохранялось. Что является вторым важным открытием и вкладом в статистику: определение математического показателя, описывающего это отношение. Гальтон назвал этот показатель коэффициентом корреляции.
Коэффициент корреляции — это число между -1 и 1; если оно приближается к ± 1, две переменные связаны между собой линейно; 0 же означает отсутствие связи. Например, данные показывают: наедаясь в «Макдоналдсе» на 1 тыс. калорий раз в неделю, человек поправляется на 4,5 кг в год, а съедая 1 тыс. калорий Дважды в неделю, на 9 кг. И так далее. Коэффициент корреляции в таком случае равен 1. Если по какой-то причине каждый, наоборот, терял бы этот вес, коэффициент корреляции был бы равен — 1. А если бы данные о прибавке в весе и его потере были бы разбросаны по всему графику и не зависели от потребления еды, коэффициент равнялся бы 0. В наше время понятие «коэффициент корреляции» — одно из самых широко употребимых в статистике. К примеру, оно используется для того, чтобы проследить связь между количеством выкуренных сигарет и раковых заболеваний, расстоянием звезд от Земли и скоростью, с которой они удаляются от нашей планеты, баллами, получаемыми студентами по унифицированным тестам, и доходом в семьях этих студентов.