Ответ заключается в том, что мы говорим не об индивидуальных отцах и сыновьях, а о двух популяциях — отцовской и сыновней. Допустим, мы отобрали отцов, чей рост ровно 6 футов. Это больше среднего, поэтому средний рост их сыновей будет тоже выше среднего, но ближе к среднему, допустим, 5 футов и 11 дюймов. Однако множество пар, в которых рост отца равен 6 футам, не совпадает с множеством пар, в которых рост сына — 5 футов 11 дюймам. В первом множестве рост всех отцов равен 6 футам по условию задачи, а вот во втором окажется несколько отцов с ростом больше 6 футов и много отцов ниже 6 футов. Их средний рост будет ниже, чем 5 футов 11 дюймов, и таким образом регрессия к среднему снова обнаружит себя.
Другой способ наглядно изобразить регрессию — построить диаграмму, называемую точечным графиком (см. рис. 9). Каждая пара из отца и сына на нем представлена точкой, при этом ее положение по оси
Как показано на рис. 9, пары, в которых отцы ростом 72 дюйма, располагаются в вертикальном сегменте эллипса с центром в точке 72, а пары, в которых рост сыновей 71 дюйм, расположены в горизонтальном сегменте с центром в точке 71, что графически доказывает, что это две разные выборки. Сосредоточившись только на первой из них, парах с отцами ростом 72 дюйма, мы зададим вопрос, каков средний рост сыновей или, что то же самое, где находится центр этого вертикального сегмента (на глаз можно прикинуть, что центр приходится примерно на 71). Если мы рассмотрим только вторую выборку, в которой рост сыновей 71 дюйм, и спросим, каков средний рост их отцов, это будет равносильно нахождению центра горизонтального сегмента — легко увидеть, что он находится где-то на отметке 70,3.
Двигаясь дальше, выполняем такую же процедуру для всех вертикальных сегментов. Это равносильно вопросу «Каков наиболее вероятный рост сыновей (
Размышляя над этими вопросами, Гальтон подошел к важному моменту: предсказания всегда располагаются на линии, названной им линией регрессии, которая расположена более полого, чем главная ось (или ось симметрии) данного эллипса. На самом деле таких линий две — в зависимости от того, данные каких из двух переменных известны и взяты в качестве основания для прогноза, а какие надо предсказать. Можно предугадать рост сыновей по росту отцов, а можно и наоборот. Ситуация совершенно симметрична. И это еще раз демонстрирует нам, что в случаях, где наблюдается регрессия к среднему, между причиной и следствием нет разницы.
Наклон линии регрессии позволяет нам предсказывать значение одной переменной, если нам известны значения второй. В терминах задачи Гальтона наклон в 0,5 означает, что каждому дюйму сверх среднего в росте отца соответствуют дополнительные полдюйма роста сына и наоборот. Наклон, равный единице, свидетельствовал бы о точной корреляции, т. е. каждый дополнительный дюйм роста у отца передавался бы по наследству сыну, который тоже был бы на этот дюйм выше. Наклон кривой не бывает больше единицы: в таком случае сыновья высоких отцов были бы в среднем выше, а сыновья отцов небольшого роста были бы ниже последних, а распределение роста в популяции становилось бы со временем все шире и шире. Через несколько поколений некоторые люди были бы трехметрового роста, а другие — ростом меньше метра, чего в природе не наблюдается. Таким образом, если распределение признака остается одинаковым от поколения к поколению, наклон линии регрессии не превышает единицы.