Линия регрессии, конечно, не описывает идеальным образом каждое наблюдение в соответствующей совокупности данных. Но как бы то ни было, это лучшее из возможных описаний зависимости между весом и ростом человека. Это также означает, что каждое наблюдение можно объяснить как Вес = a
+ b(Рост) + e, где e – «разность», представляющая собой отклонение веса для каждого человека, которое не объясняется его ростом. Наконец, это означает, что наше оптимальное предположение относительно веса какого-либо человека в рассматриваемой совокупности даных будет иметь такой вид: a + b(Рост). Несмотря на то что большинство наблюдений не лежат непосредственно на линии регрессии, ожидаемая величина разности все же равняется нулю, поскольку вероятность того, что вес любого человека в выборке окажется больше, чем прогнозирует уравнение регрессии, равна вероятности того, что его вес окажется меньше, чем прогнозирует уравнение регрессии.Впрочем, довольно теоретического жаргона! Давайте посмотрим на реальные данные роста и веса из исследования Americans’ Changing Lives. Правда, вначале мне придется прояснить кое-какую базовую терминологию. Переменная, которая подлежит объяснению, – в нашем случае это вес – называется зависимой переменной, так как она зависит от других факторов. Переменные, используемые для объяснения зависимой переменной, называются объясняющими переменными, поскольку они объясняют интересующий нас результат. (Чтобы еще больше запутать мозги, объясняющие переменные иногда называют независимыми или управляющими переменными.) Начнем с использования роста, чтобы объяснить вес участников исследования Americans’ Changing Lives, а впоследствии добавим другие потенциальные объясняющие факторы[57]
. В исследовании Americans’ Changing Lives участвуют 3537 взрослых. В нашем случае это количество наблюдений, или n. (Иногда в научных статьях это обозначается так: n = 3537.) Когда мы выполняем простую регрессию по отношению к данным Americans’ Changing Lives, где вес – зависимая переменная, а рост – единственная объясняющая переменная, то получаем следующие результаты:Вес = -135 + 4,5
x Рост в дюймахa
= -135. Это не что иное, как отрезок, отсекаемый линией регрессии на оси Y; никакого специального объяснения у этой величины нет. (Если интерпретировать ее буквально, то получается, что человек с нулевым ростом весил бы –135 фунтов [отрицательная величина]; очевидно, что это нонсенс с любой точки зрения.) Эту величину также называют константой, поскольку она является отправной точкой для вычисления веса всех наблюдений в исследовании.b
= 4,5. Наша оценка для b (4,5) называется коэффициентом регрессии или, на статистическом жаргоне, «коэффициентом по росту», поскольку такой коэффициент служит наилучшей оценкой зависимости между ростом и весом участников исследования Americans’ Changing Lives. У коэффициента регрессии имеется удобная интерпретация: увеличение на одну единицу независимой переменной (рост) ассоциируется с увеличением на 4,5 единицы зависимой переменной (вес). Для нашей выборки данных это означает, что увеличение роста на один дюйм сопряжено с увеличением веса на 4,5 фунта. Таким образом, если бы мы не располагали никакой другой информацией, то нашим оптимальным предположением относительно веса участника исследования Americans’ Changing Lives, рост которого составляет 5 футов и 10 дюймов (то есть 70 дюймов), было бы –135 + 4,5 x 70 = 180 фунтов.Это наша победа, поскольку нам удалось получить численное выражение наилучшего приближения линейной зависимости между ростом и весом участников исследования Americans’ Changing Lives. Те же самые базовые инструменты можно использовать для исследования более сложных зависимостей и получения ответов на более социально значимые вопросы. При любом коэффициенте регрессии вас, по сути, будут интересовать три вещи: знак, величина и значимость
.Знак
. Знак (положительный или отрицательный) при коэффициенте для независимой переменной указывает направление его связи с зависимой переменной (исход, который мы пытаемся объяснить). В рассматриваемом нами случае коэффициент по росту является положительным. Более высокие люди, как правило, имеют больший вес. Некоторые зависимости действуют в противоположном направлении. Скажем, можно ожидать, что связь между занятиями спортом и весом будет отрицательной. Если бы в исследовании Americans’ Changing Lives фигурировали, например, данные о «количестве миль, пробегаемых участником за один месяц», то я бы нисколько не сомневался, что коэффициент по «количеству пробегаемых миль» будет отрицательным: чем большее количество миль вы ежемесячно пробегаете, тем меньше ваш вес.