В нашем простом примере с ростом и весом мы можем проверить, какова вероятность обнаружить, что в выборке Americans’ Changing Lives каждый дополнительный дюйм роста ассоциируется с 4,5 дополнительных фунта веса, если на самом деле во всей совокупности зависимость между ростом и весом отсутствует. Я вычислил соответствующую регрессию, воспользовавшись одним из распространенных статистических пакетов; стандартная ошибка по коэффициенту роста составила 0,13. Это означает, что в случае многократного выполнения такого анализа (скажем, с сотней разных выборок) можно было бы ожидать, что наш наблюдаемый коэффициент регрессии будет отстоять от истинного параметра совокупности на расстояние, не превышающее двух стандартных ошибок, примерно в 95 случаях из 100.
Следовательно, это позволяет нам выразить полученные результаты двумя разными, но взаимосвязанными между собой способами. Первый – это построить 95 %-ный доверительный интервал. Мы можем утверждать, что в 95 случаях из 100 доверительный интервал (который составляет 4,5 ± 0,26) будет включать истинный параметр совокупности. Это диапазон от 4,24 до 4,76. Любой из статистических пакетов также вычислит этот интервал. Второй – отвергнуть основную гипотезу об
На самом деле наши результаты еще более убедительны, чем кажется на первый взгляд. Стандартная ошибка (0,13) очень мала по сравнению с величиной коэффициента (4,5). Практика показывает, что этот коэффициент можно считать статистически значимым, когда его величина по меньшей мере в два раза превышает величину стандартной ошибки[59]
. Любой из базовых статистических пакетов также вычисляет p-значение, которое в данном случае равняется 0,000; это означает, что если в действительности зависимости между ростом и весом в совокупности в целом нет, то вероятность получить столь необычный результат, какой нам удалось наблюдать, по сути, равна нулю. Не забывайте, что мы вовсе неБазовый регрессионный анализ дает еще одну статистику, заслуживающую внимания, R^2, которая предсталяет собой показатель суммарной величины разброса, объясняемого уравнением регрессии[60]
. Нам известно, что в выборке Americans’ Changing Lives наблюдается широкий разброс веса. Многие члены выборки весят больше среднего веса для данной группы в целом; многие – меньше. Величина R^2 говорит нам, какая доля этого разброса вокруг среднего значения ассоциируется лишь с различиями в росте. В нашем случае эта доля составляет 0,25, или 25 %. Более значимым может быть то обстоятельство, что 75 % этого разброса в весе для нашей выборки остаются необъясненными. Есть очевидные факторы, помимо роста, которые могут нам помочь их объяснить. Ситуация становится интереснее.В начале этой главы я объявил регрессионный анализ чудодейственным эликсиром для социальных исследований. До сих пор я использовал некий базовый статистический пакет и впечатляющие данные, чтобы продемонстрировать тот факт, что рослые люди, как правило, весят больше коротышек. Краткая прогулка по какому-нибудь супермаркету наверняка убедила бы вас в том же. Теперь пора оценить реальные возможности регрессионного анализа. Иными словами, пора пересаживаться с детского трехколесного велосипеда на велосипед для взрослых!