Вы должны понимать это на интуитивном уровне. Весьма маловероятно (хотя в принципе возможно), что, обнаружив зависимость между каждым дополнительным дюймом роста и дополнительными 4,5 фунта веса участников исследования Americans’ Changing Lives, мы в то же время не выявили бы никакой зависимости между ростом и весом в какой-то другой репрезентативной выборке, состоящей из 3000 взрослых американцев.
Это должно дать вам первый намек на то, как мы будем проверять, являются ли результаты нашей регрессии статистически значимыми. Для коэффициента регрессии, как и для опросов общественного мнения и других форм статистического вывода, мы можем вычислить стандартную ошибку, которая представляет собой показатель вероятного разброса, наблюдаемый нами в значениях этого коэффициента в случае, если бы мы выполнили регрессионный анализ по нескольким выборкам, сформированным из одной и той же совокупности. Если бы мы измерили рост и вес в какой-то другой выборке, состоящей из 3000 взрослых американцев, то последующий анализ мог бы показать, что каждый дополнительный дюйм роста ассоциируется с дополнительными 4,3 фунта веса. Если бы мы проделали те же самые действия в отношении еще одной выборки из 3000 взрослых американцев, то могли бы обнаружить, что каждый дополнительный дюйм роста связан с дополнительными 5,2 фунта веса. И здесь на помощь снова приходит нормальное распределение. При использовании больших выборок данных можно предположить, что полученные нами разные коэффициенты регрессии будут распределены по нормальному закону вблизи «истинной» зависимости между ростом и весом в совокупности взрослых американцев. В таком предположении мы можем вычислить стандартную ошибку для коэффициента регрессии, что позволит составить представление о том, насколько большой разброс коэффициентов регрессии следует ожидать от выборки к выборке. Я не буду здесь вдаваться в подробное объяснение формулы для вычисления стандартной ошибки, поскольку для этого пришлось бы прибегнуть к множеству математических выкладок и к тому же все базовые статистические пакеты программного обеспечения вычислят ее за вас.
Однако должен предупредить, что при использовании небольшой выборки данных – например группы из 20 взрослых американцев вместо группы из более чем 3000 участников исследования Americans’ Changing Lives – нормальное распределение на помощь нам уже не придет. В частности, если мы будем то и дело выполнять регрессионный анализ в отношении разных малых выборок, то уже не сможем исходить из того, что полученные нами разные коэффициенты регрессии будут распределены по нормальному закону вблизи «истинной» зависимости между ростом и весом в совокупности взрослых американцев. Вместо этого они будут распределены вблизи «истинной» зависимости между ростом и весом в совокупности взрослых американцев по закону, известному как t-распределение, или распределение Стьюдента. (Вообще говоря, t-распределение характеризуется большей степенью разброса, чем нормальное распределение, и, следовательно, имеет «более толстые хвосты».) Все прочее остается неизменным; любые базовые статистические пакеты программного обеспечения без проблем справятся с дополнительной сложностью, связанной с использованием t-распределений. Поэтому более подробное объяснение t-распределения приведено в приложении
к этой главе.Пока же будем исходить из того, что имеем дело с большими выборками (и с нормальным распределением). Самое главное сейчас – понять, почему для нас так важна стандартная ошибка. Как и в случае с опросами общественного мнения и другими формами статистического вывода, мы ожидаем, что более половины наблюдаемых коэффициентов регрессии будут отстоять от истинного параметра[58]
совокупности на расстояние, не превышающее одной стандартной ошибки. Примерно 95 % коэффициентов регрессии будут отстоять от истинного параметра совокупности на расстояние, не превышающее двух стандартных ошибок. И так далее. Учитывая сказанное, можно считать, что мы почти у цели, так как теперь можем выполнить небольшую проверку гипотез. (А вы и в самом деле полагали, что с проверкой гипотез покончено?) Поскольку у нас уже есть коэффициент и стандартная ошибка, мы можем проверить основную гипотезу, которая заключается в том, что между объясняющей и зависимой переменной на самом деле никакой зависимости нет (а это, в свою очередь, означает, что истинная зависимость между ними в данной совокупности равна нулю).