Читаем Метод. Московский ежегодник трудов из обществоведческих дисциплин. Выпуск 4: Поверх методологических границ полностью

Метод. Московский ежегодник трудов из обществоведческих дисциплин. Выпуск 4: Поверх методологических границ

Исследование связи номинальных признаков – типичная социологическая задача. В политологии же чаще наблюдается необходимость в исследовании взаимосвязи признаков, измеренных в непрерывной или порядковой шкале. Для этого обычно применяется корреляционный анализ. Он позволяет установить наличие и силу статистической линейной взаимосвязи двух и более показателей, а также ее направление (положительное или отрицательное). Оценкой истинной степени линейной связи между признаками является коэффициент корреляции, рассчитанный по выборке. Он принимает значения от -1 до 1, и чем больше абсолютное значение коэффициента, тем сильнее взаимосвязь. Значения, близкие к нулю, говорят о наличии слабой связи или ее отсутствии вовсе. Напомним, что коэффициент корреляции не интерпретируется в терминах каузальной связи.

Если анализируемые признаки x и y измерены в количественной шкале, то по выборке рассчитывается коэффициент корреляции r К. Пирсона. К минусам коэффициента Пирсона можно отнести его неустойчивость к нетипичным наблюдениям (статистическим выбросам), а также неспособность выявить нелинейную взаимосвязь. Этот недостаток преодолевают коэффициенты ранговой корреляции: Ч.Э. Спирмена и М.Ж. Кендалла . Они улавливают нелинейную монотонную связь, возрастающую или убывающую, и более устойчивы к нетипичным наблюдениям, поскольку «работают» с рангами единиц наблюдения.

Подчеркнем, что коэффициент корреляции является лишь выборочной оценкой теоретической корреляции (корреляции между признаками в генеральной совокупности), поэтому при работе с малыми выборками недостаточно знать значение коэффициента – требуется также проверить на его основе статистическую гипотезу о том, что корреляция генеральной совокупности равна нулю.

Общей проблемой коэффициентов корреляции является возможность выявления так называемой ложной корреляции (spurious correlation), которая обнаруживается, если каждый из них по отдельности связан с третьей, неучтенной в анализе, переменной. Такая корреляция может в большей или меньшей степени поддаваться содержательной интерпретации, но именно влияние третьей переменной на первые две обусловливает установленную связь. Примером такой ситуации может быть отрицательная корреляция между объемами продаж мороженого и степенью твердости асфальтового покрытия. На самом деле, на оба показателя влияет погода, точнее – температура воздуха [Кимбл, 1982, с. 196]. На ложную корреляцию можно смотреть и иначе: это явление возникает тогда, когда анализу подвергаются чрезвычайно разнородные объекты. В таком случае взаимосвязь между какими-то признаками может возникнуть как эффект разнородности.

К сожалению, в социальных науках в большинстве ситуаций нет понимания того, как устроен порождающий данные процесс, какова механика формирования числового значения показателя. Это делает угрозу ложных корреляций чрезвычайно серьезной и обусловливает особое внимание исследователей к другому инструменту изучения связи признаков – регрессии.

Регрессионный анализ позволяет описать направление и вид постулируемой статистической взаимосвязи между объясняемой переменной («отклика») и одной или несколькими объясняющими переменными на достаточно большой выборке. Это может быть как пространственная (кросс-секционная) выборка, так и временной ряд или пространственно-временная выборка. Результатом регрессионного анализа является доля объясненной изменчивости «отклика» (коэффициент детерминации R²) и оценки степени связи предикторов с «откликом» (регрессионный коэффициент).

Линейная регрессионная модель с одной объясняющей переменной (парная регрессия) может быть записана следующим образом:

y_i = ₀ + ₁x₁ + _i,

где индексом i обозначается номер объекта, y_i – объясняемая переменная; x_i – первая объясняющая переменная, измеренная на i объекте;_i – случайный член (ошибка регрессионной модели, отражающая влияние факторов, неучтенных в рамках имеющейся спецификации, а также ошибки измерения признаков); коэффициент ₀ – константа – среднее значение зависимой переменной в том случае, если предиктор принимает значение ноль (поэтому константа не всегда имеет содержательную интерпретацию). Коэффициент ₁ показывает среднюю разницу между значением «отклика» и средним значением у тех объектов, у которых значение независимой переменной больше среднего на единицу. В тех случаях, когда исследователь готов постулировать причинно-следственную связь, говорят, что ₁показывает, как в среднем изменится значение «отклика» при росте значения объясняющей переменной x на единицу.