1. Исследования, которые для доказательства научного факта опираются на корреляции, могут оказаться безнадежно ошибочными — даже когда эти корреляции предстают в упаковке «анализа множественной регрессии», который «контролирует» множество переменных.
2. Эксперименты, в которых людей (или любые другие объекты) в случайном порядке распределяют по группам, на которых сравнивают разные способы воздействия (или воздействие и его отсутствие), в целом намного точнее исследований, основанные на анализе множественной регрессии.
3. Наши предположения, касающиеся человеческого поведения, так часто ошибочны, что если вообще возможно проверить какую-нибудь важную гипотезу о поведении, то нужно в обязательном порядке проводить эксперимент.
Все вопросы, которые прозвучали в начале этой главы, спрашивали об одном: может ли некая независимая переменная (она же предиктор — представляющая собой исходные данные или предполагаемую причину) влиять на зависимую или результирующую переменную — то есть на конечный результат или достигнутый эффект. Эксперименты задают разные значения независимым переменным; корреляционный анализ же просто измеряет их.
Один из методов, использующий корреляционный анализ, это анализ множественной регрессии (АМР), в котором некоторое количество независимых переменных коррелирует одновременно (иногда последовательно, но мы не будем обсуждать этот вариант АМР) с некоторым количеством зависимых переменных[147]
. Интересующая нас независимая переменная (предиктор) изучается наряду с другими независимыми переменными, которые называются контрольными переменными. Цель — показать, что переменная А влияет на переменную Б, за вычетом суммарного влияния других переменных. Другими словами, взаимосвязь остается, даже когда принимается во внимание влияние контрольных переменных на зависимые переменные.Рассмотрим следующий пример. Курение коррелирует с повышенной вероятностью заболеваний сердечно-сосудистой системы. Хочется сказать, что курение является причиной заболеваний сердечно-сосудистой системы. Но проблема в том, что и с курением, и с этими заболеваниями коррелирует множество других переменных, таких как возраст, социальное положение и избыточный вес. Курильщики в возрасте курят дольше, чем курильщики молодые, поэтому из корреляции «курение — болезнь» нужно исключить влияние возраста, иначе результат будет говорить о том, что с заболеваниями сердечно-сосудистой системы связано объединение двух переменных — возраста и курения. А мы хотим знать, есть ли связь между курением и сердечно-сосудистыми заболеваниями, независимо от того, сколько человеку лет. Для этого мы «контролируем» влияние возраста на вероятность заболевания, исключая корреляцию «возраст — болезнь» из корреляции «курение — болезнь». В результате мы сможем сказать, что связь между курением и сердечно-сосудистыми заболеваниями установлена для каждой возрастной группы.
ТУ же самую логику можно применить и к социальному статусу. При прочих равных составляющих, чем ниже ступенька социальной лестницы, тем выше вероятность, что занимающий ее человек будет курить и чем ниже социальный статус, тем выше риск сердечных заболеваний, независимо от других факторов риска, таких как курение. Так же обстоит дело с избыточным весом. И так далее. Корреляции этих переменных как с курением, так и с риском заболеваний нужно исключать из корреляции между курением и сердечно-сосудистыми заболеваниями.
Теоретический аспект анализа множественной регрессии состоит в том, что если вы контролируете всё, что связано с независимой переменной и зависимой переменной, выделив из общего сочетания именно эти корреляции, то вы можете обнаружить истинную причинно-следственную связь между предсказывающей и результирующей переменными. Это в теории. На практике множество факторов мешают устойчиво получать этот результат.