Коэффициент корреляции
— это показатель степени линейной зависимости между двумя переменными. Например, корреляция между показателями IQ и школьными оценками составляет примерно 0,50, то есть зависимость между ними довольно высока. В данном случае стоит ожидать хотя бы средней степени зависимости, так как IQ-тесты были изобретены для того, чтобы предсказывать возможные школьные успехи детей. Коэффициент корреляции может составлять от -1 (полная отрицательная зависимость) до +1 (полная положительная зависимость). Коэффициент корреляции, равный 0, отражает отсутствие всякой связи. Коэффициент корреляции — это еще один способ измерения размера эффекта или, скорее, степени отношения между показателями, где значения ниже 0,30 считаются несущественными, от 0,30 до 0,50 — средними, а выше 0,50 — высокими. Но так же, как и в случае с размером эффекта, важность корреляции оценивается в большей степени не по ее величине, а по переменным, которые рассматриваются в данном случае. Коэффициент корреляции можно перевести и в термины стандартного отклонения. Корреляция между двумя переменными, равная 0,25, означает, что повышение одной переменной на 1 СО приводит к повышению второй на 0,25 СО; корреляция, равная 0,50, — повышение на 0,50 СО. Следовательно, если корреляция между размером класса и показателями успеваемости по стандартизированным тестам составляет -0,25, значит, уменьшение класса на 1 СО должно приводить к улучшению оценок на 0,25 СО (если считать, что между размером класса и успеваемостью действительно существует причинно-следственная связь).Множественная регрессия
— это способ одновременного установления корреляции между несколькими независимыми, или предикторными, переменными и какой-то целевой, или зависимой, переменной. Например, нам может понадобиться сравнить зависимость стоимости жилья от разных переменных. Мы должны измерить площадь жилья, количество комнат, состояние ванной комнаты (например, используя индекс, вычисляемый на основании количества раковин, наличия или отсутствия горячей воды и использования высоко- или низкокачественных материалов), средний доход населения района и состояние дома по оценкам экспертов или потенциальных покупателей. Затем мы устанавливаем корреляцию этих переменных с привлекательностью дома, измеряемой его стоимостью на рынке — с рабочей (выходной) переменной. Определив коэффициент корреляции каждой из переменных с рыночной ценой, вне зависимости от других переменных (приняв их за постоянные), мы можем оценить, насколько каждая из них влияет на итоговую цену. Так, например, при постоянстве прочих значений корреляция между состоянием дома и его рыночной ценой может быть равна 0,25, а между качеством ванной комнаты и ценой дома — 0,10. Но все используемые переменные должны коррелировать друг с другом, при этом в реальной жизни, как правило, одни переменные измеряются более точно, чем другие, некоторые из них зависимы друг от друга, в то время как другие — нет, а на ряд переменных могут оказывать влияние те, которые не были измерены. В результате множественный регрессионный анализ может нас подвести. Подлинная степень влияния состояния дома на его рыночную цену может оказаться существенно выше или ниже 0,25, полученных в результате регрессионного анализа.Есть бесчисленное количество примеров, когда множественный регрессионный анализ дает одну оценку, а в экспериментах, которые почти всегда предпочтительнее с точки зрения выявления причинно-следственных связей, обнаруживается совсем другое. Например, около 15 лет назад я присутствовал на конференции, организованной Государственным институтом здравоохранения. Целью конференции был обзор исследований по медикаментозным и хирургическим методам лечения закупорки коронарной артерии и достижение консенсуса по вопросу применимости тех и других. Участникам конференции были доступны данные многочисленных дорогостоящих исследований, осуществленных на средства налогоплательщиков. В этих исследованиях использовался большой набор данных, в том числе по историям болезни, возрасту и социально-экономическому положению пациентов, которые подвергались множественному регрессионному анализу, а затем были сделаны выводы об эффективности типов лечения «независимо» от всех других факторов, по которым отличались пациенты. Но поскольку совет, определяющий политику исследований в США (Internal Review Board), требует, чтобы пациентам было разрешено выбирать себе лечение (хотя далеко не очевидно, что это действительно в интересах пациентов), все данные по Соединенным Штатам в результате самоотбора были искажены (см. ниже). Но помимо американских исследований на конференции рассматривались данные двух европейских, основанных на произвольном назначении лечения разным пациентам. И специалисты очень правильно проигнорировали результаты, полученные в США, и сосредоточились на данных, предоставленных европейскими учеными.