Рассмотрим пример, более близкий к тематике этой книги, а именно, влияет ли размер класса на успеваемость учеников. Согласно данным множественного регрессионного анализа, размер класса, рассмотренный независимо от количества учеников во всей школе; среднего дохода семей, проживающих в районе, где расположена школа; размера зарплаты учителей; процента учителей, имеющих сертификат; количества денег, затрачиваемых на каждого ученика в этом округе, и так далее, не коррелирует с оценками учеников. (Hanushek, 1986; Hoxby, 2000; Jencks et al., 1972). Но в одном правильно поставленном, основанном на случайной выборке эксперименте, где размеры класса изменялись достаточно широко (сравнивались классы с количеством учеников, равным 13-17, с классами, где было по 22-25 учеников), обнаружилось, что такие изменения размера класса приводят к разнице в результатах стандартизированных тестов в 0,25 СО, причем эффект для чернокожих школьников был выше, чем для белых (Krueger, 1999). Это было не просто очередное исследование значения размера класса. Оно заменило все исследования размера класса с помощью множественного регрессионного анализа.
В этой книге я временами ссылаюсь на результаты множественного регрессионного анализа, однако лишь изредка, и всегда предупреждаю, что они могут оказаться недостоверными.
Если в исследовании какая-то переменная подвергается просто измерениям, а не манипуляциям, мы должны понимать, что уровень этой интересующей исследователя переменной определяется не им, а самим испытуемым, — наряду с остальными переменными, которые измеряются или не измеряются в данном эксперименте. Это дает возможность делать вполне обоснованные выводы. В примере с размером класса исследователь, применяющий множественную регрессию, сталкивается с самоотбором переменной (то есть он не сам определяет размер класса), и переменная размера класса может испытывать воздействие других переменных, которые искажают или вовсе уничтожают влияние этой переменной на успеваемость. Единственный способ полностью избежать самоотбора — выбрать значение независимой или предикторной переменной (например, сравнивать большие и маленькие классы), а затем исследовать ее влияние на целевую переменную (например, результат тестирования). Увы, это не всегда возможно, так что порой мы вынуждены удовлетвориться корреляционным или множественным регрессионным анализом, стараясь учитывать в своих выводах возможное влияние самоотбора.