В идеале экономисты могли бы провести эксперимент в контролируемых условиях, подобный опытам психологов или биологов. Для этого им нужно было бы взять два образца, наугад воздействовать на один из них, а затем измерить получившийся результат. К сожалению, такого рода чистый эксперимент является для них скорее роскошью, чем обычной практикой. (В этом отношении очень удобной была лотерея по выбору школы в Чикаго.) Обычно в распоряжении экономиста имеется просто огромный массив данных со множеством переменных, ни одна из которых не является случайной. При этом некоторые переменные зависят одна от другой, а другие никак между собой не связаны. И из этой путаницы ему приходится выбирать, какие именно факторы коррелируют, а какие нет.
В случае с данными ECLS
регрессивный анализ можно использовать так: мысленно представить каждого из двадцати тысяч школьников в виде некой монтажной платы с одинаковым количеством разъемов. При этом каждый разъем будет представлять свою категорию данных о ребенке. Это может быть результат итогового теста по математике, чтению или другому предмету сначала за первый, а потом за третий класс. Важны также уровень образования матери, доходы отца, количество книг в доме, относительное влияние окружения и т.д.Это позволит исследователю выудить из сложного и запутанного массива данных ту информацию, которая его интересует. Он сможет выстроить в один ряд детей, у которых много общих характеристик, и определить ту, что не является
общей. Это все равно, что взять все монтажные платы, на которых имеются разъемы со штырьками, и отделить от них ту, где есть разъем с гнездами. Таким образом можно изолировать влияние одного разъема на подсоединение всей монтажной платы. Благодаря этой процедуре станет понятным влияние сначала одного особенного разъема, а потом и всех остальных.Предположим, что мы хотим узнать из данных ECLS
ответ на важный вопрос о родителях и образовании: способствует ли большое количество книг в доме успехам ребенка в школе? Регрессивный анализ не может дать на него исчерпывающий ответ, но вполне может ответить на вопрос, поставленный немного по-другому. Он звучит так: правда ли, что ребенок, у которого дома много книг, учится лучше ребенка, у которого книг нет совсем? Разница между этими вопросами представляет собой разницу между причинностью (первый вопрос) и корреляцией (второй вопрос). Регрессивный анализ может продемонстрировать наличие между явлениями корреляции, но не в силах доказать существование причинности. В конце концов, существует несколько вариантов, в которых две переменные могут находиться в той или иной связи между собой. Фактор X может быть причиной Y; Y может быть причиной X; точно так же может существовать и некий третий фактор, являющийся причиной как X, так и Y. Один регрессивный анализ не сможет сказать вам, идет ли снег, потому что холодно; холодно ли, потому что идет снег, или эти два явления просто совпали.Данные ECLS
лишь показывают, что если дома у ребенка много книг, то результаты школьных тестов у него, скорее всего, будут выше, чем у того, у которого книг дома нет. Так что эти два фактора взаимосвязаны, и хорошо, что мы об этом знаем. Однако высокие результаты тестов коррелируют также со многими другими факторами. Если вы просто возьмете детей с большим количеством книг и сопоставите их с детьми без книг, ответ не будет однозначным и исчерпывающим. Может быть и так, что большое количество книг дома у ребенка является всего лишь показателем достатка его родителей. Что нам действительно необходимо сделать, так это найти двух детей, похожих во всем, кроме одного — в данном случае это размер домашней библиотеки. После этого нам останется только выяснить, влияет ли этот фактор на их успеваемость в школе.Нужно отметить, что регрессивный анализ — это скорее искусство, чем наука. (В этом отношении у него много общего с воспитанием детей.) Между тем опытный практик может с его помощью определить, насколько значительна та или иная корреляция, и даже сказать, указывает ли она на причинную связь.
И все же, что именно анализ данных ECLS
может рассказать о школьной успеваемости детей? Много интересных моментов. И первый из них касается разрыва между результатами итогового тестирования белых и черных.