В большинстве случаев в регрессиях, особенно построенных по пространственным выборкам, трудно (если вообще возможно) говорить об отсутствии неучтенных переменных, которые оказывают значимое влияние на зависимую переменную, а также каким-либо образом связаны с другими объясняющими переменными. Возникающее при их наличии смещение приводит к неверной оценке регрессионных коэффициентов, причем направление и размер смещения заранее не известны исследователю. Учесть в анализе такой набор факторов, чтобы объекты анализа (индивиды, фирмы, государства) стали сопоставимыми, а переменные, включенные в регрессионное уравнение, не транслировали влияние третьих факторов, не включенных в спецификацию, призвана множественная регрессия.
Таким образом, множественная регрессия может рассматриваться как удобный метод сравнительных политологических исследований, основанных на идее сравнения сравнимого. Естественно, массив данных в рамках регрессионного анализа также трактуется как выборка, а получаемые регрессионные коэффициенты считаются выборочными оценками, на основе которых необходимо осуществлять статистический вывод.
Однако не всегда интересующая исследователя зависимая переменная является непрерывной. Диапазон возможных значений многих показателей зачастую бывает ограничен. Например, некоторые экономические показатели неотрицательны, а на ряд вопросов в социологических анкетах предусмотрены лишь несколько вариантов ответа: «да» или «нет»; «согласен», «не знаю» или «не согласен».
В таких случях оценивание классической модели линейной регрессии некорректно и даже ошибочно. Задачу выявления связи между зависимой переменной, которая принимает только два значения (1 – «успех» (в статистическом смысле), 0 – «неуспех»), и рядом предикторов решают модели бинарного выбора. В общем случае, когда есть несколько категорий «отклика», но их количество мало, используются модели множественного упорядоченного и неупорядоченного выбора.
Статистическая связь между предикторами и «откликом» выражается в виде вероятности того, что «отклик» примет некоторое значение при заданных величинах объясняющих переменных. С помощью этого класса моделей можно изучать характеристики, которые обусловливают то, какие покупки совершает индивид, какую учебную программу он выбирает, за кого он голосует, если ходит на выборы. Например, в исследовании Джеффри Мондака (Jeffery J. Mondak) анализировалась связь между политической грамотностью (правильными ответами на вопросы с политической тематикой) и рядом социально-демографических характеристик респондентов [Mondak, 2000]. На данных национальных избирательных опросов в США (National Election Studies) 1992 г. было показано, что при переходе в следующую образовательную категорию (всего их было задано шесть) вероятность быть политически грамотным растет при неизменных значениях прочих переменных.
Довольно часто исследователи нацелены на работу с более чем двумя показателями. Иногда, правда, количество показателей столь велико, что непосредственная работа со всем их множеством затруднительна. Возникает задача сжатия информации, снижения количества признаков (иными словами, снижения размерности признакового пространства).
Возможными вариантами решения этой задачи являются экспертное оценивание или конструирование интегральных индексов. Для характеристики той или иной синтетической категории используются зачастую экспертные оценки, способные обобщить существующие в этой связи знания и другие неизмеряемые естественным образом особенности. Вместе с тем существует позиция, что использование экспертных оценок снижает научную ценность и прогностическую силу проводимых исследований. Подобное заключение в некоторой мере оправдано, но в социальных науках практически невозможно обойтись без экспертного мнения, хотя подобные опросы очень сложны в подготовке и проведении, а также являются дорогостоящими [см. например: Ахременко, 2006, с. 206–207].
Столь же неоднозначны мнения по поводу индексов, обобщающих представление о возможных выражениях понятий и их свойств. Во многих случаях исследователи «проявляют определенную смелость, суммируя цифры, которые, как кажется, суммировать не имеет смысла» [Ахременко, 2006, с. 130]. Однако мы нуждаемся в индексах, поскольку зачастую нас интересует множество показателей, моделирующих тот или иной теоретический концепт или процесс.
К методам снижения размерности многомерного признакового пространства относятся компонентный анализ и факторный анализ. Оба подхода позволяют на выходе получить небольшое число обобщенных характеристик, довольно полно описывающих изменчивость одного или нескольких латентных (ненаблюдаемых) признаков, стоящих за исходными частными критериями. Ни метод главных компонент, ни факторный анализ не делят переменные на зависимые и объясняющие.