Читаем Метод. Московский ежегодник трудов из обществоведческих дисциплин. Выпуск 4: Поверх методологических границ полностью

Описанная логика работы с данными как результатами реализации случайных величин особенно естественна в случае количественных показателей, которые могут непосредственно отождествляться со случайными величинами. Так, случайной величиной можно назвать ВВП / человек в отдельном государстве, уровень безработицы, число респондентов в выборке, заявивших о поддержке некоторой реформы и др.

Основными числовыми характеристиками случайных величин, позволяющими описать данные в выборке, являются меры центральной (средней) тенденции и меры разброса относительно среднего. Они характеризуют распределение, которым описываются признаки, и могут способствовать выбору методов их анализа.

К мерам центральной тенденции относятся среднее арифметическое, медиана и мода. Среднее арифметическое является точечной оценкой математического ожидания E (x) (среднего значения в генеральной совокупности), медиана – значение показателя, меньше которого располагаются 50% наблюдений35, мода – наиболее распространенное значение, способ оценить среднее для категориальных переменных.

Дисперсия Var (x) – мера разброса относительно среднего. Она рассчитывается как усредненная сумма квадратов отклонений от среднего. Квадратный корень из дисперсии называется стандартным отклонением и тоже является мерой разброса, но имеет преимущество перед дисперсией поскольку измеряется в тех же самых единицах, что и сам признак, а дисперсия – в единицах в квадрате.

Определение типа шкалы и получение числовых, а также графических характеристик изучаемых признаков составляют подготовительный этап анализа данных. Исходя из полученной информации, требуется определить корректный метод для содержательной задачи, составляющей интерес исследователя: выявления взаимосвязи признаков, установления причинно-следственной связи, прогнозирования, классификации, снижения размерности и пр.

Задачу выявления связи между двумя номинальными признаками решает анализ таблиц сопряженности признаков, являющихся результатом их перекрестной классификации. Самая простая таблица сопряженности – это таблица 2x2, в которой строкам соответствуют два значения признака А, а столбцам – два значения признака В. В каждой ячейке таблицы указывается число объектов, для которого А и В принимают соответствующие строке и столбцу значения. Как правило, количество категорий признаков невелико, поэтому для включения в анализ непрерывного признака необходимо разбить его на категории. Например, можно создать возрастные группы или группы по доходу. Тогда исследователь сталкивается с необходимостью задания пороговых значений, которые зачастую во многом произвольны.

Вывод о наличии или отсутствии связи делается на основании проверки статистической гипотезы о независимости признаков. Самым простым из возможных критериев проверки, пожалуй, является 2 («хи-квадрат») К. Пирсона. На основе разницы между ожидаемыми при независимости признаков и наблюдаемыми частотами в каждой ячейке рассчитывается значение статистики хи-квадрат, и на его основе можно сделать вывод о статистической независимости изучаемых признаков или же, наоборот, о наличии статистически значимой связи. Однако существенное ограничение: критерий хи-квадрат Пирсона некорректно использовать, если среди ячеек таблицы сопряженности есть такая, ожидаемое значение в которой меньше пяти. Это ограничение связано с тем, что распределение хи-квадрат, на основе которого проверяется гипотеза, является непрерывным, в то время как одноименная статистика, высчитываемая на основе выборки, явно принимает конечное число значений. В подобной ситуации рекомендуется использовать точный критерий Фишера (о других критериях см. подробнее [Аптон, 1982, с. 16–40]).

Вообще, диапазон возможных критериев для анализа таблиц сопряженности достаточно широк. Так, V-критерий Крамера также использует статистику хи-квадрат, но является мерой связи между признаками и лежит в границах от 0 до 1. Лямбда-критерии Гудмана и Краскела позволяют ответить на вопрос о силе связи между номинальными признаками, основываясь на предсказании категории одного признака при известной категории другого. Тау-критерии являются вероятностными мерами верной классификации, но избавлены от некоторых недостатков лямбда-критериев. Гамма Гудмана и Краскела отвечает на вопрос о связи порядковых признаков [см. подробнее: Аптон, 1982].

Перейти на страницу:

Похожие книги

115 сочинений с подготовительными материалами для младших школьников
115 сочинений с подготовительными материалами для младших школьников

Дорогие друзья!Сочинение – это один из видов работы по развитию речи, который предполагает самостоятельное, продуманное изложение вами своих мыслей в соответствии с требуемой темой.Работа над сочинением развивает мышление, речь, позволяет выразить свой взгляд на мир. Такой вид работы способствует осознанию окружающего мира, действительности, самих себя. Кроме того, сочинение учит аргументированно доказывать и отстаивать свою точку зрения.В данном пособии вы найдёте методику написания сочинений, а также различные виды сочинений с планами и подготовительными материалами.Не забывайте, что сочинение – это прежде всего творческая работа, которая не терпит шаблона. Советуем вам не использовать представленные в пособии сочинения для бездумного, механического переписывания их в свои тетради. Наши сочинения – это возможные варианты раскрытия определённых тем, которые, надеемся, помогут вам при создании самостоятельных текстов.Желаем успехов!

Ольга Дмитриевна Ушакова

Детская образовательная литература / Школьные учебники и пособия, рефераты, шпаргалки / Книги Для Детей