Для того чтобы избежать искажений в корреляции, происходящих из-за разных размеров административных единиц, внимательный аналитик обратится к более «демократичному» методу, когда на диаграммах рассеивания идентичные точки или кружки представляют каждый район. Как показывают диаграммы на рис. 11.16, плотность и ориентация «облака» точек отражают силу и направление корреляции.
Рис. 11.16. Диаграммы рассеивания и линии тренда для различных видов корреляции
Если прямая линия обеспечивает нормальное формирование множества точек, когда они расположены недалеко друг от друга, то такая корреляция называется линейной, а степень незначительного разброса точек вокруг этой линии указывает на силу линейной корреляции.
Линия положительной корреляции направлена направо вверх, а отрицательной – направо вниз; множество точек без ощутимых внутренних связей не имеет видимого направления. Для слабых корреляций характерен широкий разброс точек вокруг линии тренда, тогда как в сильных линейных корреляциях большинство точек расположено прямо на линии тренда или в непосредственной близости от нее. Не все корреляции бывают прямыми, сильная криволинейная корреляция характеризуется изогнутым трендом, которому соответствует изогнутая линия тренда.Статистики используют определенное число, называемое коэффициентом корреляции,
для измерения силы и направления линейной корреляции. Его обозначают символом r, и он показывает специальным значком направление взаимоотношений между переменными, а также силу этих взаимоотношений в ее абсолютной величине. Коэффициент r колеблется в диапазоне от +1,00 до –1,00. Для сильной положительной корреляции r составляет от 0,9 и выше; для сильной отрицательной корреляции – от –0,9 и ниже; около 0 – это показатель неопределенной или очень слабой корреляции. Существует эмпирическое правило, по которому квадрат коэффициента корреляции дает пропорцию изменений в одной переменной в зависимости от других переменных. Например, если r = –0,6, то корреляция является негативной и одна переменная может «объяснять» 36 % другой переменной. Коэффициент корреляции измеряет только зависимость величин, а не их причинно-следственную связь, которая обосновывается логикой и сопутствующими доказательствами.Карты, диаграммы рассеивания и коэффициенты корреляции дополняют друг друга, и аналитик, интересующийся корреляцией, обычно полагается на все эти три элемента. Коэффициент корреляции, который обеспечивает возможность точного сравнения пары переменных величин, измеряет только линейную зависимость. А вот диаграмма рассеивания моментально показывает и криволинейные взаимосвязи со средним значением r
. Эти диаграммы также показывают отклонения, которые могут сильно искажать вычисление r. Однако необходимость основываться на визуальных оценках снижает ценность диаграмм для сравнения силы взаимосвязей величин. Более того, диаграммы рассеивания и коэффициенты корреляции ничего не говорят о расположении той или иной местности, а карты, которые представляют нам пространственные тренды, могут обеспечить только ненадежные оценки корреляции.Карты могут показывать другой вид корреляции, географическую корреляцию,
которая отличается от статистической корреляции диаграмм рассеивания и классического коэффициента корреляции. Статистическая корреляция существует вне пространства и ничего не сообщает о пространственных трендах. Рис. 11.17 показывает это различие с помощью двух пар карт, отличающихся по пространственной картине, но идентичных по диаграмме рассеивания и коэффициенту корреляции. Переменные А и B, для которых общей является несколько хаотичная, фрагментарная картина, явственно отличаются по географической корреляции от переменных Х и Y, для которых характерен отчетливый общий тренд с более высокими значениями в верхней части таблицы и более низкими – в ее нижней части. Хотя они и не являются идентичными, карты X и Y предполагают влияние третьего лежащего в основе географического фактора, такого как долгота, этнический состав населения, плодородность почв или приближенность к сильному источнику загрязнения окружающей среды. Несмотря на проблемы, возникающие в связи с агрегацией районов местности, аналитик географических данных, исследующий вопросы корреляции без одновременного изучения пространственной картины, некомпетентен, либо невнимателен, либо просто глуп. И не настроенный скептически пользователь карт может легко запутаться.
Рис. 11.17. Две пары переменных с идентичными диаграммами рассеивания, коэффициентом корреляции (r = 0,93) и границами категорий, но с разными картографическими картинами