Если признаки измерены на категориальном уровне, тогда мерами схожести будут такие метрики, которые основаны на совпадении или несовпадении значений по каждому признаку [Ким, Мьюллер, Клекка, 1989, с. 161].
После объединения наиболее близких друг к другу точек в один кластер, в иерархических методах необходимо задать способ агломерации – правило сравнения и объединения единичных точек к кластерам или двух кластеров в один более крупный. Для этого используются метод ближнего соседа, метод дальнего соседа, центроидный метод и метод средней связи. По результатам некоторых исследований, лучшие результаты дают метод Варда и метод средней связи [Gore, 2000, p. 315].
Кластерный анализ позволяет получить относительно объективную классификацию единиц наблюдения, так как является формальным методом, но в зависимости от способа агломерации и смены метрики он может выдавать различные по составу группы при одинаковом числе кластеров. В каждом отдельном случае самым важным остается качество содержательной интерпретации полученных совокупностей объектов, но все-таки некоторые конвенциональные правила комбинации метрик и правил агломерации существуют [Gore, 2000, p. 309–312].
Совокупность описанных методов анализа данных позволяет решать наиболее типичные задачи политического анализа (а возможно, и социальных наук вообще) на основе количественных данных. Тем не менее за рамками нашего обзора остался широкий класс методов, изучение и описание которого требует достаточно свободного владения понятиями теории вероятностей и математической статистики, а также алгебраической геометрии. Речь идет, в первую очередь, о байесовском подходе к анализу данных, непараметрических методах, методах анализа пространственно-временных данных и временных рядов, а также нелинейных вариантах метода главных компонент, основанных на теории нелинейных многообразий.
Все описанные и оставленные без обзора методы прикладной статистики, однако, требуют для успешности использования привлечения способности исследователя интерпретировать как саму изучаемую реальность, так и полученные в ходе математической обработки результаты. Семиотика потенциально способна оказать практикующим исследователям большую помощь в этой области. Надеемся, что продемонстрированная в этом обзоре широта приложений статистики привлечет внимание специалистов по семиотике к прикладной статистике и будет способствовать сближению этих областей знания.
Analysis of multivariate social science data / D.J. Batholomew, F. Steele, I. Moustaki, J.I. Galbraith (eds.). – Boca Raton; L.; N.Y.: CRC Press, 2008. – xi, 371 p.
Модальная семиотика: основания и обоснования