Основным стимулом для развития всей компьютерной геногеографии (как для зарубежной, так и для отечественной геногеографических школ) явилось именно стремление построить географические карты главных компонент. По мнению Л. Д. Кавалли-Сфорца [Cavalli-Sforza et al., 1994], построение карт главных компонент может облегчить визуализацию древних миграций, а также иные факторы, однотипно влияющие одновременно на целый ряд генов. Впервые карты главных компонент были созданы коллективом под руководством L. L. Cavalli-Sforza [Menozzi et al., 1978], причём для этого коллектива карты главных компонент («синтетические» карты) являются основным методом картографического обобщения [Menozzi et al., 1978; Piazza et al., 1981 a,b; Ammerman, Cavalli-Sforza, 1984; Cavalli-Sforza et al., 1995]. Независимо собственная технология картографирования главных компонент разрабатывалась одним из авторов (Е. В. Балановской) в сотрудничестве с Ю. Г. Рычковым, С. М. Кошелем, Д. Б. Патрикеевым, Т. П. Папковой, С. Д. Нурбаевым. Последняя версия включает нормировку исходных данных, нормировку дисперсии, расчёт по корреляционной матрице и оптимизацию решения (упорядочивание собственных векторов и собственных чисел для обеспечения инвариантности решения). Основное отличие наших карт от создаваемых коллективом L. L. Cavalli-Sforza — в том, что наши карты обладают большей точностью и разработанностью деталей рельефа главных компонент (это связано с особенностями построения исходных карт генов). Однако по самой сути подхода и те, и другие карты главных компонент чрезвычайно сходны и могут сопоставляться без дополнительной коррекции.
Расчёт главных компонент осуществляется следующим образом. По значениям признаков (частот аллелей) в популяциях рассчитывается матрица корреляций всех аллелей друг с другом. Значения главных компонент для данной популяции вычисляются по значениям исходных признаков, умноженных на соответствующие коэффициенты. В качестве коэффициентов выступают собственные векторы ковариационной матрицы отдельных признаков, при условии некоррелированности получаемых на их основе главных компонент. Поэтому первым шагом является расчёт коэффициентов ковариации, затем производится решение соответствующего уравнения, корнями которого являются собственные вектора ковариационной матрицы, и, наконец, перемножением этих коэффициентов и значений частот аллелей находятся величины главных компонент.
Этот алгоритм расчёта главных компонент заложен практически во всех статистических программных пакетах. Поскольку в геногеографии необходимо провести расчёт карт главных компонент не по исходным данным, а по картам отдельных признаков, то для этого созданы оригинальные программы картографического пакета GGMAG. Так как цифровая модель карты представляет собой числовую матрицу со значениями частоты аллеля в каждом узле, то задача расчёта главных компонент сводится к получению значений главных компонент в каждом узле цифровой модели. При расчёте с использованием картографического пакета последовательность значений во всех узлах ЦМ
выступает в том же качестве, как последовательность значений в одной строке таблицы данных при расчёте в обычном статистическом пакете. По данным во всех узлах ЦМ рассчитывается матрица корреляций всех ЦМ друг с другом. По корреляционной матрице вычисляются значения главных компонент для каждого из аналогов популяций (узлов равномерной сетки карты). Полученные значения главных компонент вновь присваиваются каждому узлу ЦМ. В результате создается ЦМ карт 1 главной компоненты, 2, 3… N главной компоненты, где N — число исходных карт отдельных признаков [Cavalli-Sforza et al., 1994; Балановская, Нурбаев, 1997]. Число результирующих карт главных компонент равняется числу исходных признаков, однако обычно рассматриваются карты только первых двух-трех компонент, описывающих основную часть изменчивости всех исходных признаков.Таким образом, при расчёте карт главных компонент используется тот же алгоритм, что и при обычных статистических расчётах. Единственное отличие состоит в том, что получаемые значения главных компонент в популяциях (узлах сетки карты) имеют координатную привязку и поэтому представляются не в табличном формате, а в формате цифровой модели. Как указывалось, эта функция расчёта по значениям, привязанным к узлам ЦМ,
реализована в программном пакете GGMAG.ЗАЧЕМ НАДО СТРОИТЬ КАРТЫ ГЛАВНЫХ КОМПОНЕНТ?