В заключение коснемся важного методического вопроса, относящегося к картографированию главных компонент. Этот вопрос был очень остро поставлен в дискуссии между R. Sokal и L. L. Cavalli-Sforza об эффекте ложных корреляций, вносимых интерполяционной процедурой картографирования [Sokal et al., 1999ab; Rendine et al., 1999].
В чем же проблема? Поскольку число изученных популяций всегда много меньше числа узлов карты, при создании картографической модели необходимо использовать процедуру интерполяции данных. R. Sokal указывает, что это может привести к возникновению ложных корреляций между картами. Дело в том, что на территории промежуточной между изученными популяциями интерполяция прогнозирует постепенные изменения. И даже если в действительности картина более сложна, мы не сможем её выявить, пока не изучим промежуточные популяции, и наша карта будет «гладкой», с постепенными изменениями. Если теперь предположить, что постепенные изменения в данной области карты появятся на нескольких картах, то эти карты будут коррелировать друг с другом в данной области. Очевидно, что эта корреляция «индуцирована» интерполяцией и может иметь, а может и не иметь оснований в реальном распределении двух признаков. А так как главные компоненты вычисляются по матрице корреляций между картами, то и главные компоненты должны нести те или иные искажения вследствие ошибки таких ложных корреляций. Если же значения главных компонент были бы рассчитаны «прямым способом», то есть по исходным данным (без всяких карт), а уже потом по результатам такого расчёта построена карта главных компонент, то в этом случае, как указывает R. Sokal, мы избежали бы ошибки ложных корреляций. Вместе с тем R. Sokal согласен, что подобный способ расчёта (сначала рассчитать значения главных компонент, а потом уже картографировать «готовые» значения) возможен лишь в тех чрезвычайно редких случаях, когда весь ряд популяций изучен по всему набору признаков.
В целом, соглашаясь с логикой R. Sokal, мы считаем, что предложенный им выход — отказ от карт главных компонент — является мерой крайней и поспешной. Следует, по-видимому, провести более тщательное изучение этого вопроса — как теоретическое, так и путем прямого эксперимента. По аутосомным генетическим маркёрам провести такой эксперимент нельзя, так как нельзя построить карту главных компонент «прямым способом», поскольку популяции изучены по разному набору маркёров (в таблице «все популяции на все маркёры» многие ячейки пустуют). Однако квазигенетические маркёры (фамилии) и однородительские ДНК маркёры изучены обычно во всех популяциях (
ЭФФЕКТА ЛОЖНЫХ КОРРЕЛЯЦИЙ — НЕТ!
Итак, мы решили напрямую проверить — есть ли в действительности, а не в теории, эффект ложных корреляций?
РУССКИЕ ФАМИЛИИ.
Для этого нами были построены карты главных компонент изменчивости русских фамилий в двух вариантах — расчёт «по картам» и расчёт «прямым способом». Во избежание всяких сомнений, эти карты были построены по популяциям строго одного уровня — по данным о частотах фамилий в сельсоветах.При сопоставлении этих карт становится очевидным их полное сходство. Коэффициент корреляции составил
r=0.963. Это значит, что расчёт главных компонент «по картам» и «прямым способом» дал идентичные результаты.ГАПЛОГРУППЫ У ХРОМОСОМЫ В РУССКОМ ГЕНОФОНДЕ.
Но, может быть, только фамилии обнаруживают столь полное совпадение? Нет. Мы провели полностью аналогичный анализ и для ДНК маркёров — изменчивости гаплогрупп Y хромосомы в историческом русском ареале. И вновь расчёт главных компонент «по картам» и «прямым способом» дал идентичные результаты: коэффициент корреляции составил r=0.997 [Balanovsky et al., 2008].