Такая «ненасытность» приводит к весьма важному выводу: реальное число разных линий мтДНК в больших и географически подразделённых популяциях очень велико.
Даже при выборках в тысячу и более образцов, по-прежнему в популяции остается множество невыявленных гаплотипов. Эту особенность мтДНК всегда необходимо учитывать, сравнивая популяции по спектру гаплотипов. Ведь если какой-либо гаплотип встречен у русских, но не обнаружен в иной популяции, это отнюдь не означает реального различия этих популяций. В действительности гаплотип может быть в обеих популяциях, но выявим мы его только при увеличении выборки.КАК ПОСТРОЕН ЭТОТ ГРАФИК.
Из общего массива в 1600 образцов из русских популяций случайным образом выбиралось по 100 образцов, и подсчитывалось число гаплотипов. На следующем шаге добавлялось ещё 100 образцов, случайно выбранных из оставшихся 1500, и подсчитывалось число гаплотипов в этой увеличившейся выборке. Всего было сделано 16 таких шагов — пока реальные доступные данные (1600 образцов) не были исчерпаны.Грубая аппроксимация показывает, что соотношение между общим объёмом выборки и числом различных линий (гаплотипов) составляет примерно 7:3. Иными словами, число гаплотипов составляет около 40 %
от числа исследованных образцов русского народа. Мы проверили это соотношение по данным о другом хорошо изученном народе — немцам, где исследовано лишь немногим меньше образцов — 1396. Число разных гаплотипов в этой выборке немцев составило 553, то есть соотношение осталось тем же — 40 %. Конечно, это соотношение должно несколько меняться в зависимости от разрешающей способности филогенетического анализа, то есть нашей способности отличать друг от друга «похожие» гаплотипы. Это соотношение должно зависеть и от структуры популяции, от соотношения миграций и дрейфа генов. Например, для саамов (лопарей), которые служат классическим примером мощного дрейфа, доля разных гаплотипов составляет, по нашим расчётам, только 11 % от объёма выборки (63 гаплоти-па в общей выборке 559 человек, информация Банка данных World Mitochondrial, см.КАК СРАВНИТЬ ПОПУЛЯЦИИ?
Сравнивать частоты гаплотипов, по всей видимости, нецелесообразно — слишком низка частота практически любого гаплотипа. И двукратные различия в частотах (в какой-то популяции один, а где-то встретилось два человека с таким гаплотипом) будут вызваны лишь случайностями выборки. Лучше сравнивать на качественном уровне: не важно, у скольких индивидов встречен данный гаплотип — важно, что он обнаружен в популяции. Тогда зависимость от объёма выборки будет меньше.
РАСЧЁТ ИНДЕКСА СХОДСТВА.
Для каждой пары сравниваемых популяций мы подсчитывали число общих филогенетических линий (гаплотипов) мтДНК. Индекс сходства оценили как соотношение (долю общих линий): в числителе — количество линий мтДНК, общих с русскими популяциями; в знаменателе — суммарное число линий мтДНК, обнаруженных в сравниваемой популяции.Такой способ расчёта, на первый взгляд, решает проблему «нерепрезентативности» любых наших выборок (в том смысле, что в них представлены далеко не все гаплотипы, реально присутствующие в популяции). Решает за счет того, что мы подсчитываем не число, а долю
гаплотипов, общих между двумя популяциями. Ведь все гаплотипы имеют одинаковую вероятность «потеряться» (присутствовать в популяции, но отсутствовать в выборке). И если для изучаемой популяции «А» общие гаплотипы обнаруживаются преимущественно с популяцией «В», и реже с популяцией «С», то это означает, что таково реальное соотношение митохондриальных генофондов этих популяций. При этом мы предполагаем, что при увеличении объёма выборок число общих гаплотипов должно увеличиться в каждой сравниваемой паре популяций, но само соотношение останется примерно тем же.КОВАРНАЯ СЦИЛЛА: В ЧЁМ ОШИБАЕТСЯ ИНДЕКС СХОДСТВА?
К сожалению, проверка показывает, что это не' вполне так. На