Для каждого образца содержится информация по ГВС1, а также (при наличии таких данных в оригинальных статьях) по ГВС2 и по информативным мутациям в кодирующем регионе мтДНК («ПДРФ маркёры»). В банк включены также сведения по изученным популяциям, включая их этническую (народ) и административную принадлежность (страна, провинция) и географические координаты.
ОПРЕДЕЛЕНИЕ ЧАСТОТ ГАПЛОГРУПП.
Особенность всех митохондриальных баз данных в том, что информация содержится в формате «образец (из определённой популяции) — его гаплотип», а не в формате «популяция — частота аллеля (гаплогруппы)», обычном для популяционно-генетических баз данных. Соответственно, на первом этапе использования митохондриальной базы данных необходимо для каждого образца указать его гаплогруппу, и только потом можно рассчитать и картографировать частоты гаплогрупп. Однако определение гаплогруппы для огромного массива образцов, изученных разными авторами по различным наборам маркёров с использованием различающихся обозначений одних и тех же гаплогрупп, представляет собой сложную задачу.Для создания Атласа митохондриальной ДНК Евразии (версия 2007 года) мы использовали следующий алгоритм. Для образцов, по которым имелись удовлетворительные данные о ПДРФ маркёрах кодирующей части мтДНК, гаплогруппы определялись по наличию характеристических мутаций в кодирующей части, то есть наиболее корректным путём. Для образцов, по которым имелись данные только по ГВС1 (или данные по обоим сегментам, и ГВС1, и ГВС2), гаплогруппа определялась по степени сходства данного гаплотипа со всеми гаплотипами, для которых надёжно известна гаплогруппа. В качестве такой референтной базы (обучающей выборки) использовались образцы, секвенированные полностью или подробно охарактеризованные по ПДРФ маркёрам. Например, если гаплотип данного образца по набору мутаций оказывался наиболее сходен с восемнадцатью другими гаплотипами, несомненно относящимся к гаплогруппе U4, то и рассматриваемый гаплотип мы относили к той же гаплогруппе. Такая операция проводилась программным путём (используя возможности MURKA database), при необходимости результаты проверялись и корректировались вручную (экспертная оценка). Такой способ достаточно эффективен и в большинстве случаев точен (как показано для похожего алгоритма [Behar et al., 2007]), но не гарантирует стопроцентное определение гаплогруппы. Действительно, если тестируемый образец сходен с двадцатью гаплотипами, относящимися к одной гаплогруппе, и с сорока гаплотипами другой гаплогруппы, то классифицировать наш гаплотип затруднительно. Во всех подобных случаях гаплогруппа не проставлялась (считалась неизвестной), и популяции, в которых доля таких неизвестных гаплогрупп превышала 1 %, не включались в картографический анализ. Впрочем, для ряда гаплогрупп (тех, для которых общепринято выделение по ГВС1) такого исключения популяций не проводилось, поэтому карты разных гаплогрупп основаны на несколько различающихся наборах популяций.
Такой алгоритм позволил гарантировать высокую надёжность исходных картографируемых данных (частот гаплогрупп) и при этом использовать все имеющиеся данные: как из работ, включавших обязательное определение ПДРФ маркёров, так и данные из многочисленных исследований, в которых проводилось лишь секвенирование ГВС1 (например, публикации лабораторий судебно-медицинской экспертизы). Использованные для картографирования частоты гаплогрупп представлены на сайте www.genofond.ru (к моменту выхода книги представлены частоты 11 основных гаплогрупп в 136 популяциях Западной Евразии).
«ПРОСТЫЕ» КАРТЫ.
Были построены 43 карты распространения отдельных гаплогрупп. Можно было построить карты для множества дробных гаплогрупп, но для целей этой книги мы выбрали 43 гаплогруппы, представляющие основное разнообразие митохондриальной ДНК в Евразии.ОБОБЩЁННЫЕ КАРТЫ.
Весь анализ проведён в пределах надёжного пространства, задаваемого картой надёжности (построенной по 278 популяциям при уровне строгости 0.2).Суммарные карты западноевразийских и восточноевразийских гаплогрупп основаны на картах гаплогрупп H, J, К, Ml, М3, T, Tl, T2-T5, T2, T* U2, U2* U2a, U2b, U2c, U2e, U4, U5a, U5b, V, W, X, XI, X2, X*
(западноевразийские гаплогруппы) и A, A4, A5, А*, В, С, D, F, M7, M7* M7a, M7b, M7bl, M7b2, M7b3, M7b*, M7c, Z (восточноевразийские гаплогруппы).