Сначала создается база данных геномов, принадлежащих людям из той или иной популяции. Популяция может быть популяцией греков, японцев, немцев и так далее, однако люди из этих популяций для внесения в базу должны соответствовать строгим критериям – обычно это факт постоянного проживания всех прямых предков на протяжении нескольких поколений на одной и той же территории и их одинаковой самоидентификации как представителей исследуемой популяции. Чем больше людей внутри одной популяции в базе, тем более показательной является выборка, тем больше статистических различий между представителями одной популяции можно описать и тем более точным может быть результат анализа. Однако количество популяций в анализе так же очень важно, ведь если в базе будет 10 популяций, то и результат анализа популяционного состава будет содержать не более 10 популяций. Даже если взять коренного удмурта и сделать ему анализ популяционного состава с использованием базы, в которой нет популяции удмуртов, то результаты анализа никогда и не покажут удмуртов. Описанные выше базы активно создавались ранее и продолжают создаваться путем организации экспедиций в места проживания отдаленных или изолированных популяций, или набором участников для исследований в крупных городах. Стоит отметить, что каждая компания, предоставляющая услуги генетических исследований, с большой долей вероятности использует разные базы, что приводит к различиям в результатах между разными компаниями.
Поэтому абсолютно нормально, что, если человек сдаст свой генетический материал в двух разных компаниях, он может получить несколько различающиеся результаты популяционного состава.
Вторым шагом в исследовании популяционного состава является анализ той самой базы геномов популяций. Для этого данные ДНК-анализа всех людей из базы анализируются, чтобы можно было увидеть вклад каждой из популяций в базе в данные каждого человека из базы. Тем самым для каждого человека можно получить численный вклад каждой из популяций базы в его или ее геном. Этот анализ позволяет получить многомерное пространство, в котором можно расположить каждый образец из базы. Выше пример как могут выглядеть такие кластеры, где видны отдельные популяции в базе.
Третий шаг – это анализ популяционного состава человека не из этой базы (условного клиента, сдавшего свой биоматериал для анализа). Комбинация методов из предыдущего шага и различных вероятностных подходов позволяет установить принадлежность образца к тому или иному кластеру (популяции), определенному на этапе анализа базы популяций. Здесь важно отметить тот факт, что анализ целого генома не производится. Напротив, исследуется несколько десятков или сотен тысяч участков генома, которые меньше всего «смешиваются» при формировании половых клеток, ведь для исследования популяционного состава лучше всего подходят наиболее стабильно передающиеся участки ДНК из поколения в поколение.
Для каждого участка генома можно получить «принадлежность» к той или иной популяции из базы популяций, где какая-либо популяция имеет максимальную схожесть с анализируемым участком по сравнению с остальными популяциями из базы. Каждый участок получает свой результат «принадлежности» (к какой популяции относится участок), а дальнейшая обработка для всех участков дает популяционный состав в виде процентов той или иной популяции, «обнаруженной» в исследуемом геноме.
Разумеется, в случае наличия предков из разных популяций и этнических общностей ДНК человека, можно сказать, «накапливает» в себе различные паттерны, присущие этим популяциям. Эти паттерны накапливаются и часто накладываются друг на друга, что мешает получать результаты, указывающие на какие-либо узкие группы популяций. Более того, наличие прадеда из Италии или отца из Польши абсолютно не гарантирует обнаружение значимого количества участков генома, схожих с указанными популяциями, вследствие случайного характера рекомбинации и не совсем равномерной передачи участков ДНК при образовании половых клеток. Сам анализ популяционного состава сложен и зависит от множества независимых факторов, которые влияют на конечный результат. Саму концепцию популяционного состава как продукта внутри генетического анализа необходимо воспринимать как информационно-познавательную.
Важно понимать, что если результаты популяционного состава не устраивают или есть сомнения из-за собственного представления о своем происхождении, то это не должно отбрасывать тень на результаты исследования в области здоровья, так как в их интерпретации используются другие алгоритмы.
Вплетется ли вирус в нашу ДНК? Сколько процентов ДНК человека составляют вирусы?