4. Расчёт частот фамилий.
Каждая фамилия «прикреплена» в базе данных к тому населённому пункту, где она встречена. Однако мы не проводим анализ на уровне отдельных населённых пунктов[84]. Нами принята организация данных на трёх других более высоких иерархических уровнях. Первый уровень — «популяция» (сельская администрация, волость, сельсовет), объединяющая несколько населённых пунктов. Второй уровень — «район». Он включает все популяции, относящиеся к данному району согласно современным административным границам. Третий уровень — «регион». Он соответствует области или нескольким соседним областям и включает все районы, которые были обследованы в этих областях. Программа работает последовательно с каждым из уровней. Сначала объединяются списки фамилий всех населённых пунктов, относящихся к данной популяции, и рассчитывается частота каждой фамилии в полученном списке. Это частоты на уровне популяций. Далее усредняются частоты фамилии во всех популяциях данного района, и записывается полученная частота фамилии в районе. Далее усредняются частоты фамилии во всех районах данного региона, и записывается полученная частота фамилии в регионе. На всех уровнях иерархии можно рассчитывать и взвешенные, и невзвешенные средние частоты, что определяется конкретной задачей. Программа обеспечивает анализ и на любых других уровнях иерархии — например, населённых пунктов, или же заданных групп районов, или же заданных областей, или, например, географически соседних районов разных областей.5. Размещение в базе данных.
Частоты каждой фамилии в каждой популяции, каждом районе и каждом регионе записываются в базу данных. Причём, частота фамилии в данной группе населения может быть рассчитана разными способами. Осуществляется целый веер расчёта частот. Фамилии могут быть «коренные», «пришлые» или любые. Частоты взвешенные или невзвешенные на том или ином уровне. Население может включаться только сельское или же и городское. Неинформативные популяции могут исключаться в разных вариантах или же включаться в анализ. То есть мы получаем несколько оценок частоты одной и той же фамилии в одной и той же группе населения. Чтобы избежать путаницы, они помещаются в разные разделы базы данных. Весь веер полученных частот для каждой популяции может храниться в БД и использоваться для дальнейшего анализа. Каждый из- этих вариантов расчёта оптимален для решения своего круга задач.6. Оценка случайного инбридинга.
Традиционно в популяционной генетике фамилии используются для расчёта случайного инбридинга (см.«ПРОСТЫЕ» КАРТЫ
включают 75 карт, построенных в пределах «надёжного» пространства и при минимальном сглаживании (окно 3x3).ОБОБЩЁННЫЕ КАРТЫ
включают карты главных компонент (тренд в окне 7x7), карты генетических расстояний и карты случайного инбридинга.Карты главных компонент и генетических расстояний
(от среднерусских частот фамилий) рассчитаны по 75 картам отдельных фамилий в пределах надёжного пространства (уровень строгости 0.5). Карты главных компонент обсуждаются в