5. АТЛАСЫ ГЕНОФОНДОВ
В этом разделе рассматриваются технические вопросы создания всего множества карт, приведённых в книге. Описаны исходные данные для картографирования, указаны параметры построения разных видов карт, отмечены особенности различных Атласов.
БАНК ДАННЫХ «РУССКИЙ ГЕНОФОНД»
Создание геногеографических Атласов невозможно без предварительной разработки банков данных, содержащих исходную информацию. В ряду созданных нами банков, использованных в этой книге («GENEPOOL», «World Mitochondrial», «Палеолит Северной Евразии» и другие) банк данных «Русский генофонд»[80]
занимает особое место.Этот Банк данных (информация на конец 2005 г.) содержит данные о русских популяциях (более 500), изученных по признакам генетики и антропологии (350 маркёров различного типа).
Для того чтобы стать не просто хранилищем самых разнообразных сведений о русском генофонде, а материальной основой для синтеза этой информации, Банк данных должен был решить задачу унификации данных. Вся информация дается в Банке по единой схеме и для генетических, и для антропологических данных. Именно единство формата позволяет отбирать любые данные по общим формальным признакам и комбинировать их.
Банк данных (БД) включает в себя десять разделов, объединяемых в три группы: А) информация, общая для всех тематических разделов БД; Б) тематические разделы; В) справочники.
A) ОБЩАЯ ИНФОРМАЦИЯ
1. Популяционный раздел.
Детальные описания каждой популяции — административная принадлежность, географические координаты, особенности сбора выборки, статус и т. д.
2. Библиографический раздел.
Сведения по тем источникам, откуда были взяты данные.
Б) ТЕМАТИЧЕСКИЕ РАЗДЕЛЫ
3. Соматологические признаки (3276 записей),
4. Дерматоглифические признаки (201 запись).
5. Классические генетические маркёры (2754 записей);
6. Аутосомные ДНК маркёры (962 записи);
7. Гаплогруппы митохондриальной ДНК (363 записи).
8. Гаплогруппы У хромосомы (112 записей);
B) СПРАВ0ЧНИКИ
9. Административно-территориальная классификация
Перечень государств мира, областное деление стран СНГ до уровня областей, административное деление России на субъекты РФ и их подразделение на районы. Справочник позволяет каждой изученной русской популяции дать точную привязку к территории и административной единице.
10. Справочник маркёров и другие специальные справочники.
Основные задачи БД — обеспечить удобный ввод данных, проверку правильности их введения, возможность поиска (фильтрации) и любого комбинирования данных, выгрузку нужной комбинации данных в заданном виде, который «понимает» та или иная программа последующего анализа.
Банк данных обладает развитой системой поиска и отбора информации по различным параметрам и по запросам различного характера: группе популяций,
набору маркёров, интервалу значений признаков, любому сочетанию этих условий и т. д. Фактически — благодаря использованию готовых иерархически организованных списков — не представляет затруднений быстро отобрать из всего массива данных сведения по интересующей пользователя популяции или группе популяций, причем по любому конкретному маркёру или их заданной группе.
ОТ БАНКА — К АТЛАСАМ
Информация из банка данных выгружалась в формат данных для картографирования, и с использованием нашего геногеографического программного пакета GGMAG
создавались карты — как для отдельных признаков, так и синтетические карты.Все карты Атласов русского генофонда построены при следующих постоянных параметрах:
— Число узлов ЦМ: 88x103;
— Параметры интерполяции: степень полинома 0. радиус 10, степень весовой функции 6;
— Построение трендовых карт: осреднением в плывущем окне постоянного (для данной карты) размера. Для разных карт использованы окна разной величины (см. ниже описания каждого отдельного Атласа).
— Шкалы: равномерные, как правило, семиинтервальные.
— Надёжная область: зона с вероятностью правильного прогноза более 95 % при заданном уровне строгости.
Другие параметры (например, размер окна сглаживания, уровень строгости, мера расстояний) различались от Атласа к Атласу и указаны ниже при описании построения соответствующих карт.
АТЛАС СОМАТОЛОГИИ РУССКОГО НАРОДА
(рассмотрен в