Сравнение этих двух источников показывает, что второй (наша база данных) основан на обширных выборках, но представляет только 7 областей, а у первого (данные А. П. Бужиловой) выборки невелики, зато география популяций очень хорошая. Поэтому для картографирования данные этих двух источников были объединены. По пяти районам (Холмогорский район Архангельской, Кашинский район Тверской, Кологривский и Вохомский районы Костромской, Велижский район Смоленской областей) имелись данные в обоих источниках. Для этих районов данные А. П. Бужиловой не использовались, и в этих точках картографировались только данные нашей базы данных. Таким образом, общее число опорных точек картографирования составило 101 популяцию: 50 популяций Бужиловой плюс 51 популяция нашей базы данных.
Кроме различия в уровне иерархии популяций (сельсоветы или же районы) между двумя источниками имеется и ещё одно — важнейшее — различие. Данные А. П. Бужиловой ограничены 75 фамилиями, которые оказались по её данным наиболее распространенными. В нашей же базе данных представлено не 75, а 14 000 «условно коренных» распространенных фамилий. Но поскольку для картографирования оба источника объединяются, то мы можем построить подробные «простые» карты лишь тех же 75 фамилий.
ПРЕОБРАЗОВАНИЕ ИСХОДНЫХ ДАННЫХ.
В отличие от всех иных признаков, где преобразования от экспериментальных данных до частот признаков многократно описаны и общеизвестны, преобразования с данными о фамилиях не стандартизованы. Поэтому схематично приведем их.1. «Маскулинизация» фамилий.
В исходных данных присутствуют фамилии и мужчин, и женщин. Поэтому, чтобы одну и ту же фамилию не учитывать как две разные, все фамилии преобразуются к орфографии мужского рода. Например, список «Иванов, Смирнова, Иванова, Сидорова» превращается в «Иванов, Смирнов, Иванов, Сидоров». Надёжный алгоритм такого преобразования разработать не так просто (см. «Крик души» в конце параграфа).2. Исключение неинформативных популяций.
Как правило, в каждом районе есть несколько посёлков, где большинство жителей — недавние мигранты или их потомки. Такие поселения являются чуждыми включениями и не отражают изучаемую популяцию. К тому же они, как правило, недолговечны — их состав текуч, и сами они так же быстро исчезают с карты, как и появляются. Информация об уровне миграций в населённых пунктах собирается в ходе экспедиционного обследования. Разработана специальная методика: каждому населённому пункту местными экспертами проставляется степень его «мигрантности» по пятибалльной шкале. Оценки обычно выставляют два эксперта, правила оценок стандартизованы, что, как мы надеемся, сводит к минимуму субъективный момент в определении уровня миграций. Программа выводит список населённых пунктов вместе с оценкой «мигрантности» и позволяет выбрать, какие из них необходимо исключить из анализа (пункты с высоким уровнем миграции).3. Исключение неинформативных фамилий.
Очевидно, что часть пришлых, «залётных» фамилий может встретиться и в тех населённых пунктах, где население в основном коренное. Поэтому мы исключаем фамилии, число носителей которых в изучаемом районе меньше заданного порога. Обычно мы пользуемся разработанным нами «демографическим» критерием: фамилия считается неинформативной, если она встречена менее чем у пяти человек в районе (см