1994]. Мы рассчитали их в двух вариантах: 1) по всем маркёрам (0 Итак, рассмотрение разных оценок изменчивости генофондов основных регионов мира выявило, что устойчивость оценок FST
ТРЕБОВАНИЕ ТРЕТЬЕ: РЕПРЕЗЕНТАТИВНОСТЬ ВЫБОРКИ ГЕННЫХ МАРКЕРОВ
Это требование означает, что нельзя включать в анализ маркёры одного лишь типа — это может привести к смещению полученных оценок изменчивости.
Структура генофонда отражена в результатах его изучения с той или иной точностью. Но, как положено в естественных науках, два корректных исследования одного и того же параметра для одного и того же генофонда должны привести к одинаковым выводам. Конечно же, число генов, по изменчивости которых делается вывод об изменчивости всего генофонда, должно быть достаточно велико, но оно всегда намного меньше общего числа генов в геноме (и, соответственно, в генофонде). Поэтому обобщённая изменчивость в разных исследованиях может определяться по совершенно разным, не перекрывающимся множествам генов, но результаты этих исследований все равно должны совпасть.
Это и понятно, поскольку целью этих работ является не изучение изменчивости данного набора генов, а исследование закономерностей генофонда. И если сравнивается изменчивость двух разных типов генов в одном и том же ареале, то ожидаемым и естественным должно быть совпадение результатов. Если же результаты несходны, то это тревожный знак того, что, по крайней мере, одна из систем не дает оценку «обобщённого гена», по крайней мере, один из результатов неверен. Неверен в том смысле, что он не отражает общую структуру генофонда, хотя возможно, вполне удовлетворительно описывает изменчивость данного набора генов.
Это снова подводит нас к вопросу о том, сколько и каких конкретных генов надо включить в анализ, чтобы их совокупная изменчивость соответствовала изменчивости некоего «обобщённого гена», отражала изменчивость не конкретного набора генов, а генофонда в целом. Но прежде ещё раз подчеркнём, что характеристику генофонда можно получить по разным панелям генетических маркёров, и все эти оценки могут быть правильными и равноценными и, что наиболее существенно, они должны совпадать друг с другом.
Формулируя требования к репрезентативности выборки генов — по отношению ко всему геному — важно учитывать обе её стороны, количественную и качественную.
1) КОЛИЧЕСТВЕННЫЙ АСПЕКТ ФОРМИРОВАНИЯ ВЫБОРКИ — ЧИСЛО ГЕННЫХ МАРКЁРОВ В ДАННОЙ ПАНЕЛИ.
Разные авторы пришли к эмпирическому обобщению, что, как правило, выборка примерно из 20–30 локусов (или ≈50 аллелей) является достаточной для надёжной оценки FST
. При дальнейшем увеличении выборки средняя оценка FST практически не меняется [Bowcock et al., 1987; Айала, Кайгер, 1988; Cavalli-Sforza, Piazza, 1993]. Меньшая выборка генов тоже может давать корректные результаты, но необходима проверка её корректности. Меньшая выборка требует обязательного контроля её репрезентативности с помощью прямых оценок Fe (Рис. 4.4. Оценки селективно-нейтральной дифференциации генофондов FST
≈Fe для основных генофондов коренного населения ойкумены2) КАЧЕСТВЕННЫЙ СОСТАВ ВЫБОРКИ ГЕНОВ ИЗ ГЕНОМА — ЕЁ СЛУЧАЙНОСТЬ ПО ОТНОШЕНИЮ К ДЕЙСТВИЮ ЕСТЕСТВЕННОГО ОТБОРА.
Если в выборке будут преобладать гены, подверженные стабилизирующему отбору — средняя оценка FST
будет занижена. Если будут преобладать гены, на которые действует дифференцирующий отбор — средняя оценка FST будет завышена по сравнению с истинной, селективно-нейтральной дифференциацией генофонда. При этом важно знать, что некоторые типы маркёров — например генетико-биохимические маркёры (в отличие от иммунологических) [Балановская, 1998] или, тем более, гены наследственной патологии — всегда занижают среднюю оценку FST, поскольку для них преобладающим является стабилизирующий отбор.В разных разделах мы приводили целый ряд примеров высокой устойчивости FST
и выполнения равенства FST=Fe при использовании очень разных наборов классических маркёров. Адекватные выборки генов различаются столь сильно и по их размеру, и по их составу, что невозможно определить иное «правило» для их создания, чем случайность по отношению к эффектам отбора (что обычно обеспечивается включением в выборку самых разных типов классических маркёров). Более того, новые аутосомные маркёры не меняют картины: накапливающаяся информация по ДНК маркёрам указывает, что их средние FST близки к FST=Fe, определяемым по «классическим» маркёрам (см., например,Такая проверка была проведена, например, для генов, связанных с иммунным ответом, для системы HLA (human leukocytal antigen) [Евсеева, 2001]. Ряд тесно сцепленных локусов этой генетической системы обладает выраженным полиморфизмом: панель аллельных вариантов каждого локуса необычайно обширна, поскольку обеспечивает генетический контроль иммунного ответа. Одни и те же народы Крайнего Севера, представляющие три разных лингвистических семьи, были изучены как по панели аллелей HLA
(проверялось наличие 160 аллелей 6 локусов HLA-I и HLA-II классов), так и по панели классических маркёров (15 аллелей 5 локусов иммуно-биохимического полиморфизма). Каждый аллель HLA природой предназначен для ответа на запросы особой внешней среды. Поэтому можно было ожидать, что оценки дифференциации FST системы HLA — причём в экстремальных условиях Крайнего Севера! — будут чрезвычайно смещены (FST≠Fe) от селективно-нейтральных. Однако проверка показала, что — вопреки ожиданиям — средняя оценка дифференциации по системе аллелей HLA соответствует селективно-нейтральной дифференциации! Видимо, разнообразие факторов среды, на которые система HLA обеспечивает иммунный ответ, столь велико, что все разнонаправленные векторы компенсируют и взаимно «гасят» друг друга при расчёте средних оценок FST. В силу исключительного высокого полиморфизма система HLA дает устойчивую и объективную картину различий между генофондами.При рассмотрении русского генофонда мы учитывали характеристики генофонда ойкумены и генофондов коренного населения всех крупных историко-географических регионов мира. Поэтому кратко сравним их (
ОРГАНИЗАЦИЯ ДАННЫХ
Эти характеристики получены по репрезентативной выборке классических маркёров (49 аллелей 20 локусов) и с учетом иерархической структуры популяций — в каждом из регионов в качестве популяций выступают этносы. Всего по частотам генов в -50000 популяций были получены характеристики 5135 этносов, в среднем по каждому локусу изучено 257 народов мира. Для всех видов анализа и во всех генофондах выполнены единые требования: репрезентативность и единообразие выборки генов для всех генофондов; достаточный уровень полиморфизма; единый уровень анализа популяционной системы (этнический); единый исторический масштаб и целостность генофондов (историко-географический регион).
Организованный таким образом генофонд в наибольшей степени отвечает как требованиям, предъявляемым к объектам популяционно-генетического анализа, так и основным положениям и моделям теоретической популяционной генетики (в частности, предположению о стационарности генетического процесса).
Во-первых, генофонд ойкумены является сложно организованной популяционной системой самого высокого уровня и потому обладает наибольшей устойчивостью средних генных частот во времени. Во-вторых, этносы являются не только наиболее точно фиксированными и универсальными популяционными единицами, но и сами обладают высокой устойчивостью средних генных частот. В-третьих, историко-географические регионы — в отличие от чисто географических, политических, расовых, культурологических или конфессиональных подразделений — наиболее полно и комплексно отражают вехи в пространственно-временной эволюции генофонда Homo sapiens. Они не позволяют оставить за рамками анализа те группы населения, которые по демографическим параметрам или темпам социально-экономического развития находятся на периферии современности (поскольку вклад популяции в генофонд человечества не определяется её численностью и динамичностью на данном временном срезе).
Организация данных о коренном населении историко-географических регионов
Пояснения требуют лишь два момента.
Историко-географические регионы охватывают все коренное народонаселение ойкумены за исключением населения Северной Африки: им пришлось пожертвовать, поскольку его включение в регион, объединяющий народы Европы и Юго-Западной Азии, могло показаться слишком смелым решением — также, как и выделение его в отдельный регион Средиземноморья в целом (Северная Африка, Южная Европа, Ближний Восток); а объединение с населением «черной Африки» неверно по существу — по истории генофондов Северной Африки и Африки южнее Сахары.
Второй момент — объединение Европы и Юго-Западной Азии в один генофонд. Хотя все расчёты сначала были проведены и для каждого из этих регионов отдельно, однако их тесная связь на протяжении всей истории Homo sapiens (по крайней мере, последних 40 тысяч лет) столь ярко проявилась в особенностях их общего генофонда (самая низкая межпопуляционная изменчивость и самая высокая гетерозиготность), что дробить этот общий генофонд в угоду европоцентризму мы не стали. Дело в том, что генетические различия между народами Европы очень малы. Мы объединили народы европейской оконечности Евразии с народами Юго-Западной Азии, чтобы показать, что даже в этом случае эти различия остаются малыми.
Анализируется репрезентативная выборка генов (49 аллелей 20 локусов). Для анализа была использована сводка [Mourant et al., 1976]. В ней подведен итог тому этапу изучения генетики человека, когда реестр маркёров представлял собой достаточно случайную выборку из генофонда и потому мог служить надёжной основой для характеристики «обобщённого» гена. Население Северной Евразии в сводке практически не представлено и информация о нем взята из Банка данных «GENE POOL» (см. главу 3). Историко-географические регионы выделены согласно [Mourant et al., 1976; Брук, 1981]. На основе популяционных частот 49 аллелей мы рассчитали частоты для каждого из народов мира.
Основные характеристики генофондов мира сведены в
Сравнительные характеристики генетического разнообразия (Hj, HS
, FST), генетических расстояний (d) и корреляции селективной структуры (к) в иерархической популяционной системе ойкуменыГЕНЕТИЧЕСКИЕ РАССТОЯНИЯ «РЕГИОН — МИР»
Степень сходства по частотам генов между каждым из регионов с одной стороны и ойкуменой с другой стороны определена через генетические расстояния dРЕГ-МИР
(Рис. 4.5. Средние генетические расстояния dРЕГ-МИР
между генофондом каждого региона и мировым генофондом.ГЕНЕТИЧЕСКОЕ РАЗНООБРАЗИЕ
Для каждого генофонда рассчитаны (
Рис. 4.6. Внутрипопуляционное разнообразие HS
регионов мираДостоверно снижена гетерозиготность коренного населения Австралии и Америки (HS
<0.25).Уровень межэтнических различий FST
концентрирует в себе итоги микроэволюции генофонда, связанные с эффектами генных миграций и дрейфа генов: размах различий по FST между регионами во много раз выше, чем по HS и Нт (Население Северной Евразии характеризуется высоким уровнем всех показателей генетического разнообразия: по уровню общего разнообразия НT
этот генофонд занимает первое место в мире; по уровню гетерозиготности HS — второе; по уровню FST — третье место в мире.Рис. 4.7. Сходство селективной структуры генофонда каждого региона с мировым генофондом
Приведён показатель сходства k — коэффициент контингенции.
СЕЛЕКТИВНАЯ СТРУКТУРА
Направление и интенсивность отбора оценивались через отклонения FST(i)
от селективно-нейтрального уровня FST. Рассмотрен новый параметр генофонда — его селективная структура, в которой выделяются три класса генов. Класс «LOWER DIFF» включает гены, дифференциация которых достоверно ниже селективно-нейтральной: FST(i)Показано, что в разных генофондах одни и те же гены подвержены разным типам отбора.
Наименее устойчив класс «NEUTRAL
»: ни один из генов не оказался селективно-нейтральным во всех регионах мира. Генный состав класса «LOWER DIFF» в генофондах мира более стабилен, чем класса «SUPER DIFF».Степень сходства по селективной структуре в целом (коэффициент контингенции к) региональных генофондов с мировым позволяет распределить генофонды по степени близости к «общевидовому» ответу на давление среды (
При этом высокий уровень сходства отмечается не для какого-нибудь одного, а для всех классов селективной структуры: для LOWER DIFF
коэффициент связи k=0.6, для NEUTRAL k=0.5, для SUPER DIFF k=0.7.ИТОГИ. СЕВЕРНАЯ ЕВРАЗИЯ
Сведем воедино показатели, полученные с помощью трех основных инструментов — частот генов, их разнообразия и селективной структуры (
ИТОГИ. ЕВРОПА
Вопрос о том, каково генетическое разнообразие народов Западной Европы, обычно волнует всех.
В
Различия популяций в пределах этноса Зарубежной Европы оказались чрезвычайно малы: FПОП-ЭТН
=0.76±0.24. Средние генетические различия популяций в пределах коренного сибирского этноса очень велики: FПОП-ЭТН=404±0.98. Это означает, что гетерогенность сибирского этноса в пять раз выше, чем в Западной Европе.Обратим внимание, что эта величина почти в три раза меньше, чем приведённая в
Рассчитаем теперь генетические различия не внутри этноса, а между народами Западной Европы — может быть, они окажутся велики? Нет, генетические различия между теми же народами Западной Европы столь же малы и составили всего лишь FЭТН-РЕГ
=0.87.Теперь мы можем рассчитать, каковы же генетические различия между всеми популяциями всех народов Западной Европы. Этот общий размах межпопуляционных различий для Европы составил, FПОП-РЕГ
=FПОП-ЭТН+FЭТН-РЕГ=0.76+0.87=1.71. Таким образом, оказывается, что всегенетические различия всего населения Западной Европы (FПОП-РЕГ=1.71) в два раза меньше, чем гетерогенность (FПОП-ЭТН=4.04) лишь одного «среднего» коренного народа Сибири!Таким, образом, генетические различия всех элементарных популяций всей Зарубежной Европы — от португальцев до лопарей и от исландцев до греков — достигают лишь чрезвычайно низкого уровня. В генетическом масштабе населения не только ойкумены, но и всех иных регионов мира, европейский мир предстает генетически гомогенным. Наши исследования ([Рычков, Ящук (Балановская), 1983; Балановская, 1998]) показывают, что эта гомогенность возникает не на последних этапах развития европейской цивилизации, а свойственна этому региону практически на всем протяжении его, в том числе и не писаной, истории.
Но в данном контексте важно установить сам уровень генетических различий популяций Европы, являющийся итогом особенностей её исторического развития. Важно и то, что эти результаты получены по классическим маркёрам четверть века назад. Эти результаты позволяли прогнозировать и столь же низкое генетическое разнообразие народов Западной Европы по маркёрам митохондриальной ДНК. Широко развернувшиеся в последние годы исследования мтДНК народов Европы показали удивляющую многих гомогенность населения Западной Европы (
Большинства — но, к счастью, не всех. Высокая изменчивость гаплогрупп Y хромосомы — как в пределах Европы, так и в пределах русского народа [Balanovsky et al., in print] — служит важным исключением. Оно не просто подтверждает правило, но и обнаруживает «исключительный» маркёр, помогающий дифференцировать потоки миграций, анализировать географическую и этноисторическую изменчивость населения Европы. Правда, необходимо ещё оценить степень изменчивости Y хромосомы в других регионах мира — не окажется ли, что там она ещё выше, и Европа тогда и по этому маркёру сохранит положение гомогенного региона (в сравнении с другими регионами).
Знание как основных «правил» изменчивости каждого регионального генофонда, так и редких «исключений», позволяет планировать генетическое исследование так, чтобы дать и полноценную характеристику генофонда в целом, и проследить отдельные его своеобразные черты. В этом и состоит идеология изучения генофонда с помощью множества «очевидцев».
В этом разделе мы не станем писать подробную историю геногеографии — такая задача потребовала бы отдельной книги и специального исследования. Это задача скорее для историков науки, а наше видение, конечно же, субъективно. Но все же и наши сведения имеет смысл привести — наравне с иными свидетельствами они помогут восстановить истинную картину. К тому же мы лишь наметим основные вехи развития нашей науки — в том свете, как они видятся авторам. Причём опишем их далеко не всегда в хронологическом порядке, а следуя логике развития науки. Для удобства чтения назовём эти вехи по именам ученых, внесших решающий вклад на поворотных этапах геногеографии, а для современного этапа будем считать такими вехами разработку того или иного геногеографического метода.
А. С. СЕРЕБРОВСКИЙ
Возникновение и термина «геногеография», и самой идеи чтения истории популяций в книге пространственного распространения генов связаны с именем Александра Сергеевича Серебровского.
В этой книге мы уже не раз упоминали его имя как основателя геногеографии. Поэтому сейчас приведём только один пример элегантности его работ: едва ли не первым геногеографическим исследованием было изучение истории народов Дагестана по географической изменчивости морфологических признаков у домашних кур, которых разводили эти народы. Действительно, большая или меньшая изоляция популяций человека друг от друга приводит и к соответствующим различиям между популяциями домашней птицы, тесно связанными с популяциями человека. А для кур во времена Серебровского было известно уже немало фенотипических признаков, которые могли служить хорошими генетическими маркёрами [Моисеева и др., 2003]. Для популяций человека таких маркёров почти не было. Но сходство или различия между популяциями кур того или иного ущелья можно было использовать как свидетельства сходства или различий между популяциями их хозяев.
Серебровскому принадлежит и понятие генофонда, и мысль о том, что геногеография является наукой исторической, призванной изучать историю генофонда.
Ф. Г. ДОБРЖАНСКИЙ
Эти идеи, как и многие другие достижения российской генетики, были перенесены в англоязычную науку Феодосием Григорьевичем Добржанским — известным российским генетиком, который с конца 20х
годов работал в США и оказал огромное влияние на зарубежные генетические и эволюционные научные школы [Dobzhansky, 1937 и др.]. Русскоязычный термин «генофонд» превратился благодаря Добржанскому в «gene pool», аналогично на американском континенте была интродуцирована и геногеография (gene geography). Правда, представление о сложности генофонда при этом значительно потускнело (pool — нечто бесструктурное). Что же касается интродуцированной геногеографии, то она стала соответствовать тому, что мы сейчас называем частной геногеографией — то есть изучению географического распространения отдельных генов. Нужно ли говорить, что при этом исчезла сама тема геногеографического изучения не генов, а генофонда. Затерялось и представление о геногеографии как о науке исторической — термин «gene geography» стал ассоциироваться скорее с изучением медицинских следствий из закономерностей распространения гена, чем с изучением истории народов. Мы перечислили эти особенности зарубежного восприятия геногеографии, чтобы ярче подчеркнуть те черты этой науки, которые особенно важны для отечественной традиции.Т. Д. ЛЫСЕНКО
Об этом имени и о сессии ВАСХНИЛ 1948 года написано много. Мы лишь напомним, что после признания генетики лженаукой в СССР начались гонения на генетику и генетиков, включая и геногеографию.
Е. М. ЧЕПУРКОВСКИЙ
Однако геногеографический или очень близкий к нему по духу подход сохранялся в среде антропологии, которая, хотя и ценой больших жертв, избежала участи генетики (см. об этом в
В. В. БУНАК
Вторым мостом, связывающим антропологию с геногеографией, было отношение к генам как к новым антропологическим признакам. Антропогенетика (по сути, та же геногеография) длительное время была частью антропологии, и ведущие антропологии возлагали большие надежды на использование этих новых признаков («кровяных групп») — ведь они лишены многих недостатков, свойственных «обычным» антропологическим признакам.
Главным достоинством генетических признаков в глазах антропологов было то, что они проявляются независимо от окружающей среды: у ребенка будет та группа крови, которую он унаследовал от родителей, независимо от того в каких условиях ребенок рос. А для многих антропологических признаков на генетическую, унаследованную составляющую, накладывается влияние условий жизни индивидуума и всей популяции. Достоинством была и «дискретность» генетических признаков — за них отвечал один ген, а не совокупность генов, как для антропологических признаков.
Поэтому таким разочарованием проникнута работа ведущего антрополога Виктора Валерьяновича Бунака [Бунак, 1969]. Ее основной вывод — в «полиареальности», то есть мозаичном, а не закономерном распределении частот генов по ареалу.
Это ведь сейчас мы знаем, что распределение генов в действительности подчиняется строгим закономерностям — но чтобы их выявить, нам необходимо проанализировать десятки генов. А в распоряжении антропологов того времени было, по сути, только две генетические системы — группы крови АВ0 и резус, поэтому и был получен результат «по-лиареального» распределения генов.
Г Ф. ДЕБЕЦ
Столь глубокая внутренняя связь антропологии и геногеографии и была причиной того, что после снятия в нашей стране запрета на генетику геногеография возродилась из антропологических недр. Это второе рождение геногеографии связано с именем Юрия Григорьевича Рычкова, а связующим звеном, пронесшим мечту о настоящей генетической антропологии через десятилетия запрета на генетику, был его учитель, ведущий антрополог советской школы Георгий Францевич Дебец. По словам Юрия Григорьевича, мечтой и целью Дебеца было создание со временем подробного атласа распространения генетических признаков в населении нашей страны. И когда эта работа стала возможной (как по политическим, так и по техническим условиям), она была начата под руководством Ю. Г. Рычкова.
Ю. Г. РЫЧКОВ
С именем Юрия Григорьевича связаны широкомасштабные исследования генофонда народов СССР, которые проводились в рамках генетико-антропологической экспедиции не только в Сибири, но и во многих других регионах СССР. Но главное — именно благодаря Ю. Г. Рычкову началось возрождение геногеографии как науки. Для реализации мечты Г. Ф. Дебеца о геногеографическом атласе первым необходимым шагом было сведение воедино всех опубликованных и архивных данных о частотах генетических систем в популяциях СССР. Эта огромная работа была начата для населения Сибири Н. А. Таусик, завершала эту работу Е. В. Ящук (Балановская). На этом этапе первоочередным стал вопрос, который ставил ещё Г. Ф. Дебец — вопрос об организации данных для картографирования на популяционном или же. на этническом уровне.
Для большинства антропологов естественно является анализировать (и картографировать) популяционные данные как они есть — то есть использовать имеющиеся значения признака для каждой изученной популяции и наносить на карту эти значения в точки, занимаемые популяциями. Альтернативный подход — усреднить значения во всех изученных популяциях данного народа и наносить на карту именно усреднённое, этническое значение признака, помещая его в исторический или географический центр этнического ареала. Для антропологических признаков обычно пользуются популяционными данными, но для генетических признаков был весомый аргумент в пользу картографирования этнических данных. Этот аргумент состоял в ограниченном объёме, в нехватке генетических данных для сплошного популяционного картографирования. Нехватка данных усугублялась тем, что большинство популяций были изучены по немногим генам, и наборы этих генов для каждой популяции различались (программа признаков, изучаемых антропологами, стандартизована в значительно большей мере). Поэтому наиболее объективную генофонда картину можно было создать именно на этническом уровне.
АНАЛИЗ GST
В ПОПУЛЯЦИОННЫХ СИСТЕМАХ: ЭКВИДИСТАНТНОСТЬНо прежде, чем использовать вместо частот в локальных популяциях среднеэтнические частоты генов, необходимо было понять, не потеряется ли основная часть изменчивости при таком переходе от популяционных к этническим частотам? В более общем виде — какие закономерности связывают эти характеристики? Прекрасно разработанный в популяционной генетике аппарат анализа межпопуляционной изменчивости в иерархических системах популяций был применён к генетическим данным о народонаселении Сибири, а затем Западной Европы и Америки. Причём рассматривались не двууровневые системы («локальные популяции» и «этносы»), а многоуровневые системы (добавляя над уровнем «этносы» уровни «лингвистические группы» и «лингвистические семьи» при лингвистической классификации или иные объединения этносов при этно-конфессиональной, антропологической и этнографической классификациях народов) [Рычков, Ящук (Балановская), 1980, 1983, 1986].
Результатом этих работ стало открытие принципа эквидистантности (равноудалённости) разных уровней популяционной системы: изменчивость популяций в пределах этноса была равной изменчивости этносов в пределах лингвистической группы, и межпопуляционная изменчивость средних частот аллелей в лингвистических группах, относящихся к одной лингвистической семье, равнялась все той же величине. Эквидистантность оказалась характерна не только для всех изученных популяционных систем человека (коренное население Сибири, Америки и Европы) [Рычков, Ящук (Балановская), 1984], но и для других видов организмов [Алтухов, 2003]. Была предложена (и доказана её справедливость) популяционно-генетическая модель скачкообразного роста популяционной системы, состоящего в распаде единой прапопуляции на дочерние, которые, в свою очередь, со временем распадаются на популяции следующего, низшего уровня. И при росте популяционной системы на один уровень, генетическое разнообразие популяций увеличивается на одну и ту же величину («квант»), что и приводит к феномену эквидистантности всех уровней системы [Рычков, Ящук (Балановская), 1985].
Феномен эквидистантности позволил дать и общий ответ на вопрос — можно ли строить карты по среднеэтническим частотам генов? Стало ясно, что в зависимости от масштаба, от ранга популяционной системы мы теряем при этом лишь около трети или четверти информации, но приобретаем устойчивость оценок. Этим открывалась возможность создания картографического атласа генофонда СССР.
Разработанная тогда методология анализа межпопуляционной изменчивости широко используется в геногеографии и сейчас. Уровень межпопуляционной изменчивости является универсальным и весьма информативным показателем при характеристике любого этнического или регионального генофонда. Для генофондов крупных регионов методология применяется уже в полную силу — с анализом изменчивости на разных уровнях популяционной системы и с обязательным использованием феномена эквидистантности. Примером может служить изучение генофонда Кавказа [Балановская и др., 1999; см. также
ПЕРВЫЕ КАРТОГРАФИЧЕСКИЕ ТЕХНОЛОГИИ
Несмотря на успехи, достигнутые при чисто статистическом анализе генофондов, целью отечественной геногеографической школы оставалось создание крупных картографических атласов. При наличии исходных данных вопрос упирался в метод построения карт, который должен был быть, во-первых, объективным (воспроизводимым в руках разных исследователей), а во-вторых, обеспечивать «непрерывное» картографирование (расчёт ожидаемого значения частоты гена для каждой точки карты, даже вдалеке от непосредственно изученных популяций). Выбор метода интерполяции — способа расчёта ожидаемого значения из данных по опорным точкам — стал главной задачей. Поскольку интерполяционное картографирование необычайно трудоёмко и требует значительных вычислений, этот метод с самого начала задумывался как компьютерный. Однако на каждом этапе карты строились также и вручную — это позволяло параллельно развивать теоретические подходы к картографированию. В течение нескольких лет были созданы три разных компьютерных метода — триангуляционный, «чернильных пятен» и средневзвешенной интерполяции — и созданы соответственно три разных картографических технологии. Опишем их предельно кратко и образно.
Триангуляционный метод разрабатывался совместно с сотрудниками кафедры биофизики МГУ А. Т. Терехиным и Е. В. Будиловой. Он основывается на соединении всех изученных популяций линиями, формирующими густую нерегулярную сеть треугольников, и вдоль этих линий вычисляются градиенты частоты гена. В результате из множества треугольников рождается визуальная карта распространения гена. К сожалению, у этого метода серьёзное ограничение — значение признака рассчитывалось для областей, и эти области менялись от карты к карте. Нельзя было рассчитать точные значения частоты гена для каждой точки карты. Исследователь видит результирующую карту, но не может получить числовую матрицу, лежащую в её основе. А значит, и не может дальше делать с картой любые статистические преобразования, не может превращать одну карту в другую или по совокупности исходных карт создать синтетическую карту.
Поэтому следующим методом в геногеографии стала технология, созданная совместно с А. В. Рычковым. Ее образно можно назвать «технология чернильных пятен». Каждая изученная популяция представлялась в виде небольшого «пятна» с заданной интенсивностью цвета, соответствующей частоте гена. Начинался итерационный процесс, на каждом шаге которого каждое пятно, видимое на экране компьютера, расширялось на один пиксель. На каком-то этапе соседние пятна (происходящие из соседних изученных популяций) начинали сливаться, и тогда зона «контакта популяций» окрашивалась в промежуточный цвет или же в серию переходов промежуточных цветов, если популяции различались друг от друга более чем на один интервал шкалы. Полным завершением этого процесса было бы полное слияние всех пятен друг с другом, когда вся карта представлялась равномерным серым пятном — все генетические различия полностью нивелировались! Поэтому главным вопросом при использовании этой технологии был выбор — на каком шаге итерации следует остановиться, чтобы популяции успели «провзаимодействовать», но не стали бы полностью идентичными. Этот вопрос решался по анализу дисперсии на каждой итерации: дисперсия, изначально очень большая, постепенно снижалась и выходила на плато. Именно этот момент и был сигналом к остановке итерационной процедуры и рассмотрению полученной карты.
Как можно видеть, такой метод по сравнению с триангуляционным обладает тем преимуществом, что позволяет рассчитать значения для каждой точки карты. Этот метод был использован для первого геногеографического атласа, созданного для населения Монголии [Балановская и др., 1990]. Однако дальнейшее развитие геногеографии оказалось связанным с иным, третьим методом, который также позволял получить числовые значения для каждой точки карты, но обладал и рядом дополнительных преимуществ. А главное — субъективные факторы (как, например, остановка на той или иной итерации) были сведены к минимуму.
ТЕХНОЛОГИЯ НА ОСНОВЕ СРЕДНЕВЗЕЩЕННОИ ИНТЕРПОЛЯЦИИ
Ведущая роль в создании этой технологии принадлежит картографической группе кафедры картографии МГУ под руководством С. М. Кошеля. Наша совместная работа является замечательным примером долгого и плодотворного сотрудничества профессиональных картографов и геногео-графов. Еще до встречи с генетиками группа С. М. Кошеля широко использовала картографический пакет MAG и разработала оригинальную программу Metacopy для визуализации карт. Привнесение генетической методологии значительно изменило ситуацию. Программный пакет превратился в GG MAG (GG обозначает геногеографию — Gene Geography) и приобрёл множество функций, специально нацеленных на анализ генетических данных: начиная от использования данных в нерегулярно расположенных опорных точках (поскольку генетические данные именно таковы) до внедрения в пакет широких возможностей математических и статистических операций с картами. Пакет GGMAG прошёл длительную эволюцию, и в настоящий момент используется его последняя, четвёртая версия с некоторыми оригинальными добавлениями.
Подробное описание самой технологии приводилось в
КАРТЫ. ПОСТРОЕННЫЕ ВРУЧНУЮ
Хотя магистральной линией было создание компьютерной геногеографии, на разных этапах множество карт было построено и вручную. С компьютерными картами их роднило всё — и непрерывность картографирования (значения для каждого узла равномерной сетки карты), и использование математического расчёта, а не научной интуиции при выборе картографируемого значения, при этом сам алгоритм вычислений мог быть самым разным. «Ручные» карты, сыгравшие наибольшую роль в истории геногеографии — это карты антропологических признаков в русских популяциях. Эта работа была специально задумана как проверка картографического метода — предполагалось, что если эти новые методы чего-то стоят, то они должны выявить новое даже в наиболее полных и прекрасно разработанных данных. А наиболее полными были данные по антропологии русского народа, собранные Русской антропологической экспедицией. Результаты этого геногеографического анализа антропологических данных описаны в
БАНКИ ДАННЫХ
Наряду с картографической технологией и статистическими методами важное место в геногеографии занимают банки данных. Дело в том, что объём данных, которые используются даже не в слишком масштабном геногеографическом исследовании, огромен, а сами исходные данные обычно рассеяны во множестве статей.
Представьте себе анализ даже такого сравнительно небольшого, хотя и гетерогенного региона, как Кавказ. Пусть Вам необходимо проанализировать данные только по классическим маркёрам. Однако подобные данные получали и публиковали самые разные авторы — от медицинских исследований групп крови АВ0
и резус, до работ по многим системам, выполненными в московских и кавказских генетических лабораториях. Некоторые данные по Кавказу публиковались и зарубежными авторами. Библиография данных о Кавказе насчитывает многие десятки наименований, и далеко не все эти статьи легко доступны, а многие из них даже неизвестны большинству исследователей. Итак, тому, кто решит провести геногеографическое изучение Кавказа, предстоит провести сперва большую работу по сбору и систематизации данных о частотах генов, опубликованных за несколько десятилетий. Если же представить, сколько разных генофондов было изучено геногеографами, и вообразить, какой объём предварительной работы требуется, к примеру, для анализа в масштабе СССР, то задача сбора и систематизации опубликованных генетических данных предстанет во всем своем величии и неприступности.Кардинальное решение этой задачи может быть только одно — собрать ВСЕ когда-либо опубликованные данные по частотам генов в ЕДИНОЕ хранилище. И при анализе любого генофонда лишь обращаться в хранилище и брать готовые систематизированные данные по частотам генов в популяциях интересующего региона.
Именно таким хранилищем и стал банк данных «GENEPOOL», разработанный под руководством одного из авторов этой книги. В банк данных вводилась практически вся доступная информация по частотам классических маркёров в популяциях Северной Евразии, а отчасти и по другим регионам мира. Впоследствии банк был пополнен и данными по аутосомным ДНК маркёрам. Структурная организация банка и запрограммированные функции делают его не только хранилищем данных, но и инструментом их проверки, систематизации и анализа. Аналогичный банк данных создавался и зарубежной геногеографической школой Кавалли-Сфорца. Он содержит информацию по остальным регионам мира (кроме Северной Евразии, представленной весьма скудно), хотя запрограммированные возможности этого банка не столь обширны.
Отечественной геногеографической школой создавался и ряд других банков данных: «ПАЛЕОЛИТ РОССИИ», база данных о русских фамилиях, банк данных по митохондриальной ДНК в населении мира и банк данных «РУССКИЙ ГЕНОФОНД» кратко описаны в
ЦЕЛЬ — СИНТЕТИЧЕСКИЕ КАРТЫ
Использование банка данных является первым необходимым шагом при картографическом анализе любого гена. Но на всех этапах разработки картографической технологии главной целью оставалось картографирование не отдельных генов, а извлечение из карт отдельных генов общей информации о генофонде. Общепринятым методом обобщения тогда был (и остаётся доныне) анализ главных компонент. Этот статистический метод позволяет в изменчивости множества признаков выделить основные тенденции и представить их в изменчивости немногих новых условных признаков — главных компонент. Это метод чисто статистический, но чтобы сделать его картографическим, нужно, казалось бы, совсем немного — рассчитать значения главных компонент для каждой популяции и нанести их на карту.
Сложность заключается в том, что разные гены изучены в разных популяциях, а для расчёта главных компонент необходимы данные о значении каждого гена в каждой популяции. Решить эту проблему можно было лишь с помощью карт, основанных на цифровых матрицах. Ведь для таких карт мы имеем значение признака в каждой точке карты. А для другого признака — опять-таки знаем его значение в каждой из тех же самых точек. Таким образом, расчёт главных компонент проводится не по исходным данным, а по картам. Точнее, по картографированным (интерполированным) значениям в каждой точке карты (каждом узле регулярной сетки карты). Карты главных компонент строились и технологией «чернильных пятен». Но когда была создана технология картографирования на основе средневзвешенной интерполяции, и был разработан алгоритм проведения с цифровой матрицей математических операций, то создание карт главных компонент в отечественной геногеографической школе стало обычной и широко используемой процедурой.
Каково же было удивление, когда на этом этапе обнаружилось, что в зарубежных статьях (к тому же не в самых последних, а давностью в несколько лет) уже опубликованы карты главных компонент генофонда! Впрочем, изумление перед этим фактом быстро сменилось сознанием того, что такое совпадение подтверждает правильность избранного пути, а также ту огромную востребованность в геногеографии общих параметров генофонда, которая назрела в мировой науке.
Очевидно, именно такой была общая логика развития популяционной генетики в 70е
и 80е годы, как за рубежом, так и в нашей стране: 1) необходимо обобщить данные о многих генах; 2) был общепринятый метод обобщения — главные компоненты; 3) для содержательной интерпретации результатов нужно было знать географию главных компонент, то есть построить для них карты; 4) для расчёта необходимы данные по каждому признаку в каждой точке карты; 5) получить такие данные возможно только при картографировании каждого признака, причём самым главным результатом картографирования должна быть не сама графическая карта, а лежащая в её основе матрица точных значений признака в каждом узле карты.Самое забавное, что вместо разочарования и глубокого огорчения, что приоритет синтетических карт остался закреплён не за нами, основным чувством была радость
— нам стало намного проще объяснять, сколь необходимы геногеография и компьютерные картографические технологии. Если до этого солидные члены солидного Ученого совета заявляли, что подобные нашим контурные карты они рисовали в пятом классе, и нечего заниматься такими пустяками в Академии наук, то теперь авторитет «заграничных» исследований и популярность синтетических карт в мировой науке позволила нам развернуть куда более обширную работу и у нас в России.
CAVALLI-SFORZA И ЕГО ШКОЛА
Публикации карт главных компонент, о которых мы только что рассказали, принадлежали коллективу, который возглавлял Луиджи Лука Кавалли-Сфорца. Сразу оговоримся, что с историей зарубежной геногеографии авторы знакомы существенно меньше, чем с историей отечественной науки. Поэтому очертим её лишь несколькими штрихами и назовём только два имени.
Первое из них принадлежит А. Е. Mourent, организатору и автору крупнейшей сводки данных о частотах генов в населении мира [Mourent et al., 1976]. Этот прекрасный труд сыграл огромную роль для развития геногеографии. На страницах этой книги были сведены данные, кропотливо собранные из сотен публикаций разных лет, причём для каждой изученной популяции приводились подробные сведения о её географическом положении, отнесении к основным регионам мира, характере выборке (пациенты, здоровые, военнослужащие, коренное или «смешанное» население), а также подробная библиографическая ссылка на исходную публикацию этих данных. Для самых изученных генов были приведены и карты их распространения в мире. По сути, этот труд явился прообразом банка данных о генофонде популяций всего мира, а по полноте и объёму данных по классическим маркёрам он не утратил своего значения и сейчас.
Второе имя хорошо известно каждому, кто хотя бы бегло знаком с работами по популяционной генетике человека. Лаборатория и научная школа L. L. Cavalli-Sforza являются, пожалуй, наиболее известными в мировой науке. Этим коллективом выполнен целый ряд ставших классическими работ: по совершенствованию методов расчёта генетических расстояний, построению кластеров родства популяций, анализу фамилий как аналога генетических маркёров и множество иных исследований. Именно перу Кавалли-Сфорца принадлежит крупнейшая обобщающая монография в области популяционной генетики человека [Cavalli-Sforza et al., 1994]. Для нашего рассказа наиболее важно, что именно этим коллективом была независимо разработана картографическая технология, в общих чертах аналогичная технологии, созданной отечественной геногеографической школой. Именно эта технология легла в основу названного обобщающего труда, в котором не только приведены геногеографические карты для регионов всего мира, но и дано тщательное описание их генофондов.
Главным и важнейшим инструментом для школы Кавалли-Сфорца являются карты главных компонент («синтетические карты» в его терминологии). Каждая из карт интерпретируется как отражение одного из исторических сценариев, сформировавших генофонд популяции, причём предполагается, что более значимые компоненты описывают хронологически более ранние этапы формирования генофонда.
СОВРЕМЕННАЯ ОТЕЧЕСТВЕННАЯ ГЕНОГЕОГРАФИЯ
В своих важнейших чертах отечественная геногеографическая школа перекликается с только что описанной зарубежной. Это, во-первых, нацеленность на изучение не частной геногеографии отдельных генов, а общих черт строения генофонда. Во-вторых, это широкое использование компьютерных карт, и в первую очередь обобщённых карт (например, главных компонент). В-третьих, применение всего комплекса остальных (не картографических) популяционно-генетических методов для целей геногеографии — выявления объективных закономерностей в структуре генофонда.
Особенностью же отечественной школы является в первую очередь наличие развитой и широко разветвлённой картографической технологии [Балановская и др., 1994а, 19946, 1995, 1997]. В
Еще одной особенностью отечественной школы можно считать анализ не только исторической (селективно-нейтральной) изменчивости генофонда, но и выявление действия естественного отбора на конкретные гены. Выше рассказывалось об анализе межпопуляционной изменчивости в генофондах разных регионов и выявленном при этом феномене эквидистантности. Такие устойчивые показатели межпопуляционной изменчивости получаются при усреднении величин изменчивости, характерных для большого числа изученных генов. При этом изменчивость каждого отдельного гена может отличаться от среднего, селективно-нейтрального уровня. И единственной причиной, которая может вызвать достоверные отклонения изменчивости данного гена от средней, является действие естественного отбора на этот ген. Если изменчивость данного гена снижена, можно предполагать действие стабилизирующего отбора. Указанием же на дифференцирующий отбор является ситуация, когда изменчивость рассматриваемого гена оказывается достоверно выше средней изменчивости всей совокупности изученных генов. Именно на этом основана технология выявлении эффектов отбора, опубликованная в работах [Рычков, Балановская, 1990а; Балановская, Нурбаев, 1997, 1998а, 19986, 1998в, 1999].
Итак, мы вкратце описали основные вехи развития геногеографии — от работ А. С. Серебровского до формирования современной геногеографической технологии, позволяющей проводить всесторонний анализ пространственной изменчивости как отдельных генов, так и генофондов. Подводя общий итог, можно выделить три основные группы методов современной геногеографии:
1) анализ межпопуляционной изменчивости при иерархической организации изучаемых популяций (анализ средней FST
);2) анализ селективной структуры (выявление действия естественного отбора на отдельные гены по отклонениям от средней FST
);3) картографические методы (анализ пространственной структуры генофонда с помощью интерполяционных карт).
РАЗНЫЕ ГЕНОФОНДЫ. РАЗНЫЕ ПРИЗНАКИ
Рассказывая об истории нашей науки, мы говорили больше об истории идей — истории разработки тех или иных геногеографических методов. И это оправдано, потому что именно наличие мощного метода является главнейшим условием для надёжных исследований конкретных генофондов. Более того, именно разработка методов всегда была стимулом для разработки теоретических вопросов геногеографии. Но неверно думать, что её история сводится лишь к разработке методов. Намного более многочисленны — столь многочисленны, что здесь невозможно перечислить даже главнейшие из них — были исследования конкретных генофондов или конкретных генов.
Чтобы дать хотя бы общее представление о масштабе и количестве выполненных геногеографических работ, перечислим некоторые из изученных нами генофондов. Из геногеографически изученных генофондов отдельных народов следует назвать адыгов, башкир, белорусов, марийцев, монголов, осетин, русских, украинцев. Из региональных генофондов — Кавказ, Восточную Европу, всю Европу, Уральский регион, Сибирь, Северную Евразию, Старый Свет (Евразия и Северная Африка). Также изучались генофонды всех основных регионов мира (см.
Разнообразие признаков, изучаемых геногеографией, ещё ярче, чем разнообразие изученных ею генофондов. Если изначально геногеография мыслилась как наука о географии генов, то сейчас перечень используемых для описания генофонда маркёров намного шире. Это, во-первых, антропологические признаки (соматология, дерматоглифика, одонтология). Во-вторых, данные археологии. Одно из важнейших геногеографических исследований — генофонда палеолита — выполнено не на данных о частотах генов, а на данных о признаках материальной культуры (орудия, искусство, жилища) и фауны разных этапов палеолитической эпохи. В-третьих, в современной геногеографии широко используется анализ квазигенетических маркёров, в первую очередь фамилий. Время от времени геногеографические технологии применяются и для признаков, вовсе далёких от генетики, таких как заболеваемость, техногенная напряжённость среды, гормональный статус или показатели антропологического развития детей. Правда, в этих случаях решаются не столько популяционные, геногеографические задачи, сколько геногеографические технологии используются для решения задач смежных наук. Но конечно, большинство геногеографических исследований проводились на основе данных о частотах генетических маркёров, причём всех их типов: и классических, и аутосомных гипервариабельных ДНК маркёров, и инсерционно-делеционного ДНК полиморфизма, и маркёров митохондриальной ДНК, и гаплогрупп Y хромосомы.