Расчеты настораживали. Мы знали, что загрязнения могут замешаться и в набор данных, опубликованный в Nature,
и в библиотеки из Science, мы ведь отсылали экстракты в лаборатории, где не было необходимых стерильных условий нашей “чистой комнаты”. Также мы знали, что уровень загрязнений наверняка больше в данных по 454, если уж говорить о разнице в уровнях загрязнения двух наборов данных. Но при этом понимали, что в любом случае уровень загрязнений не может быть 70–80 процентов, потому что в основе расчетов Уолла лежало предположение о равном количестве Г и Ц в коротких и длинных фрагментах, а мы уже знали, что это предположение неверно.Пытаясь прояснить ситуацию, мы попросили Nature
опубликовать короткую заметку, а в ней указывали, что некоторые отличительные черты в наборах данных следует отнести за счет разницы в технологиях бактериального клонирования и секвенирования по 454. Кроме того, нелишне было бы вспомнить те дополнительные эксперименты по секвенированию, которые отражали крайне низкий уровень загрязнений. Но вдруг выяснилось, что кое-какие загрязнения были внесены в наши данные по 454, вероятно, из библиотек ДНК Джеймса Уотсона, которые как раз тогда и секвенировали. Так что в заметке мы ограничились высказыванием, что “уровень загрязнений может оказаться выше того, который определяется по мтДНК”. Но насколько выше, этого мы сказать не могли. Мы дали для читателей ссылку на статью Уолла и на ту, где мы описываем методику мечения библиотечных последовательностей, которая позволяет навсегда решить вопрос с загрязнениями вне наших “чистых комнат”. Еще дали ссылку на доступную базу данных геномных последовательностей, откуда любой желающий может взять данные и сам поразбираться с волнующими его вопросами. Я очень досадовал, когда после рецензирования Nature решил нашу заметку отклонить[56].Мы обсуждали, стоило ли публиковать ту статью в Nature,
не слишком ли мы поспешили. Не увлеклись ли соревнованием с Эдди? Может, стоило подождать? Некоторые говорили, что стоило, другие — что нет. Даже теперь, оглядываясь назад, я уверен, что тот прямой тест загрязнения по мтДНК не соврал, оно было очень низким. У анализа по мтДНК имеются свои ограничения, но, по-моему, прямые доказательства всегда перевешивают косвенные рассуждения. В той заметке, которую Nature так и не опубликовал, мы написали: “Никаких тестов на загрязнение по ядерной ДНК пока не существует, но чтобы получать надежные данные по древней ДНК, необходимо их разработать”. И в следующие несколько месяцев это стало главной темой наших пятничных собраний.Глава 14
Карта генома
Ну вот, необходимые библиотеки ДНК составлять мы научились, скоро команда из 454
запустит свои мощные машины и все прочитает. Так что можно браться за новую задачу: картирование. Нам предстояло найти для каждого короткого фрагмента неандертальской ДНК соответствие в эталонном геноме человека. Звучит просто, но на деле задача оказалась колоссально сложной, примерно как если бы вы складывали гигантскую головоломку, в которой часть кусочков потеряна, часть попорчена и еще множество попало в коробку из других наборов и поэтому не подходит вообще.Суть задачи по сортировке фрагментов состояла в том, что нужно было одновременно держать в голове две противоположных возможности. С одной стороны, если требовать абсолютно точного соответствия неандертальских и человеческих отрезков ДНК, то можно упустить или отбросить те, в которых имеются значимые отличия (или ошибки). И в результате неандертальский геном предстанет более похожим на человеческий, чем на самом деле. Но с другой стороны, если позволить слишком приблизительное соответствие, то в неандертальский геном попадут фрагменты бактериальных ДНК, которые иногда похожи на те или иные участки человеческой последовательности. В этом случае неандертальский геном будет слишком сильно отличаться от человеческого — больше, чем в реальности. Собственно, на том этапе можно было забыть обо всех остальных частностях и сосредоточиться на балансировании между этими двумя крайностями; от выбранного баланса зависел весь дальнейший анализ и подсчет различий между человеческим и неандертальским геномами.
Кроме того, была еще и практическая сторона дела. Компьютерные алгоритмы для картирования не могли учитывать слишком много параметров: мы ведь хотели сравнивать массивы в 3 миллиарда человеческих нуклеотидов с миллиардом неандертальских фрагментов по 30–70 нуклеотидов каждый (именно такое количество ДНК мы планировали секвенировать из костей). Программам с такими объемами быстро не справиться.