Несколько человек взялись за монументальную задачу по составлению алгоритма картирования: Эд Грин, Дженет Келсо и Удо Штенцель. Дженет приехала к нам в лабораторию в 2004 году из Университета Западно-Капской провинции в своей родной ЮАР и возглавила у нас группу биоинформатики. Как-то незаметно, но очень эффективно из самых разных и необычных личностей она создала целостную сплоченную команду. Взять, например, Удо: немного мизантроп, убежден, что большинство тех, кто выше его в академической должностной иерархии, — спесивые дураки. Удо бросил университет, так и не получив диплом по информатике. И тем не менее, когда дело касалось программирования и умения логически мыслить, большинство его учителей не шли с ним ни в какое сравнение. Нам повезло, что он нашел неандертальский проект достойным своего внимания, хотя временами он сводил меня с ума своей абсолютной убежденностью в непогрешимости собственных знаний. Честно говоря, если бы не Дженет, я бы с ним, скорее всего, не сработался.
Все работы по картированию полученных фрагментов, по сути, координировал Эд, чей собственный проект по сплайсингу РНК тихо и незаметно скончался. Вместе с Удо они разработали алгоритм картирования, который учитывал закономерности появления ошибок в последовательностях неандертальских ДНК. Эти закономерности, в свою очередь, определяли Эдриан с Филипом Джонсоном, талантливейшим студентом из группы Монти Слаткина из Беркли. Они-то и выяснили, что ошибки располагались в основном на концах фрагментов ДНК. Дело в том, что, когда молекула ДНК рвется, получаются две неравных по длине нити, и у той, что длиннее, конец торчит, становясь уязвимым для химических атак. Эдриан провел тщательный анализ и понял, что ошибки происходят из-за отщепления молекул азота от цитозинов, а не от аденинов, как мы ошибочно посчитали годом раньше. Даже больше: если Ц стоит на самом конце цепочки, то риск появления его в наших последовательностях в виде Т оценивается в 20–30 процентов.
Эд по-хитрому сумел включить в алгоритм эту Эдрианову закономерность: вероятность ошибок в зависимости от позиции нуклеотида в отрезке последовательности. Например, если неандертальская молекула имела Т на конце, а человеческий геном — Ц, то это считалось как точное соответствие, так как вероятность ошибки “отщепление и замена Ц на Т” очень часто встречается. И напротив, Ц на конце неандертальской молекулы и Т — человеческой считалось как полное несовпадение. Теперь мы не сомневались: алгоритм Эда значительно снизит уровень ложного наложения фрагментов и увеличит, соответственно, уровень корректных попаданий.
Дальше нам предстояло решить, какой из человеческих геномов выбрать для сравнения с неандертальским. Мы хотели понять — и это было одной из целей наших исследований, — будет ли генная последовательность неандертальцев ближе к европейскому человеку или к людям из других частей света. Ведь если мы составим карту фрагментов неандертальского генома относительно европейского варианта (а примерно половина эталонного генома принадлежит индивиду европейского происхождения, как известно)[57]
, то фрагменты, совпадающие с европейским геномом, останутся, тогда как те, что больше напоминают африканские геномы, отсеются. И тогда в результате мы получим геном неандертальца, слишком сильно похожий на европейский, что будет неверно. Понятно, что для сравнения нужно что-то нейтральное, и мы остановились на геноме шимпанзе. У неандертальцев, людей и шимпанзе был общий предок, и жил он, скорее всего, в промежутке от 4 до 7 миллионов лет назад. Это означало, что геном шимпанзе отличается и от человеческого, и от неандертальского. Мы также составили карту фрагментов неандертальской ДНК относительно гипотетического генома общего предка гоминидов и шимпанзе; этот геном разрабатывали в других лабораториях. После того как мы произведем картирование по геномам нашего общего отдаленного предка, фрагменты неандертальской ДНК можно будет сравнить с соответствующими последовательностями современных человеческих геномов из разных частей света. И тогда появится смысл обсуждать найденные различия, не опасаясь ошибок неверного начального выбора.Все это вместе требовало значительных компьютерных мощностей, и, к счастью, Общество Макса Планка поддерживало нас безотказно. Специально для нашего проекта общество выделило блок из 256 мощных аппаратов в компьютерном центре в Южной Германии. Но даже с таким оборудованием обработка данных, прочтенных за один только запуск секвенатора, занимала несколько дней. Значит, на картирование всех данных уйдут месяцы. Удо считал, что лучше него никто с задачей не справится, и потому всю работу хотел сделать сам. Я призвал все имеющееся у меня терпение и стал ждать результатов.