Идея прочитать геном человека родилась еще в 1986 году по инициативе Министерства энергетики США — впоследствии оно же финансировало проект вместе с Национальными институтами здравоохранения США. При стоимости в 3 миллиарда долларов проект, в котором участвовали Китай, Германия, Франция, Великобритания и Япония, был рассчитан на 15 лет. Директором проекта по чтению генома человека был Джеймс Уотсон, один из первооткрывателей структуры молекулы ДНК, пока его не сменил Фрэнсис Коллинз.
Позволю себе предположить, что международный проект по чтению генома человека затянулся бы не на тринадцать, а на все двадцать лет, если бы не старания весьма амбициозного ученого — Крейга Вентера. Крейг Вентер и его компания
«Мы сделаем геном человека, а вы можете сделать мышь», — ехидно предложил Вентер своим конкурентам.
Этот период вошел в историю геномики как время «геномных войн». Научное сообщество всполошилось! Дело было не только в том, что Вентер собирался утереть нос членам уважаемых международных коллективов, но и в том, что компания
Чем отличается метод дробления ДНК от тех методов, которые использовал международный консорциум по чтению генома человека? Обычные методы подразумевают последовательный анализ генома: мы шагаем по хромосомам, читая фрагмент за фрагментом. Концы предыдущих прочитанных фрагментов выступают затравками для чтения новых и так далее. Этот подход надежен и неизбежно приводит к нужному результату, не требует каких-то сложных алгоритмов для анализа данных, но очень медлителен и требует серьезных усилий со стороны ученых-экспериментаторов, которым приходится ставить эксперимент за экспериментом, реакцию за реакцией.
Метод раздробления генома начал применяться для чтения коротких фрагментов ДНК еще в 1979 году[271]
, но мало кто верил, что с его помощью можно будет прочитать большой геном. Мы взяли ДНК, раздробили, прочитали разрозненный набор фрагментов, которые называются чтениями. И что дальше? Как мы все это соберем? И можно ли вообще собрать такой «пазл»? Задача по «сборке» генома из чтений легла на специалистов в области вычислительной биологии — биоинформатики, еще одного бурно развивающегося направления современной науки.Возьмем множество прочитанных фрагментов ДНК. Найдем такую пару последовательностей, которые имеют хорошее перекрытие, объединим их и получим более длинный фрагмент. Последовательно сшивая перекрывающиеся фрагменты, мы будем получать все более длинные последовательности, пока в идеале не получим целые хромосомы. Иллюстрация такого объединения фрагментов приведена ниже.
На практике с таким подходом возникают определенные проблемы, которые приходится решать. Во-первых, каждое чтение получено из случайно взятой молекулы ДНК. Какие-то фрагменты ДНК по воле случая будут прочитаны по десять или даже по сто раз, а какие-то не будут прочитаны вовсе, и в нашем геноме появятся «дырки». Решается эта проблема тем, что мы делаем очень большое «покрытие» генома, чтобы в среднем на каждый участок приходились десятки, а то и сотни чтений. Увы, некоторые участки генома читаются очень плохо, и даже большое покрытие чтениями не всегда помогает. В таких случаях дырки можно попробовать залатать, применив альтернативные методы чтения ДНК.
Еще одна проблема заключается в том, что чтение ДНК происходит не без ошибок. Избежать ошибок при сборке можно, сравнивая большое количество чтений одного и того же места в геноме. Наиболее часто встречающийся вариант, скорее всего, правильный.
Отличить ошибку чтения от двух разных вариантов (аллелей) гена тоже можно: разные варианты будут присутствовать примерно в равном количестве.