Метод раздробления генома начал применяться для чтения коротких фрагментов ДНК еще в 1979 году271
, но мало кто верил, что с его помощью можно будет прочитать большой геном. Мы взяли ДНК, раздробили, прочитали разрозненный набор фрагментов, которые называются чтениями. И что дальше? Как мы все это соберем? И можно ли вообще собрать такой “пазл"? Задача по “сборке" генома из чтений легла на специалистов в области вычислительной биологии – биоинформатики, еще одного бурно развивающегося направления современной науки.Возьмем множество прочитанных фрагментов ДНК. Найдем такую пару последовательностей, которые имеют хорошее перекрытие, объединим их и получим более длинный фрагмент. Последовательно сшивая перекрывающиеся фрагменты, мы будем получать все более длинные последовательности, пока в идеале не получим целые хромосомы. Иллюстрация такого объединения фрагментов приведена ниже.
На практике с таким подходом возникают определенные проблемы, которые приходится решать. Во-первых, каждое чтение получено из случайно взятой молекулы ДНК. Какие-то фрагменты ДНК по воле случая будут прочитаны по десять или даже по сто раз, а какие-то не будут прочитаны вовсе, и в нашем геноме появятся “дырки". Решается эта проблема тем, что мы делаем очень большое “покрытие" генома, чтобы в среднем на каждый участок приходились десятки, а то и сотни чтений. Увы, некоторые участки генома читаются очень плохо, и даже большое покрытие чтениями не всегда помогает. В таких случаях дырки можно попробовать залатать, применив альтернативные методы чтения ДНК.
Еще одна проблема заключается в том, что чтение ДНК происходит не без ошибок. Избежать ошибок при сборке можно, сравнивая большое количество чтений одного и того же места в геноме. Наиболее часто встречающийся вариант, скорее всего, правильный.
Отличить ошибку чтения от двух разных вариантов (аллелей) гена тоже можно: разные варианты будут присутствовать примерно в равном количестве.
Картину портят повторяющиеся последовательности, которые присутствуют в некоторых геномах. Из-за них мы иногда рискуем сшить два несвязанных фрагмента. Представьте, что у нас есть последовательность ATTGAAAATAAAA на одной хромосоме и последовательность GGCCAAAATAAAA на другой. С какой из них мы склеим последовательность AAAATAAAAGCGT? В такой сложной ситуации желательно иметь какие-то дополнительные данные (например, более длинные прочитанные фрагменты ДНК), но иногда приходится признавать, что мы не знаем, как правильно склеить фрагменты. В итоге в нашей сборке останется “дырка”. Если “дырок” не слишком много, это не помешает большинству последующих анализов с использованием данного генома.
Но в результате оказалось, что Вентер был в значительной степени прав. Если пошевелить мозгами, мы действительно можем собирать геномы (по крайней мере, вполне удовлетворительного качества) даже из множества мелких фрагментов. В 2000 году
Пинок со стороны Вентера и его команды в рамках “геномных войн” стимулировал конкурентов, и уже в 2001 году почти одновременно и после долгих торгов были опубликованы сразу два генома человека. Один со стороны международного проекта, а второй со стороны
В 2005 году был опубликован геном нашего ближайшего родственника – шимпанзе275
. Тогда подтвердилось, что на молекулярно-генетическом уровне мы с шимпанзе очень похожи. Например, 29