Алгоритмы, закодированные в полумиллионе строк компьютерного кода команды Джина, предполагали поэтапный сценарий – от самых «безвредных» действий, например простого перекрывания двух последовательностей, до более сложных, например использования обнаруженных пар для слияния островков перекрывшихся последовательностей. Это было похоже на сложение головоломки, когда небольшие островки собранных участков составляются вместе и образуют бо́льшие острова, а затем весь процесс повторяется снова. Только вот в нашей головоломке было 27 миллионов фрагментов. И было очень важно, чтобы участки брались из последовательности высокого качества сборки: представьте себе, что будет, если вы собираете пазл, а цвета или изображения его элементов нечеткие и размытые. Для дальнего порядка последовательности генома значительная доля прочтений должна быть в виде совпадающих пар. Учитывая, что результаты все еще отслеживались вручную, мы с облегчением обнаружили, что 70 % имевшихся у нас последовательностей именно такие. Специалисты по компьютерному моделированию объяснили, что при меньшем проценте собрать нашего «шалтая-болтая» было бы невозможно.
И теперь мы смогли использовать ассемблер
В идеальном случае этого бы вполне хватило для сборки генома. Но нам приходилось бороться со статтерами и повторами в коде ДНК, а это означало, что один фрагмент ДНК может перекрываться с несколькими различными участками, создавая ложные соединения. Чтобы упростить задачу, мы оставляли только однозначно соединенные фрагменты, так называемые «унитиги». Программа, с помощью которой мы выполняли эту операцию (
А затем мы могли использовать информацию о способе спаривания последовательностей одного и того же клона, используя «каркасный» алгоритм. Все возможные унитиги со взаимно перекрывающимися парами оснований объединялись в специальные каркасы. Для описания этого этапа в своих лекциях я провожу аналогию с детским игрушечным конструктором
В результате тестирования этой методики на последовательности Джерри Рубина, составлявшей примерно одну пятую генома плодовой мушки, мы получили всего лишь 500 пробелов. Проведя в августе испытания на наших собственных данных, мы получили в результате более 800 тысяч небольших фрагментов. Существенно большее количество данных для обработки показало, что методика работала плохо – результат оказался противоположным ожидаемому. В течение нескольких следующих дней паника нарастала, а список возможных ошибок удлинялся. С верхнего этажа корпуса № 2 адреналиновый раж просачивался в комнату, шутливо называемую «Безмятежными покоями». Однако никакого покоя и безмятежности там не ощущалось, особенно в течение по крайней мере пары недель, когда сотрудники буквально кругами слонялись в поисках выхода из создавшегося положения.