Пока СМИ писали, что гонка между некоммерческим и частным проектом достигла кульминации, за линией «фронта» все больше внимания уделялось вычислительным мощностям: ученые корпели за компьютерами. Именно они должны были извлечь информацию из грубо отсеквенированных последовательностей А, Т, Г и Ц. Перед ними стояли две основные задачи. Во-первых, надо было собрать окончательную и полную последовательность из множества имевшихся у них фрагментов. Многие части генома были отсеквенированы многократно, поэтому требовалось отсортировать объем информации размером в несколько геномов – составить из него единую каноническую последовательность генов. С точки зрения информационных технологий это была колоссальная работа. Во-вторых, нужно было определить, «что есть что» в этой окончательной последовательности и, самое главное, где какие гены находятся. Вычленение компонентов генома, то есть искусство отличать одну последовательность А, Ц, Г и Т, в которой находится молекулярный мусор, от другой, кодирующей белок, требовало исключительно интенсивной вычислительной работы.
За компьютерную обработку в компании Celera
отвечал Джин Майерс, ученый-информатик, который всеми руками и ногами ратовал за полногеномный метод дробовика. Вместе с Джеймсом Уэбером из Маршфилдского медицинского исследовательского фонда в Висконсине они предложили задействовать систему полногеномного секвенирования (WGS) в некоммерческом проекте, еще когда Celera Corporation не была создана. Джин Майерс видел в использовании современных молекулярных технологий как повод для личной гордости, так и общественную целесообразность.При создании генетической карты были установлены последовательности расположения генетических маркеров (в этом качестве использовали различные полиморфные локусы ДНК, то есть наследуемые вариации в структуре ДНК) по длине всех хромосом с определенной плотностью, то есть на достаточно близком расстоянии друг от друга. Наличие таких ориентиров уже не делало задачу по сборке последовательности, поставленную в некоммерческом проекте, столь неподъемной, как вариант Майерса (метод полногеномного секвенирования (WGS) никаких маркеров не предполагал). При окончательном анализе Celera
пользовалась данными о картировании, бывшими в доступе в GenBank в рамках некоммерческого проекта. Проблема заключалась в том, что при слепом подсчете маркерных участков была существенно недооценена их роль. Все это говорит о том, насколько сложна была с технической точки зрения задача построения генетической карты. В то время как Celera подключила к проведению исследований компьютерные технологии, некоммерческий проект сосредоточился на ускорении процесса секвенирования. Лишь на самом последнем этапе лидеры некоммерческого проекта осознали, что, хотя у них на тот момент уже имелась карта генов, они все равно были похожи на того папашу из анекдота, который в сочельник, перед Рождеством, таращится на разобранный велосипед и не знает, что и куда прикрутить. Дату готовности (и сборки) «примерного плана» назначили на конец июня. Однако в начале мая некоммерческий проект вообще не располагал никакими реальными инструментами для систематизации всех полученных ими последовательностей. «Deus ex machina» принял весьма странный облик, представ перед ними в виде аспиранта из Калифорнийского университета в Санта-Крусе.Звали его Джим Кент, и с виду он походил на рокера из Grateful Dead
. Он занимался программированием с тех самых пор, как появились компьютеры, разрабатывал код для графических и анимационных программ, но затем решил пойти в аспирантуру и заняться биоинформатикой – новой дисциплиной, посвященной анализу ДНК и белковых последовательностей.
Джим Кент задействовал сотню персональных компьютеров и собрал «рабочий вариант» генома для некоммерческого проекта
Он осознал, что завязывает с коммерческим программированием, когда получил от Microsoft
увесистый пакет из 12 CD для разработки программ под Windows 95. Слова самого Джима Кента были такими: «Я подумал, что весь геном человека уместился бы всего на одном диске, причем он не стал бы изменяться каждые три месяца». В мае он уже был уверен, что справится с широко обсуждавшейся на тот момент задачей анализа и систематизации генома, и убедил родной университет, чтобы ему «одолжили» на время сотню компьютеров, закупленных для учебных целей. Затем он на четыре недели погрузился в разработку программного обеспечения для решения задачи. По ночам даже массировал запястья, чтобы их не сводило судорогой от долгой работы на компьютере, а сам день за днем «ваял» генетический код. Крайним сроком было 26 июня – именно на эту дату приходился анонс чернового варианта генома. Дописав программу, Кент запустил в работу всю сотню компьютеров, и 22 июня эта компьютерная «орда» справилась с проблемой построения генома для некоммерческого проекта. Майерс в Celera уложился в еще более сжатые сроки: он завершил свою сборку в ночь на 25 июня.