Настала эра цифровой биологии, в которой белки и другие взаимодействующие молекулы в клетке можно рассматривать как компьютерное «железо», а информацию, закодированную в ДНК, – как клеточный «софт», то есть программы. Вся информация, нужная для создания живой самовоспроизводящейся клетки, заключена в цепочках двойной спирали ДНК. По мере чтения и истолкования этого текста мы в конце концов сможем полностью понять, как работают клетки, а затем изменять и улучшать их путем написания новых клеточных программ. Но, конечно, это легче сказать, чем выполнить: изучение этих программ – ДНК – показывает, что они значительно сложнее, чем мы думали даже лет десять назад.
В то время как первая линейная последовательность аминокислот в белке (инсулине) была установлена Фредом Сэнгером в 1949 году, разработка методов чтения ДНК оказалась делом долгим. В 1960-х и 1970-х продвижение было медленным и секвенирование измерялось в нескольких парах оснований в месяц или даже в год. Например, в 1973 году Аллан Максэм и Уолтер Гилберт из Гарвардского университета опубликовали статью, описывающую, как с помощью их нового метода секвенирования{76}
были установлены двадцать четыре пары оснований. Одновременно шло и секвенирование РНК, продвигавшееся несколько быстрее. И все же по сравнению с возможностями современных технологий даже для чтения нескольких букв кодированного текста в ту пору требовались поистине героические усилия.Большинство людей узнали о геномике при первой расшифровке человеческого генома, которая увенчалась моим появлением в Белом доме в 2000 году рядом с моими коллегами-соперниками и президентом Клинтоном, где мы торжественно объявили об открытии последовательности человеческого генома. На самом деле первые идеи о расшифровке ДНК относятся к временам полувековой давности, когда Уотсон и Крик предложили модель ее атомной структуры. Большой скачок в нашем познании случился, когда в 1965-м группа под руководством Роберта Холли из Корнеллского университета опубликовала последовательность из семидесяти семи рибонуклеотидов аланиновой транспортной РНК (тРНК) из клетки дрожжей
Технология секвенирования ДНК, которая дала мне возможность секвенировать человеческий геном, зародилась в середине 1970-х, когда группа Фреда Сэнгера в Кембридже разработала новую технику – первую, которую можно было назвать «более-менее секвенированием». За ней последовала методика, которую Сэнгер назвал дидезокси-секвенированием ДНК, но которая в его честь теперь называется «секвенированием по Сэнгеру». В нем применяются дидезоксинуклеотиды, или нуклеотиды-терминаторы, которые останавливают ДНК-полимеразу, не давая ей добавлять нуклеотиды к растущей цепочке ДНК. У дидезоксинуклеотидов нет гидроксильной группы (–ОН), что означает, что после того, как ДНК-полимераза прицепит их к растущей нуклеотидной цепочке, дальше нельзя добавить никаких нуклеотидов. Прикрепив радиоактивный фосфат к одному из четырех нуклеотидов, чтобы пометить фрагменты, стало возможным прочесть порядок А, Т, Ц и Г, прикладывая гель, использованный для разделения оснований, к рентгеновской пленке[7]
.Группа Сэнгера использовала его новые инструменты секвенирования для установления первой последовательности генома ДНК-вируса, принадлежащего бактериофагу