Параллельно с частными компаниями серьезные средства в ускоренное секвенирование вкладывает госсектор. Одновременно с объявлением конкурса X Prize американский Национальный институт исследования генома человека (National Human Genome Research Institute, NHGRI) сообщил о результатах очередного конкурса на получение грантов общей суммой 13 млн. долларов для работы над этой проблемой. В этом году гранты получили девять ученых, работающих над снижением стоимости исследования до тысячи долларов - в далекой перспективе, и двое, стремящихся довести ее до ста тысяч, но гораздо раньше. Сто тысяч за геном - та сумма, которая позволит использовать полное секвенирование сотен индивидуальных геномов в изучении генетически обусловленных заболеваний.
Как считает Джордж Черч (George Church), стотысячный рубеж будет пройден не позже 2009 года, а очень вероятно, что и раньше. Тысячный рубеж, по планам NHGRI, намечен ориентировочно на 2014 год, но по мнению Черча, в этом вопросе ясности гораздо меньше. Неясно даже, нужно ли доводить стоимость именно до тысячи долларов, а главное - нужно ли определять последовательность нуклеотидов полностью, ведь интересен лишь один процент из них. Выяснить, какие именно участки генома составляют этот процент - вполне реалистичная задача с точки зрения Черча, и если сконцентрироваться на ней, можно достичь желаемого результата (массового секвенирования) раньше.
Об этом Черч говорил в сентябре на конференции Emerging Technologies 2006 в МТИ (см. о ней колонку Левона Амдиляна в «КТ» #659). Однако похоже, что индустрия в целом сконцентрирована на проблеме ускорения/удешевления как таковой - точно так же, как разработчики суперкомпьютеров соревнуются по количеству терафлопсов, а не по новым методам решения задач. В сообщениях о платформах следующего поколения для секвенирования чаще всего мелькают названия компаний Applied Biosystems, Solexa, 454 Life Sciences. Здесь мы не будем вдаваться в описание достоинств и проблем различных технологий (см., например, материал Сергея Борисова в «КТ» #603, а также подборку популярных материалов на www.cbio.ru
). Отметим лишь одну новую и очень наглядную идею, которая обещает рекордную производительность: метод нанопор. Молекула ДНК протаскивается через отверстие нанометровых размеров в мембране (см. рис.). Каждый нуклеотид, попадая в отверстие, изменяет электропроводность мембраны, причем на разную величину в зависимости от типа нуклеотида - что и позволяет (в принципе) конвертировать изменения чудовищно слабого электрического сигнала прямо в «буквы» кода. При этом не надо, как в других методах, дробить молекулу ДНК на маленькие фрагменты, а потом многократно дублировать и сопоставлять результаты их обработки. Если удастся преодолеть многочисленные проблемы и добиться расшифровки генома таким методом со скоростью 10 тысяч нуклеотидов в секунду, то небольшой твердотельный массив нанопор обеспечит секвенирование генома человека за 20 часов - по крайней мере, так обещает группа Джина Головченко (Jene Golovchenko), физика из Гарварда, реализующая один из вариантов этой идеи (любопытно, что среди многочисленных авторов других вариантов есть и сам Джордж Черч, уже сотрудничающий на этой почве с мощной компанией из мира полупроводниковых технологий Agilent Technologies, которая, не мелочась, оценивает потенциальную скорость такого секвенирования в миллион пар нуклеотидов в секунду - примерно по геному в час).Задача получить за 1000 долларов полную информацию о последовательности нуклеотидов в человеческом геноме выглядит вполне реальной. Немного смущает срок в 5-10 лет (X Prize взяла его не с потолка, а со слов самых авторитетных разработчиков быстрых методов секвенирования, но их оптимизм может оказаться немного преувеличенным). Однако рубеж в тысячу у. е. - это только промежуточный финиш. Самое интересное начнется после: полученную информацию надо будет интерпретировать.
Для начала текст можно сразу сократить на порядок, вычеркнув накопившуюся за миллиарды лет явно бессмысленную информацию. Внутри генов можно исключить из рассмотрения интроны - участки, которые вырезаются после синтеза матричной РНК. Зато придется учесть, что некоторые гены разбросаны по хромосомам, другие кодируют сразу несколько белков и т. д. - в общем, до начала анализа надо будет свести объем информации к осмысленным «словам». Большинство из этих примерно 30000 генов (вернее, пар генов) придется исключить из рассмотрения: идентифицировать функции каждого из закодированных в генах белков - задача куда более сложная, чем разработать метод дешевого секвенирования генома, а протеомика - очень молодая наука.