Уже этот относительно простой пример иллюстрирует два основных принципа современной биоинформатики: сравнительный подход и комбинирование разных способов анализа материала. Те же принципы работают и на следующем шаге: предсказании функции гена, точнее, теперь уже — кодируемого этим геном белка, по его аминокислотной последовательности (заметьте, что мы постепенно приближаемся к поставленной цели). Как и раньше, если уже известен гомологичный ген из родственного организма, функция белка может быть предсказана просто на основании сходства последовательностей. Если известны более далекие гомологи, могут быть предсказаны общие биохимические свойства (например, в случае фермента — тип катализируемой реакции), однако специфичность и, стало быть, роль в метаболизме клетки должна быть установлена. исходя из других соображений, которые будут обсуждены чуть ниже. Наконец, иногда удается только лишь установить наличие в белке структурных особенностей или так называемых функциональных подписей — наборов аминокислот, характерных для белков, выполняющих одну и ту же функцию. Например, во всех секретируемых белках должны присутствовать сигнальные пептиды, определяющие прохождение белка через мембрану, а в любом белке, связанном с мембраной или занимающемся трансмембранным транспортом, должен быть участок, "прошивающий" мембрану насквозь — трансмембранный домен. Пример функциональной подписи — это пептидазные мотивы, которые образуют каталитические центры в ферментах, разрушающих пептидную связь, и АТ-фазные мотивы в ферментах, зависящих от гидролиза АТФ.
Оказывается, что простые соображения, основанные на сходстве с уже известными белками, позволяют установить клеточную роль для половины или даже до двух третей генов новосеквенированного генома, и общую биохимическую функцию для еще 10—20 процентов генов. Это позволяет описать в общих чертах метаболизм изучаемой бактерии и затем перейти к детальной метаболической реконструкции, то есть к описанию всех метаболических путей, закодированных в геноме.
Часть этой задачи решается так, как мы только что рассмотрели, а часть — нет. В нашей картине остаются пробелы, т. е. функции, которые должны присутствовать, исходя из общих соображений биохимической осмысленности, однако гены для которых не найдены. Например, внутренние реакции в линейных путях — мы точно знаем из биохимии, что такие внутренние реакции обязательно происходят, или молекулы-транспортеры исходных веществ-предшественников — они также обязательно должны быть в клетке. Попробуем заполнить эти пробелы методами сравнительной геномики, параллельно описывая механизмы регуляции и эволюции метаболических путей и регуляторных систем.
Репрессор (прямоугольник) в присутствии иона цинка взаимодействует со своим сайтом связывания (черный овал) и подавляет транскрипцию (угловая стрелка) гена дополнительного белка рибосом (большая стрелка).
При недостатке цинка репрессор оставляет свой сайт связывания, происходит транскрипция гено дополнительного белка, зтот белок включается в состав части рибосом (серые круги), заменяя основной белок (черная стрелка) и тем самым высвобождая часть ионов цинка для ферментов (черная пунктирная стрелка)
Откуда берутся пробелы? Дело в том, что даже в родственных организмах белки с одинаковой функцией могут быть не очень похожи. Более того, для известных функций разные организмы могут использовать совершенно новые белки, колируемые, естественно, совершенно новыми генами. Даже среди реакций основного обмена веществ более сотни не представлены ни одним известным геном, и еще больше реакций, которые известны лишь в некоторых таксономических группах и не известны, например, в бактериях. С другой стороны, примерно 5—10 % каждого бактериального генома составляют гены из консервативных семейств, присутствующих практически в каждом геноме, но при этом не включающих ни одного экспериментально охарактеризованного гена. Консервативность и широкое распространение этих генов указывает на их важность, и ясно, что они-то и кодируют "отсутствующие" функции.