Одна из классических и, пожалуй, самых фундаментальных, задач генетики — это предсказание фенотипа, то есть внешних признаков организма, по генотипу — набору унаследованных генетических детерминант. До последнего времени она могла быть решена только в очень частных случаях. Однако все изменилось десять лет назад, когда стала известна полная последовательность нуклеотидов в единственной кольцевой хромосоме гемоглобинофильной палочки Haemophilus influenzae — первый полный геном бактерии. Справедливости ради следует отметить, что полные геномы многих фагов и вирусов появились намного раньше, и это глубоко изменило современную вирусологию. Тем не менее полные последовательности геномной ДНК самостоятельных организмов, сначала прокариот
— бактерий и архей, а затем и эукариот, от дрожжей и растений до дрозофилы и человека, позволили совершенно по-новому подойти к генетическим проблемам и, в частности, к предсказанию фенотипа, поскольку впервые стали известны все гены полноценного организма.
Или не стали? Сама по себе последовательность нуклеотидов в хромосомной ДНК еще не дает представления о генах, не говоря уже о том, как регулируется их работа. В этом смысле газетные заголовки пятилетней давности, в которых говорилось о "расшифровке генома человека", были, мягко говоря, несколько преждевременными — если продолжить эту метафору, то в 2001 году произошел всего лишь перехват зашифрованного сообщения, смысл которого мы до сих пор понимаем только в очень ограниченных пределах. Даже приблизительные оценки количества генов человека — в первом приближении участков последовательности ДНК, кодирующих белки — уменьшились за четыре года, прошедшие после первой публикации, от 30—35 тысяч до 20—25 тысяч, то есть примерно в полтора раза (до публикации генома была распространена оценка порядка 100 тысяч).
Мы еще очень далеки от понимания функционирования человеческого генома. Для бактерий задача описания физиологии организма по геному проще, и во многих аспектах она может быть решена при помощи компьютерного анализа последовательности геномной ДНК. Разработка и применение методов такого анализа — задача биоинформатики, науки, возникшей в начале 1980-х годов на стыке молекулярной биологии, математики, информатики (computer science), биофизики и, пожалуй, даже лингвистики.
Один из первых этапов анализа генома — это и есть идентификация генов. Нам необходимо выяснить, какие участки ДНК представляют собой гены, и гены какого именно белка. Вопрос совершенно не праздный, ведь, как мы знаем, даже у бактерий далеко не вся ДНК несет в себе информацию о структуре белков. Для этого применяются несколько подходов. Во-первых, статистические свойства белок-кодирующих областей не такие, как у некодирующих. К таким свойствам относятся частоты коротких цепочек нуклеотидов, различные периодичности и т.п. Во-вторых, существуют особые сигналы на границах кодирующих областей: простым примером являются стоп-кодоны, которыми заканчивается любой ген. В-третьих, для поиска генов, родственных (гомологичных) уже известным, можно использовать сравнение исследуемого фрагмента с банком данных всех изученных генов. Наконец, белок-кодируюшие последовательности изменяются в ходе эволюции медленнее, чем некодирующие, что позволяет выделить гены как островки локального сходства при сравнении геномов нескольких относительно близких организмов. Каждый из этих подходов по отдельности недостаточно надежен, и лучшие современные методы распознавания генов используют комбинированные алгоритмы.