Обратим внимание читателя лишь на некоторые основные информационные задачи, которые необходимо было решать при изучении генома человека, а некоторые из них еще предстоит решить. В первую очередь нужно отметить то обстоятельство, что работа с геномами высших организмов, и особенно с геномом человека, — это работа с огромными объемами информации. Один миллион п. н. ДНК эквивалентен примерно 1 мегабайту (1 млн. байтов). Следовательно, для хранения в компьютере только информации о последовательности генома человека требуется не менее 3 гигабайт. Одной из важнейших задач для реализации программы «Геном человека» была организация процесса создания окончательного «текста», состоящего из миллиарда слов, десятков тысяч предложений и огромного числа страниц, собранных в 24 тома. Этот процесс с самого начала работ по программе «Геном человека» был прекрасно организован. Данные по секвенированию, получаемые в разных лабораториях мира, предварительно преобразовывались из аналоговых сигналов в цифровые для того, чтобы их можно было обрабатывать на компьютере. В Центре биомедицинских исследований Массачусетского технологического института в США круглосуточно принимались вновь собранные данные, автоматически регистрировались и архивировались. Все они сразу же автоматически привязывались к определенным хромосомам человека. Далее, каждая вновь поступившая последовательность нуклеотидов пересылалась по Интернету в GenBank — общедоступную базу данных, обслуживаемую Национальным центром биотехнологической информации (www.ncbi.nlm.nih.gov), а уже оттуда поступала в другие общедоступные базы данных во всем мире. Организаторы программы старались предоставить доступ к этим данным как можно быстрее и как можно большему числу пользователей. Трудно себе даже представить, как без использования компьютеров можно было бы из сотен тысяч «текстов», которые читались в отдельности разными исследователями в разных лабораториях мира, собирать гигантскую единую «Энциклопедию человека». Этот процесс напоминал собой сбор без предварительного рисунка гигантского паззла, состоящего из сотен тысяч мелких фигур, сваленных в кучу.
Другая не менее сложная задача, решаемая геноинформатикой, — компьютерный анализ ДНКовых текстов, что чрезвычайно важно для их правильного «прочтения». Поиск генов в геноме человека затруднен тем, что в ДНК нет абсолютно четких «знаков препинания», которые бы указывали на начало и конец генов-предложений и других функционально значимых элементов. При этом методы классической генетики имеют ограниченное применение для человека — ведь человек, в отличие от мух или мышей, не может быть объектом генетических экспериментов. Основная трудность при идентификации генов состоит в определении их экзон-интронной структуры, т. е. определении кодирующих и некодирующих участков. И здесь на помощь приходила и приходит геноинформатика. На основе статистического анализа ученые научились с определенной долей вероятности устанавливать, к какому участку генома относится та или иная изучаемая нуклеотидная последовательность ДНК. Это схоже с ситуацией в газетном тексте. Вот наш глаз остановился на фразе «от Парижа до Находки ОМСА — лучшие колготки», и сразу становится понятным, что это реклама, а не текст статьи, так как подобное словосочетание в обычных публицистических статьях практически никогда не встречается. Примерно так же обстоит дело и с определенными сочетаниями нуклеотидов в ДНКовом тексте. Выявлены определенные сочетания нуклеотидов, которые указывают на принадлежность анализируемого фрагмента генетического текста к интрону или экзону, кодирующему белок.