Следует отметить, что и в зрелой мРНК, которая образуется уже после удаления из первичного транскрипта интронных нуклеотидных последовательностей, также не все участки кодируют белок. Однако, в отличие от интронов, такие последовательности нуклеотидов расположены в начале и в конце молекулы (см. рис. 18). Их размеры также существенно различаются.
Так, в разных мРНК человека некодирующая область, расположенная в начале молекулы, имеет длину от 2800 до 18 нуклеотидов (в среднем 200 нуклеотидов), а та, которая расположена в конце, составляет от 8500 до 20 нуклеотидов (в среднем 1000 нуклеотидов). Эти некодирующие белок области гена очень важны для нормального функционирования мРНК, ее трансляции, стабильности и локализации в клетке. Как уже говорилось, на одном гене за счет альтернативного сплайсинга может образовываться несколько мРНК. Следует подчеркнуть, что и на одной уже сформировавшейся мРНК могут образовываться разные белки. Это происходит за счет наличия в 50 % мРНК человека не одного, а двух АУГ-кодонов, являющихся старт-сигналами для синтеза белка на мРНК. За счет этого, в разных ситуациях клетка может начать синтез белка с разных мест мРНК, в результате чего образуются разные по длине, а порой и по своим свойствам, белки. Опять же пример из лингвистики. Если читать текст не с первой, а со второй буквы, смысл зачастую совершенно меняется (сравните: удочка и дочка).
В связи со всем этим понятно, что классическая формула генетиков «один ген — один белок», предложенная лауреатами Нобелевской премии Джоржем Бидлом и Эдуардом Татумом, оказывается в реальности справедливой лишь для небольшой группы генов, а многие гены (возможно, большинство) кодируют семейства родственных, но существенно отличающихся белков, то есть нередко действует принцип «один ген — много белков». За счет этого в геноме осуществляется принцип экономии генетического материала (компактная запись) и достигается большой набор генных продуктов — белков — на относительно небольшом числе генов.
В таблице 3 приведена общая характеристика белок-кодирующих генов, выявленных в результате секвенирования генома человека.
В реальности размеры разных генов, а также их экзонов и интронов сильно отличаются. И основной вклад в эту вариабельность вносят интроны. Уже говорилось, что максимальный по размерам ген дистрофина занимает в геноме человека 2,4 млн. п. н. Подавляющая часть занята именно интронами (их средний размер составляет несколько десятков тысяч п. н.). Наибольшую кодирующую последовательность в геноме человека имеет ген по имени
Важно отметить, что разбивка генов на отдельные экзоны неслучайна. Индивидуальный экзон часто кодирует не просто какую-то часть белковой молекулы, а определенный фрагмент белка, выполняющий в целом белке отдельную функцию. Такой отдельный структурно-функциональный фрагмент, входящий в состав целого белка, называют доменом
.Перекрывание генных текстов
Принцип компактности записи информации в ДНК проявляется еще в одном. Важный факт, обнаруженный первоначально при анализе последовательностей генов у вирусов, заключается в том, что в одном и том же участке ДНК иногда может быть записана информация о двух совершенно разных РНК (и, соответственно, о совершенно разных белках). Такое случается и в геноме высших организмов, включая человека. Как же это осуществляется? Вспомним, что записанный в ДНК текст явно не разбит на слова (буквы — нуклеотиды — следуют в молекуле ДНК одна за другой). Но слова в этом тексте есть, просто знаки пунктуации и разрывы между словами скрыты от глаза и узнаются клеткой после перекодировки информации из ДНК в РНК. Для большей наглядности приведем широко известный пример такого текста:
НАПОЛЕОНКОСИЛТРАВУПОЛЯКИПЕЛИСОЛОВЬЯМИ.
В зависимости от разбивки этого текста на слова получается два предложения с совершенно разным значением:
НА ПОЛЕ ОН КОСИЛ ТРАВУ ПОЛЯ КИПЕЛИ
СОЛОВЬЯМИ
НАПОЛЕОН КОСИЛ ТРАВУ ПОЛЯКИ ПЕЛИ
СОЛОВЬЯМИ.