На данный момент просеквенировано несколько сотен геномов бактерий и геномы нескольких эукариот. Теперь мы знаем, что у бактерий размеры генома не бывают меньше 0,5 миллионов пар нуклеотидов, а максимальный размер генома около 10 миллионов п.н., у дрожжей (эукариотический организм) — порядка 12 миллионов, у червя нематоды — 97 млн., а у человека — 3 миллиарда пар нуклеотидов. А число генов у про- и эукариот различается уже в меньшее число раз. Минимальное количество генов у бактерии микоплазмы — 470 штук, у дрожжей — 6000, у нематоды — 19000, а у человека около 20000, то есть от нематоды и мухи по количеству генов мы не сильно отличаемся. Количество хромосомной ДНК, приходящейся на один ген у бактерий — 1000 п.н. то есть гены упакованы очень плотно; у дрожжей — 2000 п.н., и кое-где гены разделены некоторым пространством; у нематоды — 5000 п.н. на ген и появляются пространства внутри генов — интроны; у человека — 30000 п.н. У нас в геноме большие межгенные пространства и большие пространства внутри генов, которые не переходят в зрелую РНК.
Заметим, все эти организмы по размерам зрелых транскриптов не сильно отличаются. В зрелой РНК белок-кодирующий участок занимает обычно основную часть последовательности. Часть генов кодируют РНК, с которой белок вообще не синтезируется. Перед белок-кодирующей последовательностью в зрелой мРНК расположены участки регуляции трансляции, а после белок кодирующей последовательности — участки определяющие стабильность (время жизни РНК). У прокариот последовательности перед и после белок-кодирующей части гораздо короче, чем у эукариот. Так что по размерам РНК все организмы ближе, чем по размерам генов, а по размерам белков — еще ближе.
Экспериментально проводили «выключение» каждого гена у многих бактерий, и смотрели, выживут они в данных условиях или нет. Оказалось, что у бактерий можно «выключить» (поочередно) около 50 % генов, и они все равно будут жить. У дрожжей можно выключить 80 % генов и они все равно будут жить.
Как это было экспериментально показано? В геном клетки вставляют репортерный фрагмент ДНК, который позволяет замерить скорость транскрипции и трансляции в точке вставки фрагмента. Известно поэтому, что и траснкрипция и трансляция репортерного гена через данную точку в данных условиях происходит с регуляторных элементов гена, разорванного вставкой репортера, хотя разорванный ген сам не функционален. Таким образом 80 % генов дрожжей по одному «убивали» и видели, что клетка дрожжей все равно живет.
У нематоды на 20 000 генов получено несколько десятков тысяч мутаций, которые, по-видимому, поражают около 2 000 генов (так называемых групп комплементации). Это около 10 % всех генов нематоды. То есть если «выключить» около 90 % генов, клетка будет продолжать жить. У человека из 20 000 генов только в 1700 (меньше 10 %) известны мутации, которые связаны с болезнями, наследуемыми по Менделю как моногенный признак.
В связи с этим понятно, что количество генов, мутации в которых будут приводить заболеваниям человека (по крайней мере, к летальным), скорее всего, не увеличится значительно, по сравнению с тем, что уже известно к настоящему времени. Сейчас в интернет доступна база данных OMIM (Online Mendelian Inheritance in Man) по генам, мутации которых приводят к заболеваниям и проявляются как менделирующие признаки.
В геноме не все его участки транскрибируется. В связи с этим встал вопрос экспериментального определения, где и сколько в геноме генов. Под одним геном понимается участок ДНК, который соответствует единому транскрипту, образованному с этого участка. При транскрипции участка ДНК получается так называемыя пре-мРНК, которая содержит и экзоны (участки, переходящие затем в зрелую мРНК), и интроны (вставочные последовательности, которые удаляются из мРНК). Интроны удаляются из пре-мРНК в результате процесса, называемого сплайсингом. Остающиеся в результате участки пре-мРНК, называемые экзонами, соединяются в единую нить. Она называется зрелой мРНК. (Некоторые из РНК не кодируют белок. Называть такие РНК матричными, т. е. мРНК терминологически не верно, хотя они соответствуют генам и имеют свои функции.)
Зрелая мРНК используется как материал для экспериментального исследования наличия гена в геноме, его положения и интрон-экзонной структуры. Инструментом для такого исследования являются биологические микрочипы.
Первый патент на микрочипы принадлежит коллективу под руководством Андрея Дарьевича Мирзабекова, который был директором Института молекулярной биологии РАН и заведующий одной из кафедр ФМБФ МФТИ. Он предложил иммобилизовать синтетические фрагменты ДНК на твердые матрицы, и проводить гибридизацию этой матрицы с исследуемым образцом нуклеиновой кислоты — ДНК или РНК.