Что такое открытая рамка считывания?
Геном многоклеточных организмов – это несколько миллиардов букв, которые записаны без пробелов и знаков препинания. Вот так будет выглядеть его очень маленький кусочек, взятый из произвольного места:
…ЦУААУЦАГЦАУАЦГАЦУААССССЦАГЦАУАЦГАЦУААААААУЦАГЦАУАЦГАЦЦЦУУЦУААУЦАГЦАУАЦГАЦУААУЦАГЦАУАЦГАЦУААУЦАГЦАУАЦГАЦУААУЦАГЦАУАЦГАЦУААССССЦАГЦАУАЦГАЦУААААААУЦАГЦАУАЦГАЦГГАУЦУУЦУААУЦАГЦАУАЦГАЦУААУЦАГЦАУАЦГАЦУААУЦАГЦАУАЦГА……
Выше мы поговорили, что только чуть больше 1 % от всех этих миллиардов содержат информацию о генах, причем информация это раскидана по геному частями. Так где именно в этом огромном тексте находится подстрока текста гена?
На самом деле существуют группы символов, которые означают начало и конец прочтения гена. Но посмотрите на фрагмент генетического текста еще раз. С какой именно буквы стоит начинать отсчет, чтобы найти такие фрагменты? Как понять, что какие-то буквы относятся к началу искомого фрагмента, а не к концу какого-то предыдущего? На концах хромосом обычно находится длинная куча «мусора», содержимое которой зависит, например, от того, сколько циклов деления прошла клетка к моменту прочтения ее генома (этот «мусор» называется теломерами и он защищает ДНК в клетке от проблем при делении). А кто знает, какой длины бессмысленные фрагменты между генами? В общем, чтобы решить, что вот это перед нами текст гена, надо бы сначала определиться, откуда мы будем считать его начало. Точнее, найти это начало. И еще конец. Это расстояние между предполагаемым началом и предполагаемым концом и называется открытая рамка считывания.
Задача поиска открытых рамок считывания (или предсказания генов в геноме), является одной из важнейших задач биоинформатики. Для ее решения ученые анализируют весь текст хромосомы специально настроенными поисковыми алгоритмами. Алгоритмы оценивают «текст» по множеству параметров одновременно. Например, они ищут потенциальные старти стоп-кодоны.
Но посмотрим на примере, что происходит, если рамка сдвигается. Пусть мы установили, что внутри рамки считывания находится текст экзона:
ЦТААТЦАГЦАТАЦГА (или ЦУААУЦАГЦАУАЦГА в мРНК, где Т заменится на У).
Разделим на кодоны и переведем на язык белков:
ЦУА АУЦ АГЦ АУА ЦГА – Leu Ile Ser Ile Arg (лейцин-изолейцин-серин-изолейцин-аргинин).
Что будет, если из открытой рамки считывания вывалится всего какая-то одна буква? Пусть это будет шестая буква от начала рамки:
ЦТААТАГЦАТАЦГА (или в мРНК – ЦУААУАГЦАУАЦГА) – на первый взгляд мало что изменилось. Но проверим, какой белок теперь синтезируется по такой цепочке:
ЦТА АТА ГЦА ТАЦ ГА (или ЦУА АУА ГЦА УАЦ ГА) – Leu Ile Ala Tyr (лейцин-изолейцин-аланин-тирозин).
Но это же совершенно другой белок! Потеря всего одной буквы из текста гена оказалась намного страшнее, чем замена буквы на другую, о которой мы говорили ранее. Такая потеря привела к сдвигу рамки считывания, и все остальные буквы, стоящие после этой делеции, сдвинулись на одну букву влево, образовав совсем другие кодоны. А если вспомнить, что среди обычных, кодирующих аминокислоты кодонов есть стоп-кодоны – точки в предложении-гене, то станет понятно, как выпадение всего одной буквы может привести к обрыву в считывании последовательности для всего белка дальше выпавшей буквы.