Читаем Интернет-журнал "Домашняя лаборатория", 2008 №5 полностью

Другая задача связана с анализом генома. Недавно было объявлено, что полностью просеквенирован геном человека, но так же просеквенировали геномы и других организмов: три генома растений, мыши, крысы, кошки, собаки, курицы, рыбы, лягушки завершается, шимпанзе завершается, две дрозофилы сделаны, малярийный комар, червяки, дрожжи и т. д. — всего около 30 видов эукариотических геномов. Также просеквенированы сотни бактериальных геномов. Один бактериальный геном можно просеквенировать в хорошо оборудованной лаборатории за неделю. При этом получают длинную нуклеотидную последовательность нуклеотидов. Там есть гены — белок-кодирующие участки, и участки, кодирующие тРНК и рРНК. Возникает задача найти эти гены. Другая задача — поиск сигналов в ДНК, то есть тех участков ДНК, которые отвечают за регуляцию — сайты связывания регуляторных белков, элементы вторичной структуры мРНК, которая транскрибируется с этого гена и др.

Есть задача предсказания вторичной структуры РНК. А также есть большой класс задач анализа белков. Для решения этих задач надо создавать методы анализа, то есть алгоритмов (протоколов) и программ для анализа. При создании метода надо иметь критерий того, что метод адекватен, соответствует реальности.

Как оценить "правильность" метода? Геном типичной бактерии содержит около 1000 генов. Как уже упоминалось, секвенировать геном можно за неделю. Экспериментальная характеристика одного белка требует как минимум 2 месяца работы современной лаборатории.

Для того чтобы определить, насколько предложенный метод анализа хорош и правилен, существует так называемый «золотой стандарт». Например, у нас есть метод определения генов. Если после его применения на какой-либо последовательности, в которой известно месторасположение генов, наши результаты совпадают с тем, что есть на самом деле на 80–90 %, значит наш метод правильный и эффективный. В этом и заключается суть «золотого стандарта».

Или предсказание вторичной структуры РНК. Экспериментально ее определить очень трудно, но есть РНК, структура которых хорошо известна — это рРНК и тРНК. И если наш метод хорошо предсказывает структуру этих известных РНК, то можно ожидать, что и для других РНК он будет давать хорошие предсказания.

Вернемся к первой задаче — сравнению последовательностей. Запишем одну последовательность под другой.



Нам надо при сравнении найти наилучший вариант, так выровнять эту пару последовательностей, чтобы количество совпадений будет максимальным (парное выравнивание). Качество выравнивания оценивают, назначая штрафы за несовпадение букв и за наличие пробелов (когда приходится раздвигать одну последовательность для того, чтобы получить наибольшее число совпадающих позиций).

Таким образом, первым делом после секвенирования последовательности ищут в базах данных похожие последовательности, чтобы после сравнения судить о том, какие функции несет эта последовательность. Если две буквы совпали, значит они находятся под давлением отбора, они функционально важны. Известно, что аминокислоты различаются по своим свойствам, поэтому если произошла аминокислотная замена, это может почти никак не повлиять на работу белка, а может сильно его изменить.

Например, если лизин (положительно заряженная аминокислота заменится на лейцин (похожий по созвучию, но совершенно несходный по свойствам), то для пространственной структуры и функций белка это может оказаться катастрофой. А вот замена лизина на аргинин (также положительно заряженный) может не сказаться на структуре белка.

Поэтому при сравнении аминокислотных последовательностей учитывают также матрицу сопоставления аминокислотных остатков (похожих, менее похожих и совсем непохожих).

Как осуществляется выравнивание? Пишем одну последовательность под другой.

Сколько есть способов написать одну последовательность S1 длиной m под другой — S2 длиной n (со вставками)? Об этом можно доказать теорему — попробуйте.



Построим выборочную последовательность S длиной m + n следующим образом: возьмем несколько символов из последовательности S1, потом несколько символов из последовательности S2 потом опять несколько символов из S1, потом опять несколько из S2.

• Каждой выборочной последовательности S соответствует выравнивание и по каждому выравниванию можно построить выборочную последовательность. (Доказать!)

• Количество выборочных последовательностей равно



(Доказать!)

Таким образом количество выравниваний можно определить по формуле:



Перейти на страницу:

Похожие книги