Таблица 2-1
Краткое описание филогенетических методов
Методы, основанные на секвенировании
Требуют многократного сравнения гомологичных нуклеотидов или белковых последовательностей.
Дистанционно-матричные методы
Все эти методы используют матрицы межвидовых расстояний <
Принцип наибольшей экономии (maximum parsimony)
Не использует матрицы расстояний, вместо этого работает с наборами состояний признаков. Состояниями признаков, в частности, могут быть нуклеотиды или аминокислоты в определенных позициях множественных выравниваний. Принцип наибольшей экономии (НЭ), основанный на принципе наименьшего действия в физике, определяет как наиболее вероятный тот эволюционный сценарий (филогенетическое дерево), который включает в себя наименьшее количество событий (переходов состояний в наборе признаков).
Существует множество алгоритмов, вычисляющих деревья, наиболее соответствующие принципу НЭ и использующие значимые и незначимые признаки. Принцип НЭ часто ставится под сомнение, поскольку существуют деревья, лишь слегка отличающиеся от наиболее экономичного варианта, но имеющие совершенно иную топологию. Метод высоко чувствителен к ПДВ.
Метод наибольшего правдоподобия (maximum likelihood)
Аналогично методу НЭ, в методе наибольшего правдоподобия (НП) оцениваются переходы между состояниями признаков и выбираются деревья, набравшие наибольший вес. В отличие от метода НЭ, метод НП является параметрическим статистическим подходом, который использует детальную модель эволюции признака для оценки вероятности данных на основе имеющегося эволюционного дерева. Дерево, которое имеет наибольшую вероятность возникновения наблюдаемых данных, признается наиболее вероятным. Метод НП зачастую производит деревья, аналогичные тем, которые получаются методом НЭ, но теоретически он предпочтительнее, будучи (в отличие от НЭ) статистически более достоверным (то есть при наличии достаточного количества данных гарантирует получение наиболее правдоподобного дерева). На практике метод НП часто превосходит метод НЭ. Методы НП чрезвычайно затратны с вычислительной точки зрения и непрактичны при работе с большими наборами данных. Таким образом, методы НП зачастую используются для оптимизации предварительных деревьев, полученных методом
Байесовский подход
Подобно методу НП, этот подход использует функцию правдоподобия, но прибегает к теореме Байеса с целью связать апостериорную вероятность дерева с правдоподобием данных и априорную вероятность дерева с эволюционной моделью. В отличие от методов НЭ и НП, которые выводят наилучшее дерево или набор деревьев, методы байесовского вывода выбирают деревья пропорционально их правдоподобию и определяют представительный набор деревьев. Метод хорошо работает для относительно небольших объемов данных, но непрактичен для больших.
Проверка точности филогенетических методов и достоверности деревьев
Филогенетические методы постоянно проверяются на искусственно смоделированных данных, для которых известна точная история эволюции. Методы сравниваются по критерию точности реконструкции топологии для искусственно построенных деревьев. Как правило, различные методы НП и байесовские методы превосходят все остальные для небольших наборов данных. Наилучшие результаты показывают итерационные методы, которые используют исходное дерево, построенное по методу НП, чтобы выравнивать данные, перестраивать дерево и повторять так до сходимости.
Наиболее часто используемый тест на надежность топологии филогенетического дерева, при котором рассматриваются выборки данных (колонки выравнивания) и дерево оценивается по большому числу выборок. Процент выборок (то есть репликаций), в которых реконструируется данный узел дерева, называют уровнем поддержки. Статистика бутстреппинга еще не полностью разработана, поэтому пороговые значения для «достаточно высокого» уровня поддержки определяются путем моделирования или эмпирического анализа и могут варьировать в зависимости от целей конкретного исследования (например, значения более 90 процентов, или более 70 процентов; поддержка ниже 50 процентов обычно не считается надежной).
Для сравнения правдоподобия различных топологий деревьев, выводимых из одного и того же набора данных, разработаны статистические критерии, основанные на различных моделях правдоподобия (самые известные — критерий Кишино—Хасегавы и приблизительно несмещенный критерий).
Когда исследователь интересуется филогенетическим сродством конкретного таксона, соответствующая ветвь переносится в различные положения в дереве, при сохранении топологии остальных ветвей, и правдоподобие каждого из полученных деревьев сравнивается при помощи статистических критериев с правдоподобием исходного дерева, полученного методом НП. Разновидность этого критерия применяется к
Часто встречающиеся аномалии филогенетического анализа
Ни один филогенетический метод не застрахован от аномалий, которые часто оказывают заметное влияние на топологию дерева. Двумя основными классами филогенетических аномалий являются
Общие производные признаки
Важным подходом филогенетического анализа, дополняющим традиционные молекулярные филогенетические методы, является анализ общих производных признаков (так называемых синапоморфий), которые могут быть использованы для разграничения монофилетических групп (клад). Синапоморфии суть признаки, объединяющие всех членов монофилетической группы и исключающие все другие виды. В принципе одна достоверная синапоморфия может определять кладу. Однако это верно только в отсутствие гомоплазии, которую невозможно исключить для большинства признаков. Предполагаемые синапоморфии выбираются таким образом, чтобы свести вероятность гомоплазии к минимуму, например уникальные вставки в консервативных генах, в частности вставки мобильных элементов, мутации, которые требуют нескольких нуклеотидных замен, и слияния генов. В филогеномике идет активный поиск подобных редких геномных изменений. Одних синапоморфий часто недостаточно для несомненных филогенетических выводов, но они предоставляют дополнительные свидетельства для филогений, основанных на геномных последовательностях.
Деревья, не основанные на геномных последовательностях
Филогенетические методы пригодны не только для выравнивания гомологичных последовательностей, но и для анализа дистанционных матриц, полученных полногеномным сравнением любого числа других признаков (таких как содержание общих генов или оперонная организация). Например, в случае содержания общих генов расстояние между двумя геномами определяется как