Читаем Генетическая лотерея полностью

Генетическая лотерея

Анна Попенкова , Антонина Акименко , Дмитрий Никогосов , Кирилл Данилов , Ольга Баловнева

На изображении ниже приведена иллюстрация того, как выглядят результаты секвенирования после выравнивания на референсный геном – определения участка генома, который был прочитан в каждом конкретном прочтении. Прочтения выглядят как серые горизонтальные полоски и в данном случае имеют длину 100 нуклеотидов. Количество таких прочтений, покрывающих каждый нуклеотид референсного генома (последовательность приведена в нижней части изображения) является покрытием. Например, позицию в геноме, обозначенную черным цветом, покрывает 44 прочтения (на экране видны не все 44), значит покрытие этой позиции – 44х.

Теперь еще раз обратим внимание на эту позицию – во всех прочтениях был обнаружен нуклеотид Т, что говорит о том, что в этом месте у человека есть замена референсного нуклеотида С на Т в гомозиготном состоянии (то есть генотип в этой позиции – Т/Т). Скорее всего, человек унаследовал вариант Т и от матери, и от отца. Сомнений здесь быть в целом не может. Однако посмотрим на другую позицию, выделенную темно-серым цветом. Из 42 прочтений, покрывающих эту позицию, 1 прочтение имеет нуклеотид А, в то время как другие имеют референсный нуклеотид G. С некоторой долей вероятности по этим данным можно предположить, что это ошибка секвенирования. Согласно исследованиям и спецификациям оборудования, например, компании Illumina, лидера в области лабораторного оборудования для генетических исследований, такие ошибки происходят с частотой 0,1–0,5 %, то есть на 1000 прочитанных нуклеотидов от 1 до 5 могут быть прочитаны неверно. Однако здесь нужно отметить, что многократное прочтение одного и того же участка в геноме многократно снижает вероятность определения неверного генотипа для этого локуса.

Наш пример ниже с неверно определенным нуклеотидом А в 1 из 42 ридов никак не повлияет на определение генотипа (G/G), так как биоинформатические программы, обрабатывающие такие данные, умеют находить и исключать такие ошибки секвенирования. Более того, каждый прочитанный нуклеотид в каждом прочтении имеет показатели качества, которые говорят о том, насколько система секвенирования была уверена в верности прочтения нуклеотида. Эти показатели также используется в биоинформатических программах, определяющих генотипы, еще больше снижая вероятность ошибок. В конце концов, алгоритмы финальной фильтрации данных вообще исключают участки с недостаточно хорошими показателями качества, позволяя быть максимально уверенными в конечном результате (рис. 13).

Рис. 13. Результаты секвенирования после выравнивания на референсный геном.

В секвенировании всегда нужно помнить о том, что на верность определения генотипа влияет огромное количество факторов, в том числе генетические контекст. Определить генетическую вариацию в генетически сложном регионе (например, длинной повторяющейся последовательности нескольких нуклеотидов) достаточно сложно, и вероятность ошибки для таких вариаций существенно выше. В целом нужно понимать, что такого рода генетические тесты являются скрининговыми, и в случае обнаружения каких-либо серьезных генетических изменений результат требует валидации методами так называемого золотого стандарта – ПЦР или секвенирование по Сэнгеру. Этим занимаются специализированные лаборатории, имеющие аккредитацию.

В случае обычных генетических тестов, выполняемых на ДНК микрочипах, ошибки составляют менее 1 процента всех прогенотипированных локусов, что подтверждается многочисленными исследованиями качества генотипирования различных чипов, в основном изготавливаемых компанией Illumina. Как и в случае с секвенированием, вероятность ошибки зависит от генетического контекста:

1. однонуклеотидные замены (например, A->G) имеют меньшую частоту ошибки, чем инсерции и делеции;

2. мультинуклеотидные замены (например, A->G,C) имеют вероятность ошибки выше, чем однонуклеотидные;

3. замены, располагающиеся в генетически сложных регионах, имеют более высокую вероятность ошибки, чем все остальные типы генетических вариаций.

В общем, можно сказать, что, как и в любом другом научном методе, вероятность ошибки никогда не бывает нулевой, но она минимизирована максимально в соответствии с доступными на данный момент технологиями лабораторного анализа и анализа данных. Все тесты являются скрининговыми, то есть позволяют дешево проанализировать огромное количество локусов генома. Найденные подозрительные и клинически значимые изменения нужно валидировать методами золотого стандарта, которые на порядки дороже в пересчете на один участок генома, однако позволяют установить истину.