На изображении ниже приведена иллюстрация того, как выглядят результаты секвенирования после выравнивания на референсный геном – определения участка генома, который был прочитан в каждом конкретном прочтении. Прочтения выглядят как серые горизонтальные полоски и в данном случае имеют длину 100 нуклеотидов. Количество таких прочтений, покрывающих каждый нуклеотид референсного генома (последовательность приведена в нижней части изображения) является покрытием. Например, позицию в геноме, обозначенную черным цветом, покрывает 44 прочтения (на экране видны не все 44), значит покрытие этой позиции – 44х.
Теперь еще раз обратим внимание на эту позицию – во всех прочтениях был обнаружен нуклеотид Т, что говорит о том, что в этом месте у человека есть замена референсного нуклеотида С на Т в гомозиготном состоянии (то есть генотип в этой позиции – Т/Т). Скорее всего, человек унаследовал вариант Т и от матери, и от отца. Сомнений здесь быть в целом не может. Однако посмотрим на другую позицию, выделенную темно-серым цветом. Из 42 прочтений, покрывающих эту позицию, 1 прочтение имеет нуклеотид А, в то время как другие имеют референсный нуклеотид G. С некоторой долей вероятности по этим данным можно предположить, что это ошибка секвенирования. Согласно исследованиям и спецификациям оборудования, например, компании
Наш пример ниже с неверно определенным нуклеотидом А в 1 из 42 ридов никак не повлияет на определение генотипа (G/G), так как биоинформатические программы, обрабатывающие такие данные, умеют находить и исключать такие ошибки секвенирования. Более того, каждый прочитанный нуклеотид в каждом прочтении имеет показатели качества, которые говорят о том, насколько система секвенирования была уверена в верности прочтения нуклеотида. Эти показатели также используется в биоинформатических программах, определяющих генотипы, еще больше снижая вероятность ошибок. В конце концов, алгоритмы финальной фильтрации данных вообще исключают участки с недостаточно хорошими показателями качества, позволяя быть максимально уверенными в конечном результате (
В секвенировании всегда нужно помнить о том, что на верность определения генотипа влияет огромное количество факторов, в том числе генетические контекст. Определить генетическую вариацию в генетически сложном регионе (например, длинной повторяющейся последовательности нескольких нуклеотидов) достаточно сложно, и вероятность ошибки для таких вариаций существенно выше. В целом нужно понимать, что такого рода генетические тесты являются скрининговыми, и в случае обнаружения каких-либо серьезных генетических изменений результат требует валидации методами так называемого золотого стандарта – ПЦР или секвенирование по Сэнгеру. Этим занимаются специализированные лаборатории, имеющие аккредитацию.
В случае обычных генетических тестов, выполняемых на ДНК микрочипах, ошибки составляют менее 1 процента всех прогенотипированных локусов, что подтверждается многочисленными исследованиями качества генотипирования различных чипов, в основном изготавливаемых компанией
1. однонуклеотидные замены (например, A->G) имеют меньшую частоту ошибки, чем инсерции и делеции;
2. мультинуклеотидные замены (например, A->G,C) имеют вероятность ошибки выше, чем однонуклеотидные;
3. замены, располагающиеся в генетически сложных регионах, имеют более высокую вероятность ошибки, чем все остальные типы генетических вариаций.
В общем, можно сказать, что, как и в любом другом научном методе, вероятность ошибки никогда не бывает нулевой, но она минимизирована максимально в соответствии с доступными на данный момент технологиями лабораторного анализа и анализа данных. Все тесты являются скрининговыми, то есть позволяют дешево проанализировать огромное количество локусов генома. Найденные подозрительные и клинически значимые изменения нужно валидировать методами золотого стандарта, которые на порядки дороже в пересчете на один участок генома, однако позволяют установить истину.
О чем расскажут ДНК-тесты?