Такая процедура помогает избегать завышенной оценки уровня разнообразия, поскольку при секвенировании постоянно происходят небольшие ошибки. Однако в результате мы сваливаем в одну кучу некоторые микроорганизмы, различающиеся по немаловажным параметрам. Эрен заново рассмотрел старые данные, используя более действенный подход, направленный на поиск «наиболее информационно насыщенных нуклеотидных позиций» в наборе 16S рРНК. Его метод рассуждения базируется на теории информации и энтропии, созданной в 1948 году Клодом Шенноном. Мы можем рассматривать этот метод просто как применение сети с более мелкими ячейками при рыбалке в пруду, где плавают всевозможные генетические последовательности.
Ячейки оказались столь мелкими, что выделенные благодаря им новые бактериальные разновидности (теперь они именуются
Команда Эрена выбрала для обкатки своего метода именно оральный микробиом, поскольку интенсивное изучение микрофлоры рта уже дало обширный массив систематически организованной информации. Это одна из наиболее тщательно изученных групп нашего микробного населения. Многообразие жизни у нас во рту можно в полной мере оценить, обратившись к базе данных «Оральный микробиом человека», где, по состоянию на 2014 год, насчитывалось 688 видов (определение виду давалось через последовательности 16S рРНК). Целых 440 из них удалось вырастить в культуре – самая высокая доля среди всех участков тела, поскольку во рту меньше анаэробных бактерий (не выносящих присутствия кислорода), чем, к примеру, в кишечнике. У нас даже есть полные геномные последовательности для 347 из них. Самое давнее место исследования наших микробов ученые успели довольно подробно изучить. Однако новые, более изобретательные способы отсеивания данных показывают, что микрофлора рта еще многое способна поведать.
Эта новая процедура анализа состояла из двух основных стадий. Данные проекта «Микробиом человека», набор из 10 миллионов «показаний» для двух отдельных коротких участков гена 16S, классифицировали по олиготипам (490 на одном участке и 360 – на другом). Затем эти олиготипы сопоставили с полными последовательностями из более богатой базы данных «Оральный микробиом человека».
Оказалось, что олиготипы – то же, что и виды. Так ли это? На этот вопрос нет простого ответа, точно так же, как и на вопрос: что такое вообще «вид» у микробов? Какой же тогда смысл можно извлечь из всех этих данных? Видите ли (вздохнем поглубже), некоторые олиготипы (около 15 % общего числа) оказались не отличимыми от некоторых видов, описанных в каталоге. Некоторые группы из двух и более видов оказались не отличимыми по олиготипу. И (главный вывод, ради которого стоило затевать исследование) более 150 видов из базы данных принадлежали к
В этом немаловажный урок для всех, кто берется оценивать микробиомные исследования. То, что вы находите, зависит от того, где вы ищете. Возможно, скрытые от нас уровни разнообразия еще ждут своего обнаружения. Изучение микробиома при помощи алгоритмов, позволяющих обрабатывать гигантские массивы данных о генетических последовательностях, чем-то напоминает выслеживание животных в джунглях при помощи бинокля с линзами, пропускающими лишь лучи с узким диапазоном длин волн – только одного цвета из всего спектра. Поставив линзы, настроенные на другой цвет, вы увидите другой набор обитателей леса, хотя он и будет в чем-то перекрываться с тем, который вы уже видели через первую пару линз.
Из такого анализа можно сделать и другие выводы. Разнообразие, открываемое путем классификации на олиготипы, действительно играет важную роль; в этом нас больше всего убеждает то, что различные олиготипы микробов, кажущихся весьма похожими, обитают в разных местах. Отсюда наверняка можно узнать что-то новое об экосистеме, хотя пока и не очень понятно, что именно. Проверьте биоматериал более двух сотен человек, представленный в проекте «Микробиом человека», и может оказаться, что во всех пробах, взятых с языка, присутствует один олиготип, а в пробах, взятых с зубов, неизменно присутствует другой. Иногда бактерии, живущие, как правило, в разных местах, отличаются лишь на пару нуклеотидов в гене 16S.