Читаем Форма реальности. Скрытая геометрия стратегии, информации, общества, биологии и всего остального полностью

Нельзя винить Маркова, что он свел литературные тексты к двоичной последовательности гласных и согласных; ему приходилось все считать вручную на бумаге. С появлением компьютеров возможности значительно расширились. Вместо двух болот у вас может быть 26 – по числу букв английского алфавита. А с учетом огромного количества текстов можно оценить все вероятности, необходимые для определения цепи Маркова для английских букв. Питер Норвиг, директор по исследованиям[163] компании Google, задействовал для вычисления этих вероятностей набор текстов объемом около 3,5 триллиона букв. Приблизительно 445 миллиардов букв, то есть 12,5 % от общего количества, – это буква Е, наиболее часто употребляемая в английском языке. Однако следующая за ней снова буква Е встречалась только в 10,6 миллиарда случаев, что дает нам вероятность немногим более 2 %. Гораздо чаще за Е следовала буква R, что наблюдалось 57,8 миллиарда раз; таким образом, доля буквы R среди «следующих за Е» составила почти 13 %, что примерно вдвое превышает частоту R среди всех букв. На деле сочетание («биграмма») ER – четвертое по частоте среди всех двухбуквенных сочетаний в английском языке. (Прежде чем посмотреть в сноске первые три, попробуйте их угадать[164].)

Мне нравится представлять буквы как места на карте, а вероятности – как дорожки, которые в различной степени привлекательны и проходимы. От E к R ведет широкая дорога с хорошим покрытием. Дорожка от E к B намного уже и заросла колючками. От T к H дороги почти односторонние: добраться в двадцать с лишним раз проще, чем от H к T. (Носители английского языка часто употребляют слова the, there, this и that, а вот light и ashtray реже[165].) Цепь Маркова сообщает нам, какой извилистый путь вероятнее, когда мы идем по карте английского текста.

Ну раз уж вы здесь, почему бы не пойти дальше? Вместо последовательности букв мы можем представить текст как последовательности биграмм; например, первое предложение этого абзаца будет начинаться так[166]:

ON, NC, CE, EY, YO, OU…

Теперь на наших дорогах есть определенные ограничения. От ON нельзя перейти к произвольному буквосочетанию: следующее должно начинаться на N. Данные Норвига показывают, что самое распространенное продолжение – NS (14,7 %), а затем NT (11,3 %). Это дает еще более четкое представление о структуре английского текста.

Инженер и математик Клод Шеннон[167] первым понял, что цепи Маркова можно использовать не только для анализа, но и для создания текста. Предположим, вы хотите создать фрагмент текста с теми же статистическими характеристиками, что и текст на английском языке, и он начинается с ON. Тогда вы можете использовать для выбора следующей буквы генератор случайных чисел, который выдаст букву S с вероятностью 14,7 %, букву T с вероятностью 11,3 % и так далее. Как только выберете следующую букву (например, T), у вас есть следующее буквосочетание (NT), и вы можете аналогично делать следующий шаг и так далее, пока не получите текст желаемой длины. Статья Шеннона «Математическая теория связи» (положившая начало всей теории информации) появилась в 1948 году, а потому ученый не имел доступа к 3,5 триллиона букв английских текстов на нынешних магнитных носителях. Поэтому он применял цепи Маркова иначе. Если у него было буквосочетание ON, он брал с полки какую-нибудь книгу и просматривал ее, пока не натыкался на стоящие рядом буквы O и N. Если после них шла буква D, то следующим буквосочетанием он брал биграмму ND. Затем искал в очередной книге сочетание ND и так далее. (Если после ON следует пробел, вы тоже можете это учитывать, тогда у вас будет получаться текст, разделенный на отдельные слова.) Вы записываете выстроенную таким образом последовательность букв и получаете знаменитую фразу Шеннона:

IN NO IST LAT WHEY CRATICT FROURE BIRS GROCID PONDENOME OF DEMONSTURES OF THE REPTAGIN IS REGOACTIONA OF CRE.

Простой марковский процесс создал текст, который не является английским, но выглядит как английский[168]. Такова жуткая сила этой цепи.

Конечно, цепь Маркова будет зависеть от набора текстов, выбранных для определения вероятностей, – «обучающих данных», как мы говорим в сфере машинного обучения. Норвиг задействовал огромный набор текстов, собранных Google с сайтов и ваших электронных писем; Шеннон использовал книги со своей полки, а Марков – Пушкина. Вот текст, который[169] я сгенерировал с помощью марковской цепи, обученной на списке имен, которые давали младенцам, родившимся в США в 1971 году:

Teandola, Amberylon, Madrihadria, Kaseniane, Quille, Abenellett…

Перейти на страницу:

Все книги серии Библиотека фонда «Эволюция»

Происхождение жизни. От туманности до клетки
Происхождение жизни. От туманности до клетки

Поражаясь красоте и многообразию окружающего мира, люди на протяжении веков гадали: как он появился? Каким образом сформировались планеты, на одной из которых зародилась жизнь? Почему земная жизнь основана на углероде и использует четыре типа звеньев в ДНК? Где во Вселенной стоит искать другие формы жизни, и чем они могут отличаться от нас? В этой книге собраны самые свежие ответы науки на эти вопросы. И хотя на переднем крае науки не всегда есть простые пути, автор честно постарался сделать все возможное, чтобы книга была понятна читателям, далеким от биологии. Он логично и четко формулирует свои идеи и с увлечением рассказывает о том, каким образом из космической пыли и метеоритов через горячие источники у подножия вулканов возникла живая клетка, чтобы заселить и преобразить всю планету.

Михаил Александрович Никитин

Научная литература
Ни кошелька, ни жизни. Нетрадиционная медицина под следствием
Ни кошелька, ни жизни. Нетрадиционная медицина под следствием

"Ни кошелька, ни жизни" Саймона Сингха и Эдзарда Эрнста – правдивый, непредвзятый и увлекательный рассказ о нетрадиционной медицине. Основная часть книги посвящена четырем самым популярным ее направлениям – акупунктуре, гомеопатии, хиропрактике и траволечению, а в приложении кратко обсуждаются еще свыше тридцати. Авторы с самого начала разъясняют, что представляет собой научный подход и как с его помощью определяют истину, а затем, опираясь на результаты многочисленных научных исследований, страница за страницей приподнимают завесу тайны, скрывающую неутешительную правду о нетрадиционной медицине. Они разбираются, какие из ее методов действенны и безвредны, а какие бесполезны и опасны. Анализируя, почему во всем мире так широко распространены методы лечения, не доказавшие своей эффективности, они отвечают не только на вездесущий вопрос "Кто виноват?", но и на важнейший вопрос "Что делать?".

Саймон Сингх , Эрдзард Эрнст

Домоводство / Научпоп / Документальное
Введение в поведение. История наук о том, что движет животными и как их правильно понимать
Введение в поведение. История наук о том, что движет животными и как их правильно понимать

На протяжении всей своей истории человек учился понимать других живых существ. А коль скоро они не могут поведать о себе на доступном нам языке, остается один ориентир – их поведение. Книга научного журналиста Бориса Жукова – своего рода карта дорог, которыми человечество пыталось прийти к пониманию этого феномена. Следуя исторической канве, автор рассматривает различные теоретические подходы к изучению поведения, сложные взаимоотношения разных научных направлений между собой и со смежными дисциплинами (физиологией, психологией, теорией эволюции и т. д.), связь представлений о поведении с общенаучными и общемировоззренческими установками той или иной эпохи.Развитие науки представлено не как простое накопление знаний, но как «драма идей», сложный и часто парадоксальный процесс, где конечные выводы порой противоречат исходным постулатам, а замечательные открытия становятся почвой для новых заблуждений.

Борис Борисович Жуков

Зоология / Научная литература

Похожие книги

Тринадцать вещей, в которых нет ни малейшего смысла
Тринадцать вещей, в которых нет ни малейшего смысла

Нам доступны лишь 4 процента Вселенной — а где остальные 96? Постоянны ли великие постоянные, а если постоянны, то почему они не постоянны? Что за чертовщина творится с жизнью на Марсе? Свобода воли — вещь, конечно, хорошая, правда, беспокоит один вопрос: эта самая «воля» — она чья? И так далее…Майкл Брукс не издевается над здравым смыслом, он лишь доводит этот «здравый смысл» до той грани, где самое интересное как раз и начинается. Великолепная книга, в которой поиск научной истины сближается с авантюризмом, а история научных авантюр оборачивается прогрессом самой науки. Не случайно один из критиков назвал Майкла Брукса «Индианой Джонсом в лабораторном халате».Майкл Брукс — британский ученый, писатель и научный журналист, блистательный популяризатор науки, консультант журнала «Нью сайентист».

Майкл Брукс

Публицистика / Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература / Прочая научная литература / Образование и наука / Документальное