Читаем Аналогия полностью

Как вы помните, энтропия на символ русского текста около 5 бит, но при условии, что все буквы одинаково вероятны. Такой текст можно получить, если 32 буквы кириллицы (без различения букв е и ё, ь и ъ, как на телеграфе) написать на бумажках, а затем вытаскивать их из урны, записывать вытянутый символ и возвращать бумажку обратно. Сначала я хотел сделать это сам, но потом решил воспользоваться моделью Р. Л. Добрушина (его примеры цитируются в ряде книг). Вот какая фраза у него получилась:

сухерробьдщяыхвщиюайжтлфвнзагфоенвштцр хгбкучтжюряпчькйхрыс (1)

Как видите, получилось нечто такое, что нельзя и выговорить. Именно такой текст и содержит 5 бит/символ, он наиболее информативен, потому что вероятность появления каждого последующего знака определяется только случаем и всегда равна 1/32. Но мы-то знаем, что в русском тексте разные буквы встречаются с разной частотой. Чаще всего встречается буква «о» (частота 0,090.), но это только в письменной речи. В устной, в московском говоре, где безударное «о» выговаривается как «а» («с Масквы, с пасада, с калашнава ряда»), положение другое[4]. В других языках в фаворитах ходят другие буквы. Вспомните «Золотого жука» Эдгара По — там герой уверенно принимает наиболее часто встречающийся в тексте знак за букву «е». На пергаменте был английский текст, но и в испанском и во французском языке, которыми также пользовались пираты Карибского моря, «е» — чаще всего встречающаяся буква.

Определить частоту встречаемости букв просто, нужно только учитывать характер текста. Буква «ф» в русскоязычных текстах относительно редка (частота 0,002, из согласных чаще всего встречаются «т» и «н») — за исключением математических (за счет таких слов как функция и дифференциал). Лучше использовать средние данные по различным источникам. Оказалось, что с учетом разной частоты встречаемости энтропия на символ уже 4,35 бит. Искусственный «текст» с этими поправками будет выглядеть по Добрушину примерно так:

еынт цияьа оерб однг ьуемлолйк збя енвтша (2)

Как видите, этого приближения явно недостаточно, чтобы случайно подобранная фраза зазвучала по-русски. Мы подходим к важному феномену: наличию связей, корреляций между символами в тексте. В самом деле, не каждая буква может занимать любое место. После пробела никогда не встретится мягкий знак, а «и» — редко, лишь в заимствованных словах (Йорк, йод). Система корреляций между символами оказывается разной у разных языков. Русский язык относится к индоевропейским, в них возможны сочетания нескольких согласных (взвод, встреча, бодрствовать) и закрытые, оканчивающиеся на согласный слоги. А в японском и полинезийском языках гласные и согласные строго чередуются, и закрытых слогов нет. Это хорошо обыграл Г. Мелвил в повести «Тайпи», где герой представляется друзьям-канакам самым простым английским именем Том. Оказалось, что произнести его они не в состоянии. Томи, Томо — пожалуйста.

Но и любая гласная не может появиться после любой согласной. «Я» после «г» в русском языке крайне редка (лишь в заимствованном слове «гяур»), только Марина Цветаева осмеливалась писать — «рвя и жгя».

Добрушин учел корреляции между соседними буквами. Получилась следующая фраза:

умароно кач всванный рося ных ковкров недаре (3)

Энтропия на символ снижается до 3,52 бит, но фразу уже можно прочесть, не запинаясь. Но ведь корреляции касаются не только соседних букв, но и третьих и четвертых за выбранными. Если учтем частоту трехбуквенных сочетаний, будет фраза вроде:

покак пот дурноскака наконепио зне стволовил се твой обниль(4)

В ней уже встречаются вполне русские слова и части слов (энтропия 3,01 бит/символ). С учетом четырехбуквенных сочетаний получается фраза, которую, если ее быстро произнести, можно счесть за русскую:

весел враться не сухом и непо и корко (5)

Ясно, что учет более дальних корреляций приведет к появлению чисто русских слов, в дальнейшем уже и не в бессмысленных комбинациях, а энтропия на символ будет снижаться. Расшифровка поврежденного или закодированного текста «по Паганелю» как раз и связана с учетом корреляций между символами.

А как обстоит дело с символами в нуклеотидной последовательности ДНК или в аминокислотной — белка? Этот вопрос занимал меня давно, еще тогда, когда не был прочтен ни один ген, а за расшифровку первого белка — инсулина Сэнгер получил свою первую Нобелевскую премию. Поэтому я старался каждую появившуюся в литературе последовательность оценить с этой точки зрения. И уже первые результаты смущали и заставляли задуматься.

Перейти на страницу:

Похожие книги

Психология стресса
Психология стресса

Одна из самых авторитетных и знаменитых во всем мире книг по психологии и физиологии стресса. Ее автор — специалист с мировым именем, выдающийся биолог и психолог Роберт Сапольски убежден, что человеческая способность готовиться к будущему и беспокоиться о нем — это и благословение, и проклятие. Благословение — в превентивном и подготовительном поведении, а проклятие — в том, что наша склонность беспокоиться о будущем вызывает постоянный стресс.Оказывается, эволюционно люди предрасположены реагировать и избегать угрозы, как это делают зебры. Мы должны расслабляться большую часть дня и бегать как сумасшедшие только при приближении опасности.У зебры время от времени возникает острая стрессовая реакция (физические угрозы). У нас, напротив, хроническая стрессовая реакция (психологические угрозы) редко доходит до таких величин, как у зебры, зато никуда не исчезает.Зебры погибают быстро, попадая в лапы хищников. Люди умирают медленнее: от ишемической болезни сердца, рака и других болезней, возникающих из-за хронических стрессовых реакций. Но когда стресс предсказуем, а вы можете контролировать свою реакцию на него, на развитие болезней он влияет уже не так сильно.Эти и многие другие вопросы, касающиеся стресса и управления им, затронуты в замечательной книге профессора Сапольски, которая адресована специалистам психологического, педагогического, биологического и медицинского профилей, а также преподавателям и студентам соответствующих вузовских факультетов.

Борис Рувимович Мандель , Роберт Сапольски

Биология, биофизика, биохимия / Психология и психотерапия / Учебники и пособия ВУЗов