Не всякое сочетание букв образует английское слово (так же, как русское, немецкое и т. д.). Одни буквы и сочетания букв употребляются в английском очень часто (например, «ти-эйч»), другие — редко, а третьи по встречаются вообще (например «эйч-ти»). Кроме законов фонетики, морфологии, лексики, есть еще и законы грамматики, требующие согласования времен, падежей и т. д. Все это накладывает на язык множество «запретов», ограничений. И тем самым создает «избыточность» языка (если есть местоимение «мы», то и глагол будет во множественном числе и т. д.). Для английского языка она равна примерно 75 процентам. То есть примерно три четверти букв в английском тексте являются «липшими», появление их вызвано не стремлением передать информацию, а законами грамматики, лексики и т. д. Конечно, это сокращает во много раз число возможных сообщений и позволяет находить «расстояние единственности» для криптограмм.
Возможно ли применить методику Шеннона к древним текстам? Разумеется, все исходные величины — и число дешифруемых знаков, и число их возможных «референтов», и величина избыточности — будут иными. Но общий подход остается тем же. Справедливой остается и формула, по которой определяется «расстояние единственности», объем текста, при котором возможна его однозначная расшифровка.
Лингвисты определили величину избыточности в самых разных языках мира: в русском и армянском, немецком и азербайджанском, самоанском и румынском. И везде она колеблется в пределах 70–80 процентов, т. е. в любом тексте, записанном буквами около трех четвертей этих букв — «лишние», они диктуются законами языка. Меньше всего различных букв в гавайском алфавите — всего лишь 12 согласных и 7 гласных. Больше всего букв и в алфавитах, разработанных советскими языковедами для языков Кавказа — свыше пятидесяти. Нетрудно определить и число возможных «референтов» знаков любого алфавита, которыми будут звуки языка. Меньше всего их в языке аранта, одного из австралийских племен — всего десять звуков, десять фонем. Больше всего — в тех же языках Кавказа (до восьмидесяти фонем!).
Зная эти цифры, нетрудно определить, какой величины должен быть алфавитный текст, чтобы мы могли дать его однозначную дешифровку. Для гавайского алфавита получаем 20 букв, для русского — 70, армянского — 80. Допустим, мы встретились с самым трудным случаем, когда текст написан на каком-то из кавказских языков, где может быть до 80 звуков «референтов», а число неизвестных знаков письма превышает 50, как в нерасшифрованном агванском письме. Величина «расстояния единственности» будет равна здесь 200 знакам, в десять раз превышая величину для гавайского алфавита. Но это — предел. Значит, если в нашем распоряжении есть текст, записанный нерасшифрованным алфавитом, и его объем равен 200 и более знакам, можно с уверенностью утверждать: дешифровка этого текста возможна, ибо она имеет только одно «решение», текст можно прочесть только одним способом.
Но ведь исследователям приходится иметь дело не только и не столько с алфавитами, но и со слоговыми и смешанными, словесно-слоговыми системами письма, а также логографическими письменностями, типа тангутской или китайской.
Определить число разных знаков в системе письма нетрудно. Можно рассчитать, скольким слогам или словам должны соответствовать эти знаки. Гораздо трудней вычислить величину «избыточности» для древних письменностей. Но и эта задача разрешима.
Для логографического (знак-слово) письма избыточность равна примерно 50 процентам, Это означает, что «липшими» в тексте, написанном логограммами, будет половина всех знаков. Логография оказывается гораздо более экономным письмом, чем алфавит (правда, эта экономия достигается дорогой ценой, сравните несколько десятков знаков в алфавитах и тысячи и тысячи знаков-логограмм в китайском и тангутском письме). Для того чтобы однозначно расшифровать текст, записанный знаками-логограммами, он должен быть очень большим, порядка миллиона знаков.
Величина избыточности слогового письма находится где-то между величинами алфавита и логографии (слоговое письмо более «ёмко», чем буквенное, но менее «ёмко», чем логографическое), т. е. между 50 и 70 процентами. В среднем можно принять величину, равную 60 процентам. Для определения числа «референтов» слоговых знаков нужно принимать во внимание тип слогового письма. Если все знаки передают лишь открытые слоги («гласный» и «согласный + гласный»), их будет гораздо меньше, чем в случае употребления открытых и закрытых слогов. От этого зависит и величина «расстояния единственности». Для силлабариев первого типа она будет равна примерно 300–500 знакам, для второго — порядка 5–8 тысяч знаков (ведь и число возможных слогов в них измеряется многими и многими сотнями!).