Читаем Звуки и знаки полностью

В алфавите самоанского языка, на котором говорят жители одного из полинезийских архипелагов, всего лишь шестнадцать букв. Двоичный логарифм шестнадцати равен четырем, значит, одна буква самоанского алфавита несет информацию в четыре бита, на один бит меньше, чем буква русского.

Все это было бы совершенно правильно, если бы буквы алфавита встречались с одинаковой вероятностью, если бы языки не имели свойства, называемого в теории информации избыточностью. Избыточность позволяет определять, насколько разнится максимальная информация, которую может нести знак кода, от реальной, которую он несет. Иными словами, это своеобразная мера «неэкономности» кода, в том числе и любого языка мира.

Интуитивно, не производя подсчетов, мы догадываемся, что одни буквы, вроде о или с, встречаются часто, другие, вроде ф или э — реже. То же самое и со словами: союз и или местоимение я весьма часты, а прилагательное сиятельный или глагол выковыривать — гораздо реже. Мы согласуем нашу речь в роде, числе, падеже, залогах, наклонениях и т. д. Наша речь осмысленна, значит, не всякое слово может соединяться с другим… Короче говоря, на язык наложены ограничения, начиная с употребительности отдельных букв и кончая сочетаемостью слов по смыслу.

Подсчитать частоту употребления букв в различных алфавитах мира нетрудно. Выше приводилась величина информации, которую несет одна буква различных языков мира. Но если учитывать, что буквы имеют разную вероятность появления в тексте, то эта величина будет иной. Причем даже в языках, которые пользуются одним и тем же латинским алфавитом. В немецком она равна 4,1 бита, в английском — 4,03 бита, в испанском — 3,98 бита, во французском — 3,96 бита (исходная величина для всех них была, как вы помните, 4,76 бита). Для русского языка величина информации, которую несет одна буква, сократилась до 4,35 бита, для самоанского — до 3,4 бита.

Но это — лишь первое приближение. Ведь различные вероятности имеют не только отдельные буквы, но и сочетания двух, трех и т. д. букв (в русском языке, например, невозможно сочетание гласная плюс мягкий знак и другие подобные сочетания). Если учесть вероятности двухбуквенных сочетаний, то величина информации, которую несет одна буква русского алфавита, будет равна 3,52 бита, английского — 3,32 бита, французского— 3,17 бита, а самоанского — 2,68 бита. Учет вероятностей трехбуквенных сочетаний для русского алфавита дает величину в 3,01 бита, для английского — 3,1 бита, для французского — 2,83 бита.

Вы, вероятно, заметили, что по мере того, как мы учитываем все более и более «дальние» связи между буквами, уменьшается количество информации на одну букву и соответственно увеличивается избыточность языка. Возможно, вы заметили и другое: одновременно происходит сближение величины информации в языках, пользующихся различными алфавитами, по мере того, как мы все точнее и точнее описываем наш код-язык.

Действительно, когда была определена величина информации, приходящаяся на одну букву осмысленного текста в разных языках мира, она оказалась примерно одинаковой.

Методом отгадывания

Каким образом удалось определить эту величину? Ведь учет даже трехбуквенных сочетаний, частоты их „употребления в текстах того или иного языка требует работы огромного объема. Между тем статистические связи между буквами, конечно, не ограничиваются триграммами, учетом частот всех этих тся, сть, щий и т. п. Надо знать частоты сочетаний четырех, пяти и более букв.

Однако на этом пути мы заходим в тупик. Число возможных комбинаций из девяти букв, например, измеряется триллионами. Сколько же текстов мы должны исследовать, чтобы получить достоверную статистику! А ведь и девять букв — не предел. Мы пишем и говорим предложениями, значит, в пределах этого предложения будут существовать статистические связи между буквами, задаваемые лексикой, грамматикой, синтаксисом. Длина же предложения измеряется десятками букв.

Задача, казалось бы, неразрешимая… Однако Клод Шеннон, одним из первых занявшийся изучением языка как кода, предложил остроумный способ решения этой задачи с помощью так называемого метода отгадывания. Метод этот был усовершенствован крупнейшим математиком нашей страны А. Н. Колмогоровым. С помощью этого метода была определена величина информации, приходящаяся на одну букву русского, английского, французского, польского, румынского, азербайджанского и других языков мира. (Первоначально опыты проводились в МГУ, а затем были продолжены ленинградским лингвистом Р. Г. Пиотровским, описавшим их в книге «Информационные измерения языка».)

Мы уже говорили о том, что информация — это то, что снимает неопределенность, уничтожает незнание… Где существует неопределенность, которую снимают буквы того или иного языка? Разумеется, в голове читателя осмысленного текста на этом языке. Вот этого-то читателя и надо использовать в качестве своеобразного измерителя величины информации, которую несет одна буква алфавита.

Перейти на страницу:

Все книги серии Библиотека «Знание»

Похожие книги

Письмо на английском языке: примеры, как писать (личное, деловое, резюме, готовые письма как образец)
Письмо на английском языке: примеры, как писать (личное, деловое, резюме, готовые письма как образец)

Как писать письмо на английском языке? Пособие представляет собой собрание образцов писем на английском языке, затрагивающих самые разнообразные стороны повседневной жизни. Это дружеские и деловые письма, письма – приглашения в гости и письма-благодарности, письма-извинения и письма-просьбы.Книга знакомит с этикетом написания письма на английском языке, некоторыми правилами английской пунктуации и орфографии, а также содержит справочные материалы, необходимые при написании писем.Пособие рассчитано на широкий круг лиц, владеющих английским языком в той или иной степени и стремящихся поддерживать письменные контакты с представителями англоязычных стран. Может использоваться как учебник английского языка, репетитор английского.Книга основана на ускоренных методах изучения иностранных языков.

Денис Александрович Шевчук

Языкознание, иностранные языки / Иностранные языки / Образование и наука
Английский язык с Робинзоном Крузо (в пересказе для детей) (ASCII-IPA)
Английский язык с Робинзоном Крузо (в пересказе для детей) (ASCII-IPA)

Английский язык с Робинзоном Крузо (в пересказе для детей)Robinson Crusoe Written Anew for Children by James BaldwinНеобыкновенно простой язык. C этой книги хорошо начинать читать по-английски.Текст адаптирован (без упрощения текста оригинала) по методу Ильи Франка: текст разбит на небольшие отрывки, каждый и который повторяется дважды: сначала идет английский текст с «подсказками» — с вкрапленным в него дословным русским переводом и лексико-грамматическим комментарием (то есть адаптированный), а затем — тот же текст, но уже неадаптированный, без подсказок.Начинающие осваивать английский язык могут при этом читать сначала отрывок текста с подсказками, а затем тот же отрывок — без подсказок. Вы как бы учитесь плавать: сначала плывете с доской, потом без доски. Совершенствующие свой английский могут поступать наоборот: читать текст без подсказок, по мере необходимости подглядывая в подсказки.Запоминание слов и выражений происходит при этом за счет их повторяемости, без зубрежки.Кроме того, читатель привыкает к логике английского языка, начинает его «чувствовать».Этот метод избавляет вас от стресса первого этапа освоения языка — от механического поиска каждого слова в словаре и от бесплодного гадания, что же все-таки значит фраза, все слова из которой вы уже нашли.Пособие способствует эффективному освоению языка, может служить дополнением к учебникам по грамматике или к основным занятиям. Предназначено для студентов, для изучающих английский язык самостоятельно, а также для всех интересующихся английской культурой.Мультиязыковой проект Ильи Франка: www.franklang.ruОт редактора fb2. Есть два способа оформления транскрипции: UTF-LATIN и ASCII-IPA. Для корректного отображения UTF-LATIN необходимы полноценные юникодные шрифты, например, DejaVu или Arial Unicode MS. Если по каким либо причинам вас это не устраивает, то воспользуйтесь ASCII-IPA версией той же самой книги (отличается только кодированием транскрипции). Но это сопряженно с небольшими трудностями восприятия на начальном этапе. Более подробно об ASCII-IPA читайте в Интернете:http://alt-usage-english.org/ipa/ascii_ipa_combined.shtmlhttp://en.wikipedia.org/wiki/Kirshenbaum

Джеймс Болдуин , Илья Михайлович Франк

Языкознание, иностранные языки