Действительно, как учит теория вероятностей, вероятность появления двух событий равна произведению вероятностей этих событий. И сумма информации, которую несут кодовые знаки, равна информации всего текста, из этих знаков состоящего. Не будь логарифмов, нам пришлось бы умножать вероятности появления этих знаков. «Логарифмическая» формула Шеннона тем и удобна, что согласно ей информация двух страниц книги — это сумма информации первой страницы и информации второй страницы; информация всей книги — это сумма информации всех ее страниц.
Впрочем, здесь мы переходим уже не в область математики, а в область другой научной дисциплины — математической лингвистики.
«Бандвагон» от науки?
После того, как Клод Шеннон заложил основы вероятностной теории информации, эта теория нашла отклик среди ученых различных специальностей: биологов, лингвистов, философов, генетиков, искусствоведов, психологов, экономистов, геологов, химиков, математиков. Кодом стали называть любую систему знаков, предназначенных для передачи сообщений. Термины теории информации получили широчайшее применение в самых разных публикациях.
Но вот выходит краткая статья самого создателя этой теории, Клода Шеннона, озаглавленная «Бандвагон». Этим словом в США называют политическую партию, добившуюся популярности и победившую на выборах, или просто группу лиц, программа которых находит у населения широкую поддержку. Родился этот термин, вероятно, потому, что обычно победивший на выборах кандидат проезжал по городу в открытой машине, сопровождаемый оркестром (английское band значит оркестр, джаз, а wagon — повозка, карета).
За последние годы теория информации превратилась в своего рода бандвагон от науки — так начинает свою статью Шеннон. Появившись на свет в качестве специального метода в теории связи, она заняла выдающееся место как в популярной, так и в научной литературе. А в результате «значение теории информации было, возможно, преувеличено и раздуто до пределов, превышающих ее реальные достижения».
Очень редко удается открыть одновременно несколько тайн природы одним и тем же ключом, предостерегает Шеннон. Здание нашего искусственно созданного благополучия слишком легко может рухнуть, если в один прекрасный день окажется, что при помощи нескольких магических слов вроде информация, энтропия, избыточность и т. п. нельзя решить всех нерешенных проблем.
«Что можно сделать, чтобы внести в сложившуюся ситуацию ноту умеренности?»— задается вопросом сам Шеннон. И отвечает так: прежде всего представителям различных наук нужно ясно понимать, что основные положения теории информации касаются очень специфического направления, что оно не обязательно должно оказаться плодотворным, скажем, в психологии или экономике. «Я лично полагаю, что многие положения теории информации могут оказаться очень полезными в других областях науки, — говорит Шеннон. — Действительно, уже достигнуты некоторые весьма значительные результаты. Однако поиск путей применения теории информации в других областях не сводится к тривиальному переносу терминов из одной области науки в другую. Этот поиск осуществляется в длительном процессе выдвижения новых гипотез и их экспериментальной проверке».
Эти олова основоположника теории информации прекрасно иллюстрируют ситуацию, что сложилась в языкознании, когда человеческую речь стали рассматривать в качестве своеобразного кода. Изучение языка как кода началось уже на заре теории информации. Но только сейчас, по мере того как растут наши знания, мы начинаем постигать, насколько сложен, специфичен, можно сказать, удивителен код — наш язык, с помощью которого мы общаемся.
Биты и буквы
Сколько информации несет одна буква? Вопрос этот возник в первые же годы рождения теории информации. Простейший ответ на него найти легко. Надо взять число букв в том или ином алфавите мира, а затем выразить его в двоичных логарифмах. Ведь каждая буква — это один из возможных исходов, вроде выпадения герба или решетки монеты, одной из граней кубика и т. д. Число же этих исходов равно числу различных букв.
В русском алфавите тридцать три буквы, плюс еще нулевая — пробел между словами. Но так как
В языках, пользующихся латинским алфавитом, число букв равно двадцати шести. Прибавим еще пробел, нулевую букву, а затем выразим это в двоичных логарифмах, то есть в битах. Получаем величину в 4,76 бит. Столько информации несет одна буква английского, испанского, немецкого, французского языков.