Читаем Репортаж с ничейной земли. Рассказы об информации полностью

Все эти сведения о вероятностных законах словесных текстов вы можете почерпнуть из специальных статей и книг. Но если вам посчастливится побывать в лабораториях Нового Города, вы сможете увидеть собственными глазами, как случаем управляет закон. Здесь вам предложат вновь обратиться к урне с шарами, но на этот раз шары будут отличаться не цветом, а надписью: на каждом шаре будет написана какая-то буква. Вынимая шары наугад и вновь бросая их в урну, вы получите что-нибудь вроде: сухерробьдш яыхвщиюайжтлфвнзстфоенвштцрпхгбкуч тжюряпчъкйхрыс.

- Для чего вы заставляете меня записывать эту бессмыслицу? - спросил я у сотрудника лаборатории, демонстрировавшего этот опыт.

- Бессмыслицу? - улыбнулся он. - Да, пожалуй. Это пример самого хаотичного текста. В этой урне 320 шаров, каждая буква повторяется 10 раз. Вероятность всех букв одинакова:


PА = PБ = PВ = ... = PЯ = 1/32.


Если вы подставите эти значения в формулу Шеннона, то получится, что каждая буква дает информацию в количестве 5 бит.

(Читатель уже знаком с примером такого расчета. В данном случае:


I =

(

1


32

·log

1


32

)

·32 = log

1


32

 = - log 25 = 5 бит.)


Обратите внимание, - продолжал он, указывая на непонятную запись, - каким несуразным получилось второе слово. Встречали ли вы когда-нибудь такие «слова»? Конечно, нет, ведь в нем целых 59 букв! Продолжая этот опыт, вы будете все время получать такие же длинные и несуразные «слова». Почему? Потому что буквы чередуются здесь беспорядочно. 10 шаров не имеют букв. Вынимая такой шар, вы отмечаете пробел, соответствующий концу «слов». Вероятность появления пробела так же равна 1/32. Это значит, что в среднем на каждые 32 вынутые буквы будет один раз попадаться пробел. Значит, в нашем «тексте» 31 буква - это средняя длина слов. А ведь в нормальном тексте средняя длина слова составляет не более 7 букв.

Как же сделать, чтобы наш «текст» стал похож на обычные тексты? А очень просто. Возьмем другую урну. В этой урне среди каждой сотни шаров буква а попадется семь раз. Приблизительно с такой частотой повторяется она в русском тексте. Количество других букв также соответствует их вероятности. Повторите опыт.

На этот раз сообщение выглядело так:

еыт цияьа оерв однт ьуемлойк збя енв тша.

- Не правда ли, это мало похоже на обычную фразу? - обратился ко мне ученый. - И все же здесь уже есть какой-то порядок, по крайней мере нет слов слишком длинных, и каждое из них можно даже произнести вслух. А впрочем, нет. Как произнесешь мягкий знак, - стоящий в начале слова или поеле гласного звука я? Мы можем оценить в цифрах, много ли порядка появилось теперь в нашем тексте. Для этого надо знать, чему равна вероятность каждой буквы, подставить их в формулу Шеннона и подсчитать значение I. Мы уже делали такие расчеты, Получалось, что на каждую букву приходится теперь около 4 бит.

Итак, в первом случае было 5 бит на букву, а теперь только 4. Почему? Потому что уменьшилась неопределенность. Разные буквы имеют теперь не одинаковую вероятность, а разную. У формулы Шеннона есть одно очень важное свойство: она всегда покажет, что наибольшее значение I соответствует равной вероятности всех возможных событий. Если есть черные и белые шары, энтропия будет самой большой, когда и тех и других по 5, по 10 или по 100 штук. Если черных больше, чем белых, неопределенность становится меньше. Значит, в формуле Шеннона уменьшилось I.

То же самое с текстом. Раньше каждые 100 букв несли 500 бит информации, теперь 100 букв дают только 400 бит. Неопределенность фразы, состоящей из 100 букв, стала меньше ровно на 100 бит.

А можно рассуждать по-другому: перед тем как класть в урну шары с обозначениями букв, мы учли их вероятность. От этого в нашем тексте стало больше порядка: в каждой стобуквенной фразе порядок возрос на 100 бит.

- А сколько порядка в обычном печатном тексте? - спросил я ученого.

- На этот вопрос не так-то просто ответить. Чтобы оценить в битах этот порядок, надо учесть корреляцию всех букв и слов. Но мы с вами поступим несколько проще. Вот перед вами стоит вычислительная машина. В ее памяти хранятся все буквы алфавита. Мы сейчас зададим ей такую программу: она будет помнить три последние буквы написанного ей текста и сама выберет четвертую. При этом она учтет вероятности сочетаний: например, она «знает», что вероятность сочетания ста составляет 5 процентов, а вероятность стю - только 1 процент. Значит, в тексте, написанном этой машиной, сочетание стю встретится в пять раз реже, чем сочетание ста. Внимание, я включаю машину!

Прошло несколько мгновений, и на печатном бланке появились такие «слова»:

весел враться не сухом и непо и корко6.

Перейти на страницу:

Все книги серии Эврика

Похожие книги

Тайны нашего мозга, или Почему умные люди делают глупости
Тайны нашего мозга, или Почему умные люди делают глупости

Мы пользуемся своим мозгом каждое мгновение, и при этом лишь немногие из нас представляют себе, как он работает. Большинство из того, что, как нам кажется, мы знаем, почерпнуто из общеизвестных фактов, которые не всегда верны… Почему мы никогда не забудем, как водить машину, но можем потерять от нее ключи? Правда, что можно вызубрить весь материал прямо перед экзаменом? Станет ли ребенок умнее, если будет слушать классическую музыку в утробе матери? Убиваем ли мы клетки своего мозга, употребляя спиртное? Думают ли мужчины и женщины по-разному? На эти и многие другие вопросы может дать ответы наш мозг. Глубокая и увлекательная книга, написанная выдающимися американскими учеными-нейробиологами, предлагает узнать больше об этом загадочном природном механизме. Минимум наукообразности — максимум интереснейшей информации и полезных фактов, связанных с самыми актуальными темами: личной жизнью, обучением, карьерой, здоровьем. Перевод: Алина Черняк

Сандра Амодт , Сэм Вонг

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература
The Beatles от A до Z: необычное путешествие в наследие «ливерпульской четверки»
The Beatles от A до Z: необычное путешествие в наследие «ливерпульской четверки»

Британский писатель, продюсер и музыкант Питер Эшер рассказывает историю «Битлз» через песни: их собственные, их коллег, предшественников и последователей. Для этого он использует классическую алфавитную систему, однако применяет ее неожиданным образом. К примеру, вы не встретите известнейших «Yesterday» на букву Y или «All you need is love» на букву A, вместо этого Эшер рушит устоявшиеся ассоциации и заменяет их другими, показывая даже привычные треки с новой стороны. При этом автор так искусно препарирует музыкальные композиции, указывая нам на важные и «вкусные» детали, что вам гарантированно захочется все это переслушать – так не отказывайте себе в удовольствии.И не забывайте, что Эшер лично знал легендарную «четверку», ведь Пол Маккартни даже когда-то жил в его доме! Поэтому здесь нашлось место и для уникальных историй и воспоминаний, которые вряд ли можно прочесть где-либо еще.Эта книга – повод влюбиться в музыку «Битлз» снова.

Питер Эшер

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература
Происхождение видов путем естественного отбора, или Сохранение благоприятных рас в борьбе за жизнь
Происхождение видов путем естественного отбора, или Сохранение благоприятных рас в борьбе за жизнь

Этот труд Чарлза Дарвина – не только основа эволюционной биологии, но и дневник путешественника-натуралиста, побывавшего в Южной Америке, на Галапагосских островах и в Австралии еще в конце XIX века. Его научные и досужие наблюдения – это документ эпохи – эпохи в жизни людей, наземных улиток, утконосов, кенгуру, лавра и акаций. Автору, обладавшему интеллигентным юмором, удалось собрать замечательный «этнографический» материал о живой природе, рассказав об удивительных особенностях физиологии и поведения живых существ и передав слухи о занятных происшествиях, имевших место в их биографии.Книга для всех и на все времена.

Чарльз Роберт Дарвин

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература / Биология / Образование и наука