Читаем Холодильник Эйнштейна полностью

Холодильник Эйнштейна

Таким образом, чтобы передать слово help (“помоги”), Боб начинает с 1.

Алиса отбрасывает правую половину алфавита, и у нее остается последовательность abcdefghijklm.

Боб передает 0.

Теперь Алиса отбрасывает левую половину буквенной последовательности abcdefghijklm, и у нее остается ghijklm.

(По договоренности, если в списке нечетное количество букв, то делить его всегда следует таким образом, чтобы левая половина оказывалась на одну букву короче правой.)

Боб передает 1.

Алиса отбрасывает правую половину ghijklm, и у нее остается ghi.

Боб передает 0.

Алиса отбрасывает леву 10 половину ghi, и у нее остается hi. Боб передает 1.

Алиса отбрасывает правую половину Аг, и у нее остается h.

Алиса успешно получает первую букву сообщения Боба, А, которая зашифрована последовательностью 10101. Затем Алиса возвращается к полному алфавиту и дешифрует вторую букву сообщения.

По этому методу букве е соответствует последовательность 11010, букве I — 10001, а буквер — oiioo. Слово help шифруется таким образом: 10101, 11010, 10001, 01100.

Алиса и Боб зашифровали слово help ответами “да” или “нет” на двадцать вопросов, переданных с помощью световых сигналов. В такой системе любую букву английского алфавита можно передать в форме ответа “да” или “нет” на пять вопросов. Ответ 1 или 0 на каждый подобный вопрос Шеннон назвал “битом” информации. Следовательно, в нашем коде информационный размер каждой буквы английского алфавита составляет пять битов.

Возможно, читателям известно, что словом “бит” также обозначается одна цифра в двоичном числе. Таким образом, число 2 можно представить как “двухбитовое число” 10, число 3 — как 11, число 4 — как 100 и так далее. Биты Шеннона отличаются. Это просто ответы “да” или “нет” на вопросы, и их задача заключается в том, чтобы представить информацию в количественном выражении путем подсчета числа вопросов, необходимых для передачи сообщения. Если вернуться к тому, как Боб передал слово help Алисе, окажется, что важнее всего нам количество потребовавшихся битов. Конкретное значение каждого из битов было лишь артефактом условий, установленных Алисой и Бобом.

Можно ли считать такое преобразование сообщения в последовательность битов “да” или “нет” объективной мерой его размера? Шеннон хотел найти такой способ измерять информацию, который стал бы универсальным и независимым от метода шифрования. Для этого он отметил, что размер единицы информации должен соответствовать наименьшему числу битов, необходимых для шифрования сообщения. Можно ли использовать менее двадцати битов, чтобы передать сообщение helpl Ответ да, если принять во внимание тот факт, что одни буквы в любом написанном на английском языке тексте встречаются гораздо чаще других. В приведенном примере Алиса и Боб считали вероятность появления каждой из букв одинаковой, но в настоящем англоязычном тексте дело обстоит иначе. Шеннон продемонстрировал, что необходимо учитывать эту статистическую закономерность.

Во всех англоязычных текстах чаще всего встречается буква е, на которую приходится 12,7 % текста. Следом за ней идет буква t (9,1 % текста), а реже всего встречается z, которая не только стоит последней в алфавите, но и довольствуется всего 0,074 % всех текстов. Именно поэтому при игре в Scrabble за использование z присуждается больше очков, чем за использование е. Шеннон показал, что знание этой статистики может сократить количество битов, необходимых для передачи сообщения.

Чтобы понять почему, представьте, что алфавит Алисы и Боба отражает статистическую вероятность использования каждой буквы. Такой “статистически точный” алфавит выглядит следующим образом: etaoinshrdlcumwfgypbvkjxqz. Теперь изменим этот алфавит, включив в него больше копий распространенных букв и отразив частоту их встречаемости в английском языке: в нем будет 172 буквы е, 122 t, 110 а, 101 о, 94 I, 91 п и так далее до 2 х, i q и i z. Всего в него войдет 1351 буква, и выглядеть он будет так: