Довольно просто, например, увидеть, как это применимо к изображениям. Интуитивно понятно, что для передачи изображения, состоящего из раскрашенных случайным образом точек, требуется гораздо больше битов информации — гораздо больше ответов “да” и “нет”, — чем для передачи изображения с повторяющимся узором, например в виде горизонтальных полосок. В первом случае необходимо определить цвет и яркость каждой точки изображения. Во втором — достаточно определить лишь два цвета и частоту их повторения.
В реальном мире изображения редко представляют собой случайный набор цветных точек или узор из ровных полос, но все же содержат закономерности. Инженеры используют это, чтобы сократить количество битов, необходимых для хранения и передачи видео и неподвижных изображений.
Эта методология применима также к устной речи, которая состоит из алфавита звуков: одни звуки в ней сливаются, а другие всегда остаются отделенными друг от друга. Выявив статистические закономерности, можно сократить число битов, необходимых для передачи разборчивой человеческой речи.
Именно в этом взаимодействии статистических закономерностей и числа битов, необходимых для передачи единицы информации, кроется связь информации с термодинамикой. И объясняется она математическими уравнениями, использованными Шенноном.
Почему? Дело в том, что формула, которую Шеннон вывел для оценки среднего количества битов, необходимого для шифрования единицы информации, почти идентична формуле Людвига Больцмана и Джозайи Уилларда Гиббса для расчета энтропии в термодинамике.
Вот уравнение Шеннона для определения размера любой заданной единицы информации:
H = —Σi
pi logb piА вот один из способов представления уравнения Больцмана для расчета энтропии любой определенной системы:
S = —kB
Σi pi ln piДва этих уравнения не просто выглядят похоже — они, по сути, одинаковы.
Вскоре после вывода своей формулы Шеннон указал на сходство Джону фон Нейману, который в то время считался лучшим математиком в мире. Фон Нейман пожал плечами и предложил Шеннону назвать свою меру числа битов, необходимого для передачи единицы информации, информационной энтропией, сославшись на то, что природу термодинамической энтропии тоже никто в полной мере не понимал.
Сходство объясняется тем, что Шеннон думал о такой системе коммуникации, как письменный английский язык, подобно тому как Больцман рассуждал о газе.
Вспомним пример с воздухом на кухне. Если теплота концентрируется в горячих зонах — например, в духовке, — то молекулы там в среднем обладают большей энергией, чем молекулы в остальной части комнаты. Но способов достичь такого распределения энергии гораздо меньше, чем способов распространить энергию по комнате. Следовательно, если открыть дверцу духовки, то теплота со временем рассеется.
Шеннон руководствовался сходной логикой.
Самое длинное слово в нетехническом английском языке —
Представьте большой круг, пропорциональный по размеру всем бессмысленным буквенным комбинациям, начиная с последовательностей из одной буквы и заканчивая последовательностями из 28 букв. Это эквивалент кухни, где рассеивается теплота.
Рядом с большим кругом находится гораздо более маленький круг, площадь которого пропорциональна количеству реально существующих английских слов. Это эквивалент кухни с горячей зоной.
Чтобы точно передать сообщение на английском языке, ни отправитель, ни получатель не должны выходить за пределы малого круга. Помехи или шум вытолкнут сообщение в большой круг со случайными буквенными последовательностями. Это сродни тому, как теплота рассеивается из горячей зоны, например из духовки, способствуя переходу от маловероятных к более вероятным формам распределения энергии.
Для того чтобы сообщение не искажалось, необходимо принять меры, подобно тому как меры принимаются для противодействия рассеянию теплоты. Во втором случае мы используем изоляционные материалы. В первом — аналогичную технику, которую Шеннон назвал избыточностью. Существуют буквы и слова, которые сами по себе не имеют значения и используются для защиты значения от превращения в шум.
Возьмем такой пример, основанный на одном из примеров Шеннона:
MST PPL HV LTL DFCLTY RDNG THS SNTNC[26]
Оно на двадцать букв короче “верной” орфографии, но значение его от этого не умаляется. По оценке Шеннона, он мог восстановить значение примерно 70 % любого текста, случайным образом удалив из него 50 % букв.