Представьте себе школу, где все ученики носят униформу. Видя, как ученик каждый день появляется в одном и том же наряде, можно получить очень мало информации о его настроении, характере или погоде. С другой стороны, в школе, где нет униформы, выбор одежды способен передать всю эту информацию и даже больше. Например, если кто-то интересуется текущей температурой воздуха, то, увидев ученика в сарафане, а не в свитере, он может надолго развеять это любопытство. Таким образом, одежду можно использовать как код - это передаваемый набор символов, который передает смысл.
Причина, по которой студенты в униформе не могут нести эту информацию, заключается в том, что код требует вариантов. В словаре кода должно быть несколько символов (в данном случае - несколько нарядов в гардеробе студента), каждый из которых имеет свое собственное значение, чтобы любой из символов имел смысл.
Но важно не только количество символов в коде, но и то, как они используются. Допустим, у студента есть два варианта одежды: джинсы и футболка или костюм. Если студент в 99 процентах случаев носит джинсы и футболку, то из этого выбора гардероба можно извлечь не так уж много информации. Вам даже не нужно видеть студента, чтобы быть почти уверенным в том, что он одет - это, по сути, униформа. Но один день из ста, когда они появляются в костюме, говорит вам о чем-то важном. Он дает вам понять, что этот день какой-то особенный. Это говорит о том, что чем реже используется символ, тем больше информации он содержит. Обычные символы, с другой стороны, не могут передать много информации.
Шеннон хотел отразить эту связь между использованием символа и его информационным содержанием. Поэтому он определил информативность символа в терминах вероятности его появления. В частности, чтобы количество информации уменьшалось по мере увеличения вероятности появления символа, он сделал информацию символа зависящей от обратной величины его вероятности. Поскольку обратная величина числа - это просто единица, деленная на это число, большая вероятность означает меньшую "обратную вероятность". Таким образом, чем чаще используется символ, тем ниже его информативность. Наконец, чтобы удовлетворить другие математические требования, он взял логарифм этого значения.
Логарифм, или "логарифм", определяется по основанию. Например, чтобы вычислить логарифм числа по основанию 10, нужно спросить: "До какой степени нужно увеличить 10, чтобы получить это число? Логарифм 100 по основанию 10 (записывается как log10100) равен 2, потому что 10 в степени 2 (т. е. 10x10) равно 100. Таким образом, логарифм 1000 равен 3. А логарифмическая линейка от 100 до 1000 равна 2 и 3.
Шеннон решил использовать основание два для своего определения информации. Поэтому, чтобы вычислить информацию, содержащуюся в символе, нужно спросить: "До какой степени нужно возвести в степень два, чтобы получить обратную величину вероятности символа? Если взять наряд нашего студента - джинсы и футболку - как символ, который появляется с вероятностью 0,99, то его информативность равна log2(1/0,99), что составляет примерно 0,014. Костюм, который появляется с вероятностью 0,01, напротив, имеет информационное содержание log2(1/0,01) или примерно 6,64. Опять же, чем ниже вероятность, тем выше информация2.
Но Шеннона интересовала не только информация, содержащаяся в одном символе, - он хотел изучить информационное содержание кода. Код определяется набором символов и частотой использования каждого из них. Поэтому Шеннон определил общую информацию в коде как сумму информации всех его символов. Важно, что эта сумма взвешена - то есть информация каждого символа умножается на частоту использования этого символа.