Двоичный логарифм 1 равен нулю; двоичный логарифм 3 равен 1,58496; числа 5 — 2,32193; числа 6 — 2,58496; числа 7 — 2,80735, и так далее. Значит, информация в сообщении о том, какая из шести сторон кубика выпала, равна 2,58496 бита. Точно так же можно найти, пользуясь таблицей двоичных логарифмов, значение в битах любого числа выборов.
ЗАЧЕМ НУЖНЫ ЛОГАРИФМЫ!
Но, может быть, проще обходиться без логарифмов? Ведь и так ясно, что чем больше выборов, чем больше неопределенности, тем больше информации несет сообщение, уничтожающее, «снимающее» эту неопределенность. А количество информации измерять просто числом возможных выборов, и только.
Разумеется, можно выбрать и такую меру. Но у нее есть явное неудобство по сравнению с мерой логарифмической.
Информацию, выраженную в битах, можно складывать и вычитать. Скажем, в сообщении о выборе из восьми возможностей содержится на 2 бита больше, чем в сообщении о выборе из двух исходов, так как 3 бита минус 1 бит равно 2 битам. Информация многих кодовых знаков равна сумме информации, которую несет каждый знак. Но если мерять информацию не логарифмически, в битах, то это было бы не так. И вот почему.
Мы говорили о равноправных, равновероятных выборах. Например, каждая из сторон монеты выпадает с равной вероятностью. Допустим, нам десять раз сообщили, какая из сторон монеты выпала при десяти подбрасываниях. Информация об этом равна 10 битам. Но не «20 выборам», если принять за единицу измерения просто число выборов.
Теория вероятностей говорит: вероятности надо не складывать, а умножать. У нас произошло десять событий, десять результатов подбрасывания монеты. И что бы узнать количество информации, которое мы получили, нужно перемножить число выборов десять раз, если мы хотим получить измерение информации в «числе выборов», а не в битах.
Гораздо проще не умножать, а складывать числа, особенно большие. Логарифмы и позволяют делать это.
Преимущество логарифмической меры стало особенно ясно после того, как в 1947 году американец Клод Шеннон заложил основы современной теории информации.
До сих пор речь шла лишь о равноправных, равновероятных исходах. Если брать падение монеты или кубика, то это будет так. Но большинство выборов неравновероятны. Например, в вашем классе единицы и двойки — явление гораздо менее частое, чем пятерки или четверки. Температура ниже нуля — обычное явление в январе и очень редкое в июле. Слово «целую» и «приезжаю» можно встретить почти в любой телеграмме, а чтобы найти слова «сумма синусов», вам, вероятно, пришлось бы пересмотреть не одну тысячу телеграмм.
Как же быть с такими событиями, «равновероятными» кодовыми знаками? До Шеннона считалось, что измерить количество информации, которое несут эти знаки, нельзя. Ведь вероятность хорошей или плохой оценки зависит от успеваемости в классе, от того, насколько хорошо выучен урок, а не от математики. Точно так же и погода, и телеграммы, посылаемые с почтамта, и многие другие «неравновероятные» события.
Клод Шеннон показал, что с помощью теории вероятностей можно учесть и эти причины, казалось бы, совершенно не «подведомственные» математике. Например, если в классе из 100 отметок по физике 65 — пятерки, 22 — четверки, 9 — тройки, 4 — двойки и ни одной единицы, можно считать, что вероятность получения «отлично» равна 0,65, «хорошо» — 0,22, «посредственно» — 0,09, «плохо» — 0,04, «очень плохо» — 0,00.
Зная эти вероятности, можно найти количество информации, которое получает классный руководитель, узнавая об успеваемости по физике.
Давайте посчитаем сами. Всего возможно пять разных оценок, пять различных исходов. Двоичный логарифм 5 равен 2,32193. Но все оценки, как мы говорили, имеют разную вероятность. Ученик, скорее всего, получит 5 или 4, а не 3 или 2. Учитывая разную вероятность этих оценок, по формуле Шеннона можно найти количество информации более точно. Оно равно вероятности первой оценки (пятерки), умноженной на двоичный логарифм вероятности этой же оценки, плюс вероятность второй оценки, умноженной на двоичный логарифм вероятности этой же оценки,
и т. д.
В итоге получается 1,3831 бита двоичных единиц информации. Почти в два раза уменьшилось количество информации, когда мы учли «неравноправие» различных выборов!
Формула Шеннона может помочь найти количество информации при любом числе выборов. Лишь бы нам была известна вероятность их появления. А вероятность эту можно определить, производя статистические подсчеты.
Погода не зависит от математики. Но если вести регулярные и многолетние наблюдения, можно знать, как часто бывают в данной местности дождь, засушливые дни, заморозки, иными словами — «вероятность появления» дождя, заморозков, засушливых дней.
С помощью формулы Шеннона можно найти и количество информации, которое несет одна буква письменной речи. А ведь зная это, легко высчитать, сколько битов информации содержится в любом печатном тексте.
БИТЫ И БУКВЫ
В русском языке 33 буквы. Двоичный логарифм числа 33 равен 5,04439.
Василий Кузьмич Фетисов , Евгений Ильич Ильин , Ирина Анатольевна Михайлова , Константин Никандрович Фарутин , Михаил Евграфович Салтыков-Щедрин , Софья Борисовна Радзиевская
Приключения / Публицистика / Детская литература / Детская образовательная литература / Природа и животные / Книги Для Детей