2) семантический подход, основанный на измерении смыслового содержания информации. В рамках этого подхода существует несколько направлений. Например,
3) прагматический подход, определяющий количество информации как меру полезности информации для достижения пользователем поставленной цели;
4) структурный подход, связанный с задачами реорганизации, хранения и извлечения информации. При этом подходе учитываются только физическая и логическая структуры информации.
27 СИСТЕМА КОДИРОВАНИЯ ИНФОРМАЦИИ
Кодирование предназначено для унификации формы представления данных, относящихся к различным типам, с целью автоматизации работы с информацией.
Кодированием называется выражение данных одного типа через данные другого типа. Например, естественные человеческие языки можно рассматривать как системы кодирования понятий для выражения мыслей посредством речи. Также и азбуки являются системами кодирования компонентов языка с помощью графических символов.
Система кодирования информации, применяемая в вычислительной технике, называется двоичным кодированием. В ее основе лежит представление данных через последовательность двух знаков: 0 и 1. Эти знаки называют двоичными цифрами (binary digit), или сокращенно bit ( бит). С помощью одного бита могут быть закодированы два понятия: 0 или 1 (да или нет, истина или ложь и т.п.). С помощью двух бит можно выразить четыре различных понятия. Тремя битами можно закодировать восемь различных значений.
Наименьшей единицей кодирования информации в вычислительной технике после бита является байт. Он связан с битом следующим соотношением: 1 байт = 8 бит = 1 символ.
Как правило, одним байтом кодируется один символ текстовой информации. Поэтому для текстовых документов размер в байтах соответствует лексическому объему в символах.
Более крупной единицей кодирования информации является килобайт, который связан с байтом следующим соотношением: 1 Кб = 1024 байт.
Другие, более крупные, единицы кодирования информации образуются с помощью добавления префиксов мега – (Мб), гига – (Гб), тера – (Тб).
1 Мб = 1048580 байт.
1 Гб = 10737740000 байт.
1 Тб = 1024 Гб.
Для того чтобы закодировать двоичным кодом целое число, необходимо взять целое число и делить его пополам до тех пор, пока частное не будет равно единице. Совокупность остатков от каждого деления, записанная справа налево вместе с последним частным, и будет являться двоичным аналогом десятичного числа.
Для кодирования целых чисел от 0 до 255 достаточно иметь 8 разрядов двоичного кода (8 бит). С помощью 16 бит можно закодировать целые числа от 0 до 65535, а с помощью 24 бит – более 16,5 млн различных значений.
Для кодирования действительных чисел применяется 80–разрядное кодирование. При этом число предварительно преобразовывают в нормализованную форму, например:
2,1427926 = 0,21427926 χ 101 ;
500 000 = 0,5 χ 106 .
Первая часть закодированного числа называется мантиссой, а вторая часть – характеристикой. Большая часть из 80 бит отводится для хранения мантиссы, и некоторое фиксированное количество разрядов отводится для хранения характеристики.
28 КОДИРОВАНИЕ ТЕКСТОВОЙ ИНФОРМАЦИИ
Кодирование текстовой информации двоичным кодом осуществляется посредством обозначения каждого символа алфавита определенным целым числом. Тогда с помощью восьми двоичных разрядов можно закодировать 256 различных символов. Этого количества символов достаточно, чтобы выразить все символы английского и русского алфавитов.
В первые годы развития ЭВМ трудности кодирования текстовой информации были связаны с отсутствием необходимых стандартов кодирования. В настоящее время, напротив, эти трудности вызваны большим количеством одновременно действующих и зачастую противоречивых стандартов.
Для английского языка как для неофициального международного средства общения эти трудности были решены. Институт стандартизации США разработал и ввел в действие систему кодирования ASCII (American Standard Code for Information Interchange – стандартный код информационного обмена США).
Были разработаны несколько кодировок русского алфавита:
1) кодировка Windows–1251 была введена компанией «Microsof»t, и с учетом широкого распространения ОС и других программных продуктов этой компании в РФ она нашла широкое распространение;
2) кодировка КОИ–8 (Код Обмена Информацией, восьмизначный) является другой популярной кодировкой российского алфавита, распространенной в компьютерных сетях на территории РФ и в российском секторе Интернета;