Алфавитный подход к определению количества информации

  • docx
  • 13.11.2021
Публикация на сайте для учителей

Публикация педагогических разработок

Бесплатное участие. Свидетельство автора сразу.
Мгновенные 10 документов в портфолио.

Иконка файла материала Л2-00855.docx

 Алфавитный подход к определению количества информации

При алфавитном подходе к определению количества информа- ции отвлекаются от содержания информации и рассматривают ин- формационное сообщение как последовательность знаков определен- ной знаковой системы.

Представим себе, что необходимо передать информационное сообщение по каналу передачи информации от отправителя к получа- телю. Пусть сообщение кодируется с помощью знаковой системы, алфавит которой состоит из N знаков {1, ..., N} и вероятности появ- ления каждого знака в сообщении равны.

В простейшем случае, когда длина кода сообщения составляет один знак, отправитель может послать N разных сообщений. Количе- ство информации I, которое несет каждое сообщение, то есть один знак, можно рассчитать по формуле Хартли.

I = log2N


Эта величина называется информационной емкостью знака. С помощью этой формулы можно, например, определить информа- ционную емкость знака двоичной знаковой системы:

I = log22 = 1 бит

Интересно, что сама единица измерения количества информа- ции "бит" (bit) получила свое название от английского словосочета- ния "binary digit" "двоичная цифра".

Чем большее количество знаков содержит алфавит знаковой системы, тем большее количество информации несет один знак. В качестве примера определим количество информации, которое несет буква русского алфавита. В русский алфавит входят 33 буквы, однако на практике часто для передачи сообщений используются только 32 буквы (исключается буква "ѐ").

С помощью формулы Хартли определим количество информа- ции, которое несет буква русского алфавита:

N = 32    I = log232     I = log225     I=5 бит.

Таким образом, информационная емкость буквы русского ал- фавита равна 5 битам (если считать, что все буквы используются в сообщении с равной вероятностью).

Количество информации, которое несет знак, зависит от веро- ятности его получения. Если получатель заранее точно знает, какой знак придет, то полученное количество информации будет равно 0. Наоборот, чем менее вероятно получение знака, тем больше его ин- формационная емкость.

Сообщение состоит из последовательности знаков, каждый из которых несет определенное количество информации. Если знаки не- сут одинаковое количество информации, то количество информации Ic в сообщении можно подсчитать, умножив количество информации Iз, которое несет один знак, на длину кода К (количество знаков в со- общении):

Ic = Iз * K

Например, каждая цифра двоичного компьютерного кода несет информацию в 1 бит. Следовательно, две цифры несут информацию в 2 бита, три цифры - в 3 бита и т. д. Количество информации в битах равно количеству цифр двоичного компьютерного кода (табл. 1.1).


Таблица 1.1.

Количество информации, которое несет двоичный компьютерный код

 

Двоичный компьютерный код

111

01

11

011

0001

Количество информации

3 бит

2 бит

2 бит

3 бит

4 бит

В русской письменной речи частота использования букв в тек- сте различна, так в среднем на 1000 знаков осмысленного текста при- ходится 200 букв "а" и в сто раз меньшее количество буквы "ф" (все- го 2). Таким образом, с точки зрения теории информации, информа- ционная емкость знаков русского алфавита различна (у буквы "а" она наименьшая, а у буквы "ф" - наибольшая) и информацию, которое несѐт текстовое сообщение, надо рассчитывать с учетом вероятности появления букв, входящих в него.