Алфавитный подход к определению количества информации
При алфавитном подходе к определению количества информа- ции отвлекаются от содержания информации и рассматривают ин- формационное сообщение как последовательность знаков определен- ной знаковой системы.
Представим себе, что необходимо передать информационное сообщение по каналу передачи информации от отправителя к получа- телю. Пусть сообщение кодируется с помощью знаковой системы, алфавит которой состоит из N знаков {1, ..., N} и вероятности появ- ления каждого знака в сообщении равны.
В простейшем случае, когда длина кода сообщения составляет один знак, отправитель может послать N разных сообщений. Количе- ство информации I, которое несет каждое сообщение, то есть один знак, можно рассчитать по формуле Хартли.
I = log2N
Эта величина называется информационной емкостью знака. С помощью этой формулы можно, например, определить информа- ционную емкость знака двоичной знаковой системы:
I = log22 = 1 бит
Интересно, что сама единица измерения количества информа- ции "бит" (bit) получила свое название от английского словосочета- ния "binary digit" – "двоичная цифра".
Чем большее количество знаков содержит алфавит знаковой системы, тем большее количество информации несет один знак. В качестве примера определим количество информации, которое несет буква русского алфавита. В русский алфавит входят 33 буквы, однако на практике часто для передачи сообщений используются только 32 буквы (исключается буква "ѐ").
С помощью формулы Хартли определим количество информа- ции, которое несет буква русского алфавита:
![]()
![]()
N = 32 I = log232
I =
log225 I=5
бит.
Таким образом, информационная емкость буквы русского ал- фавита равна 5 битам (если считать, что все буквы используются в сообщении с равной вероятностью).
Количество информации, которое несет знак, зависит от веро- ятности его получения. Если получатель заранее точно знает, какой знак придет, то полученное количество информации будет равно 0. Наоборот, чем менее вероятно получение знака, тем больше его ин- формационная емкость.
Сообщение состоит из последовательности знаков, каждый из которых несет определенное количество информации. Если знаки не- сут одинаковое количество информации, то количество информации Ic в сообщении можно подсчитать, умножив количество информации Iз, которое несет один знак, на длину кода К (количество знаков в со- общении):
Ic = Iз * K
Например, каждая цифра двоичного компьютерного кода несет информацию в 1 бит. Следовательно, две цифры несут информацию в 2 бита, три цифры - в 3 бита и т. д. Количество информации в битах равно количеству цифр двоичного компьютерного кода (табл. 1.1).
Таблица 1.1.
Количество информации, которое несет двоичный компьютерный код
|
Двоичный компьютерный код |
111 |
01 |
11 |
011 |
0001 |
|
Количество информации |
3 бит |
2 бит |
2 бит |
3 бит |
4 бит |
В русской письменной речи частота использования букв в тек- сте различна, так в среднем на 1000 знаков осмысленного текста при- ходится 200 букв "а" и в сто раз меньшее количество буквы "ф" (все- го 2). Таким образом, с точки зрения теории информации, информа- ционная емкость знаков русского алфавита различна (у буквы "а" она наименьшая, а у буквы "ф" - наибольшая) и информацию, которое несѐт текстовое сообщение, надо рассчитывать с учетом вероятности появления букв, входящих в него.
Материалы на данной страницы взяты из открытых источников либо размещены пользователем в соответствии с договором-офертой сайта. Вы можете сообщить о нарушении.