Алфавитный подход позволяет измерять информационный объем текста на некотором языке (естественном или формальном), не связанный с содержанием этого текста.
Существует и другой подход к измерению объема информации – содержательный. В нем информационный объем сообщения напрямую связан с содержанием этого сообщения.
Алфавит – это набор букв, знаков препинания, цифр, скобок и других символов, используемых в тексте.
Полное число символов алфавита принято называть мощностью алфавита – N.
Например, в русском алфавите 54 таких символа, это 33 буквы, 10 цифр, 11 знаков препинания, скобки, пробел.
Мощность алфавита из русских букв и дополнительных символов равна 54, то есть для русского алфавита N=54.
Информационный вес символа двоичного алфавита принят за единицу информации и называется 1 бит.
Наименьшее число символов в алфавите равно 2 (N=2), такой алфавит используется в компьютере. В нем всего два символа: 0 и 1.
С увеличением мощности алфавита увеличивается информационный вес символов этого алфавита.
Например, если N=4, то символ «весит» 2 бита. Все символы такого алфавита можно закодировать всеми возможными комбинациями из двух цифр двоичного алфавита. Комбинацию из нескольких знаков двоичного алфавита назовем двоичным кодом.
Порядковый номер символа | 1 | 2 | 3 | 4 |
Двухзначный двоичный код | 00 | 01 | 10 | 11 |
Если использовать 3 двоичные цифры, то можно составить 8 комбинаций, т.е. если N=8, то символ «весит» 3 бита.
Порядковый номер символа | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
Двухзначный двоичный код | 000 | 001 | 010 | 011 | 100 | 101 | 110 | 111 |
Если N=16, то 4 бита. Таблицу составьте сами.
И так далее.
Найдем зависимость между мощностью алфавита(N) и количеством знаков в двоичном коде(b) – разрядностью двоичного кода.
N | 2 | 4 | 8 | 16 |
b | 1 бит | 2 бита | 3 бита | 4 бита |
Заметим, что 2=2, 4=2×2, 8=2×2×2, 16=2×2×2×2.
Значит получим формулу N=2b
Разрядность двоичного кода это и есть информационный вес символа.
Информационный вес символа, выраженный в битах(b), и мощность алфавита(N) связаны между собой формулой:
N=2b
1000110000111011100010001110001111100010
Данный текст, записанный с помощью двоичного кода, содержит 40 символов (K), значит информационный объем (I) этого текста равен 40 битам (I=40)
Текста, который вы сейчас видите, подготовлен с помощью компьютера. Алфавит такой «компьютерный текст» содержит 256 символов, это все необходимые буквы, цифры, знаки, различные скобки и т.д.
Так как 256=28, то один символ компьютерного алфавита бесит 8 битов. Величина, равная 8 битам, называется байтом.
1 байт = 8 битов.
Для измерения больших информационных объемов используются более крупные единицы:
1 килобайт = 1 Кб = 210 байтов = 1024 байта
1 мегабайт = 1 Мб = 210 Кб = 1024 Кб
1 гигабайт = 1 Гб = 210 Мб = 1024 Мб
1 терабайт = 1 Тб = 210 Гб = 1024 Гб
Задача № 2
Текст составлен с использованием алфавита мощностью 32 символа и содержит 80 символов. Каков информационный объем текста?
Решение.
1. N=32
2. N=2b, 32=25
3. b=5 (бит)
4. K=80
5. I=K×b, 80×5=400
6. I=400 (бит)
Ответ: 400 бит
Мы знаем, что N=32, значит, используя формулу N= 2b, найдем b=5 (бит).
5 бит весит один символ
этого алфавита.
У нас таких
символов 80, K=80, поэтому применим формулу I=K×b: 80×5=400(бит)
Информационный объем текста 400 бит.
Задача № 3
Информационный объем текста, составленного с помощью алфавита мощностью 64, равен 1,907Кб. Каков информационный вес символа этого алфавита и сколько символов содержит этот текст?
Решение.
1. N=64
2. N=2b, 64=26
3. b=6 (бит)
4. 1,907Кб ≈ 1953 байта
5. 1953 байта = 15624 бита
6. I=15624, b=6
7. I=K×b, K=I:b,
15624:6 = 2604
8. K=2604 (символа)
Ответ: 6 бит, 2604 символа
Мы знаем, что N=64, значит, используя формулу N= 2b, найдем b=6 (бит). Одно искомое нашли.
Переведем 1,907Кб в биты,
для этого
1,907×1024=1953,
получили байты, и 1953×8=15624 – биты.
Теперь зная I=15624 и b=6 найдем количество символов, используя формулу I=K×b, K=I:b - 15624:6=2604
© ООО «Знанио»
С вами с 2009 года.