Для измерения величин существуют эталонные единицы измерения.
Например:
Расстояние измеряют в миллиметрах, сантиметрах, дециметрах…
Массу измеряют в граммах, килограммах, тоннах…
Время измеряют в секундах, минутах, сутках, годах…
Следовательно, для измерения информации должна быть введена своя эталонная единица.
Существует два подхода к измерению информации
Содержательный (вероятностный)
Алфавитный
Позволяет измерять информационный объём текста на любом языке (естественном или формальном) , при использовании данного подхода объём информации не связывают с содержанием текста, в данном случае, объём зависит от информационного веса символов.
Количество информации связывается с содержанием (смыслом) полученного сообщения или с учётом вероятности событий.
В алфавит включают и пробел (пропуск между словами).
Мощность алфавита - полное число символов в алфавите.
Например: мощность алфавита русских букв и используемых символов равна 54:
33 буквы + 10 цифр + 11 знаков препинания, скобки, пробел.
Алфавит – весь набор букв, знаков препинания, цифр, скобок и других символов, используемых в тексте.
Наименьшую мощность имеет алфавит, используемый в компьютере (машинный язык), его называют двоичным алфавитом, т.к. он содержит только два знака «0», «1».
Информационный вес символа двоичного алфавита принят за единицу измерения информации и называется 1 бит.
Пример:
Информация, записанная на машинном языке,
01110
010010
010
0111111011110
весит:
5 бит
6 бит
3 бита
13 бит
При алфавитном подходе считают, что каждый символ текста, имеет информа-ционный вес.
Информационный вес символа зависит от мощности алфавита.
С увеличением мощности алфавита, уве-личивается информационный вес символа.
Для измерения объёма информации необходимо определить сколько раз информация равная 1 биту содержится в определяемом объёме информации.
Возьмём четырёхзначный алфавит (придуманный)
Порядковый номер
Символ
11
10
01
00
Двузначный двоичный код
4
3
2
1
☍
☌
☊
☇
Четырёхзначный алфавит
Все символы исходного алфавита можно закодировать всеми возможными комбинациями из двух цифр двоичного алфавита.
Получим двоичный код каждого символа алфавита.
Следовательно, каждый символ четырёхзначного алфавита весит 2 бита.
Четырёхзначный алфавит | Порядковый номер | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
Двузначный двоичный код | 000 | 001 | 010 | 011 | 100 | 101 | 110 | 111 |
Алфавит мощностью 8 знаков можно закодировать на машинном языке с помощью трёх символов двоичного алфавита
Следовательно, каждый символ восьмизначного алфавита весит 3 бита.
Алфавит из шестнадцати символов можно закодировать с помощью четырёхзначного двоичного кода.
Какой объём информации содержат 3 символа 16 – символьного алфавита?
Решение:
Так как каждый символ алфавита мощностью 16 знаков можно закодировать с помощью четырёхзначного двоичного кода, каждый символ исходного алфавита весит 4 бита.
Так как всего использовали 3 символа алфавита мощностью 16 символов, следовательно: 4 бит ∙ 3 = 12 бит
Следовательно.
Запишем таблицу соответствия мощности алфавита (N) и количеством знаков в коде (b) - разрядностью двоичного кода.
N | 2 | 4 | 8 | 16 |
b | 1 бит | 2 бита | 3 бита | 4 бита |
Заметим, что 2 = 21, 4 = 22, 8 = 23, 16 = 24
Воспользуемся формулой N = 2b и узнаем мощность алфавита, в зависимости от объёма информации, содержащегося в одном символе данного алфавита.
1024
512
256
128
64
32
16
8
4
2
Мощность алфавита
10
9
8
7
6
5
4
3
2
1
Количество бит в одном символе алфавита
Если необходимо найти количество информации содержащееся в одном символе алфавита заданной мощности используют формулу b = log2 N
Алфавит из которого составляется на компьютере текст (документ) состоит из 256 символов.
Этот алфавит содержит символы: строчные и прописные латинские и русские буквы, цифры, знаки арифметических операций, всевозможные скобки, знаки препинания…
Из формулы N = 2b следует 256 = 28
Значит, каждый символ алфавита используемого в компьютере для печати документов весит 8 бит.
Эту величину приняли так же за единицу измерения информации и дали название байт.
8 бит = 1 байт
Пример. Статья содержит 30 страниц, на каждой странице - 40 строк, в каждой строке 50 символов. Какой объём информации содержит статья?
1) На каждой странице 50 ∙ 40 = 2000 символов;
2) во всей статье 2000 ∙ 30 = 60000 символов;
3) т. к. вес каждого символа равен 1 байту, следовательно, информационный объём всей статьи 60000 ∙ 1 = 60000 байт
или 60000 ∙ 8 = 480000 бит
Как видно из задачи байт «мелкая» единица измерения информационного объёма текста, поэтому для измерения больших объёмов информации используются более крупные единицы.
Материалы на данной страницы взяты из открытых источников либо размещены пользователем в соответствии с договором-офертой сайта. Вы можете сообщить о нарушении.