Измерение информации в технике и в теории информации
Существует три подхода к измерению количества информации. При этом разные подходы к измерению информации применяются в технике и в теории информации.
Содержательный и алфавитный подходы измерения информации.
Вопрос: «Как измерить информацию?» очень непростой. Ответ на него зависит от того, что понимать под информацией. Но поскольку определять информацию можно по-разному, то и способы измерения тоже могут быть разными.
Содержательный подход к измерению информации.
Для человека информация — это знания человека. Рассмотрим вопрос с этой точки зрения. Получение новой информации приводит к расширению знаний. Если некоторое сообщение приводит к уменьшению неопределенности нашего знания, то можно говорить, что такое сообщение содержит информацию.
Отсюда следует вывод, что сообщение информативно (т.е. содержит ненулевую информацию), если оно пополняет знания человека. Например, прогноз погоды на завтра — информативное сообщение, а сообщение о вчерашней погоде неинформативно, т.к. нам это уже известно. Нетрудно понять, что информативность одного и того же сообщения может быть разной для разных людей. Например: «2x2=4» информативно для первоклассника, изучающего таблицу умножения, и неинформативно для старшеклассника.
Но для того, чтобы сообщение было информативно оно должно еще быть понятно. Быть понятным, значит быть логически связанным с предыдущими знаниями человека. Получение всяких знаний должно идти от простого к сложному. И тогда каждое новое сообщение будет в то же время понятным, а значит, будет нести информацию для человека.
Сообщение несет информацию для человека, если содержащиеся в нем сведения являются для него новыми и понятными. Прагматический подход к измерению информации позволяет определить количество новой информации по отношению ко всей и оценить полезность сообщения.
Алфавитный подход к измерению информации позволяет определить количество информации, заключенной в тексте.
Алфавитный подход является объективным, т.е. он не зависит от субъекта (человека), воспринимающего текст. Этот способ не связывает количество информации с содержанием сообщения, и называется он алфавитным подходом. При алфавитном подходе к определению количества информации отвлекаются от содержания информации и рассматривают информационное сообщение как последовательность знаков определенной знаковой системы.
Все множество используемых в языке символов будем традиционно называть алфавитом. Обычно под алфавитом понимают только буквы, но поскольку в тексте могут встречаться знаки препинания, цифры, скобки, то мы их тоже включим в алфавит. В алфавит также следует включить и пробел, т.е. пропуск между словами.
Полное количество символов алфавита принято называть мощностью алфавита. Будем обозначать эту величину буквой N. Например, мощность алфавита из русских букв и отмеченных дополнительных символов равна 54. При использовании двоичной системы (алфавит состоит из двух знаков: 0 и 1) каждый двоичный знак несет 1 бит информации. Сама единица измерения информации «бит» получила свое название от английского сочетания «binary digit» - «двоичная цифра».
Возьмем с книжной полки какую-нибудь книгу и посчитаем количество информации на одной ее странице. Пусть страница содержит 50 строк. В каждой строке — 60 символов. Значит, на странице умещается 50*60 = 3000 знаков.
Информационный вес символа i находится из уравнения 2^i = N, где N — мощность используемого алфавита (N =54). Для N = 54, используя таблицу, получаем: i = 5,755 бит. Тогда объем информации будет равен: 5,755 х 3000 = 17265 бит.
Следовательно, при алфавитном подходе к измерению информации количество информации от содержания не зависит. Количество информации зависит от объема текста (то есть от числа знаков в тексте) и от мощности алфавита.
Отсюда следует, например, что нельзя сравнивать информационные объемы текстов, написанных на разных языках, только по объему. У них отличаются информационные веса одного символа, так как мощности алфавитов разных языков - различные. Но если книги написаны на одном языке, то понятно, что в толстой книге информации больше, чем в тонкой. При этом содержательная сторона книги в расчет не берется.
Сформулируем правило, как измерить информацию, используя для этого алфавитный подход.
Количество информации, содержащееся в символьном сообщении, равно К*i, где К— число символов в тексте сообщения, a i -информационный вес символа, который находится из уравнения 2^i = N, где N — мощность используемого алфавита, если допустить, что все символы алфавита встречаются в тексте с одинаковой частотой (равновероятно).
Применение алфавитного подхода удобно, прежде всего, при использовании технических средств работы с информацией. В этом случае теряют смысл понятия «новые - старые», «понятные - непонятные» сведения. Алфавитный подход является объективным способом измерения информации в отличие от субъективного, содержательного, подхода.
Если рассматривать символы как возможные события, то можно вычислить, какое количество различных символов можно закодировать N = 2I= 28 = 256.
Такое количество символов вполне достаточно для представления текстовой информации, включая прописные и строчные буквы русского и латинского алфавита, цифры, знаки, графические символы и пр.
Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111.
При алфавитном подходе к определению количества информации отвлекаются от содержания информации и рассматривают информационное сообщение как последовательность знаков определенной знаковой системы.
Традиционно для кодирования одного символа используется количество информации, равное 1 байту, то есть I = 1 байт = 8 битов.
Для кодирования одного символа требуется 1 байт информации.
1 бит — это минимальная единица измерения информации! Один символ алфавита «весит» 8 бит.
В любой системе единиц измерения существуют основные единицы и производные от них. Для измерения информации используются и более крупные единицы:
1 Кбайт, (килобайт = 1024 байта
1 Мбайт (мегабайт = 1024 Кбайта
1 Гбайт (гигабайт = 1024 Мбайта
Сегодня очень многие люди для подготовки писем, документов, статей, книг и пр. используют компьютерные текстовые редакторы. Компьютерные редакторы, в основном, работают с алфавитом размером 256 символов
Один символ из алфавита мощностью 256 несет в тексте 8 бит информации. Такое количество информации называется байт. Алфавит из 256 символов используется для представления текстов в компьютере.
Если весь текст состоит из К символов, то при алфавитном подходе размер содержащейся в нем информации равен: I = К * i, где i – информационный вес одного символа в используемом алфавите, I - количество информации, содержащееся в символьном сообщении
Пример. Книга, набранная с помощью компьютера, содержит 150 страниц; на каждой странице – 40 строк, в каждой строке – 60 символов. Каков объем информации в книге? Решение. Мощность компьютерного алфавита равна 256. Один символ несет 1 байт информации. Значит, страница содержит 40 ´ 60 = 2400 байт информации. Объем всей информации в книге (в разных единицах): 2400 ´ 150 = 360 000 байт. 360000 / 1024 = 351,5625 Кбайт. 351,5625 / 1024 = 0,34332275 Мбайт
Вероятностный метод применим и для алфавитного подхода к измерению информации, заключенной в тексте. Известно, что разные символы (буквы алфавита, знаки препинания и др.) встречаются в тексте с разной частотой и, следовательно, имеют разную вероятность. Значит, измерять информационный вес каждого символа в тексте так, как это делалось раньше (в предположении равновероятности), нельзя.
© ООО «Знанио»
С вами с 2009 года.