Лекция "Мера информации"

  • Лекции
  • docx
  • 14.03.2017
Публикация на сайте для учителей

Публикация педагогических разработок

Бесплатное участие. Свидетельство автора сразу.
Мгновенные 10 документов в портфолио.

Для измерения информации вводятся два параметра: количество информации I и объем данных Vд. Эти параметры имеют разные выражения и интерпретацию в зависимости от рассматриваемой меры количества информации и объема данных. Синтаксическая мера информации. Эта мера оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту. Объем данных Vд в сообщении измеряется количеством символов (разрядов) в этом сообщении. В различных системах счисления один разряд имеет различный вес и соответственно меняется единица измерения данных: - в двоичной системе счисления единица измерения – бит (bit – binary digit) или более укрупненная единица байт, равная 8 бит. Сообщение, записанное двоичным кодом 10111011, имеет объем данных 8 бит или 1 байт.
Иконка файла материала билет 7 тема 1.docx
билет 7 тема 1 мера информации Для измерения информации вводятся два параметра: количество информации I и объем данных Vд. Эти  параметры имеют разные выражения и интерпретацию в зависимости от рассматриваемой меры  количества информации и объема данных. Синтаксическая мера информации. Эта мера оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту. Объем данных Vд в сообщении измеряется количеством символов (разрядов) в этом сообщении. В  различных системах счисления один разряд имеет различный вес и соответственно меняется единица  измерения данных: ­ в двоичной системе счисления единица измерения – бит (bit – binary digit) или более укрупненная  единица байт, равная 8 бит. Сообщение, записанное двоичным кодом 10111011, имеет объем данных 8  бит или 1 байт. ­ в десятичной системе счисления единица измерения – дит (десятичный разряд). Сообщение, записанное  числом 275903 имеет объем данных 6 дит. Количество информации I на синтаксическом уровне определяется с помощью понятия  неопределенности состояния (энтропии) системы. Пусть до получения информации потребитель имеет некоторые предварительные (априорные) сведения о системе α. Мерой его неосведомленности о системе является функция H( служит и мерой неопределенности состояния системы. После получения некоторого сообщения β  получатель приобрел некоторую дополнительную информацию I ( неосведомленность так, что апостериорная (после получения сообщения  ) неопределенность состояния  системы стала H ( определится как I ( (уменьшением) неопределенности состояния системы. β α Если конечная неопределенность H ( полным знанием и количество информации I ( может рассматриваться как мера недостающей информации. Энтропия системы H( )β α . Тогда количество информации I ( β α  H( α ), имеющая N возможных состояний, согласно формуле Шеннона, равна ) ­α  H ( )β α , т.е. количество информации измеряется изменением  ) обратится в нуль, то первоначальное неполное знание заменится  )β α , уменьшившую его априорную  )β α  о системе, полученной в сообщении  , β )α , которая в то же время  β α  H( ) = α ). Иными словами,  энтропия системы H( ) α ) = β где Pi – вероятность того, что система находится в i­состоянии. Для случая, когда все состояния системы равновероятны, т.е. их вероятности равны Pi=1/N, ее энтропия  определяется соотношением. Часто информация кодируется числовыми кодами в той или иной системе счисления, особенно это  актуально при представлении информации в компьютере. Естественно, что одно и то же количество  разрядов в разных системах счисления может передать разное число состояний отображаемого объекта,  что можно представить в виде соотношения N = mn, где N – число всевозможных отображаемых состояний; m – основание системы счисления (разнообразие символов, применяемых в алфавите); n – число разрядов (символов) в сообщении. Пример. По каналу связи передается n­разрядное сообщение, использующее m различных символов.  Так как количество всевозможных кодовых комбинаций будет N = mn, то при равновероятности  появления любой из них количество информации, приобретенной абонентом в результате получения  сообщения, будет I = log N = n log m – формула Хартли. Если в качестве основания логарифма принять m, то I = n. В данном случае количество информации (при условии полного априорного незнания абонентом содержания сообщения) будет равно объему  данных I = Vд, полученных по каналу связи. Для неравновероятностных состояний системы всегда I  < Vд = n.Наиболее часто используются двоичные и десятичные логарифмы. Единицами измерения в этих случаях  будут соответственно бит и дит. Коэффициент (степень) информативности (лаконичность) сообщения определяется отношением  количества информации к объему данных, т.е. С увеличением Y уменьшаются объемы работы по преобразованию информации, для этого  разрабатываются специальные методы оптимального кодирования информации. Семантическая мера информации. Для измерения смыслового содержания информации, т.е. ее  количества на семантическом уровне, наибольшее признание получила тезаурусная мера, которая  связывает семантические свойства информации со способностью пользователя принимать поступившее  сообщение. Для этого используют понятие тезаурус пользователя. Тезаурус – это совокупность сведений, которыми располагает пользователь или система. В зависимости от соотношений между смысловым содержанием информации S и тезаурусом  пользователя Sp изменяется количество семантической информации Ic, воспринимаемой пользователем и  включаемой им в дальнейшем в свой тезаурус. График зависимости количества семантической информации, воспринимаемой потребителем, от его  тезауруса Ic = f(Sp) Два предельных случая, когда количество семантической информации Ic равно 0: ­ при Sp » 0 пользователь не воспринимает, не понимает поступающую информацию; ­ при Sp ® ¥ пользователь все знает, и поступающая информация ему не нужна. Максимальное количество Ic потребитель приобретает при согласовании ее смыслового содержания S со  своим тезаурусом Sp (Sp = Sp opt), когда поступающая информация понятна пользователю и несет ему ранее неизвестные (отсутствующее в тезаурусе) сведения. Следовательно новых знаний, получаемых  пользователем, является величиной относительной. Одно и то же сообщение может иметь смысловое  содержание для компетентного пользователя и быть бессмысленным для пользователя некомпетентного.  При оценке содержательного аспекта информации необходимо стремиться к согласованию величин S и  Sp. Относительной мерой количества семантической информации может служить коэффициент  содержательности C, который определяется как отношение количества семантической информации к ее  объему:  Прагматическая мера информации. Эта мера определяет полезность информации (ценность) для  достижения пользователем поставленной цели, Эта мера также величина относительная, обусловленная  особенностями использования этой информации в той или иной системе. Пример. В экономической системе ценность информации можно определить приростом  экономического эффекта ее функционирования, достигнутым благодаря использованию этой  информации для управления системой. В теории информации выделяются три основных направления: структурное, статистическое,  семантическое. Структурное ­ рассматривает дискретное строение массивов информации и их измерение простым  подсчетом информационных элементов. (Простейшее кодирование массивов ­ комбинаторный метод.) Статистическое направление оперирует понятием энтропии как меры неопределенности, то есть здесь  учитывается вероятность появления тех или иных сообщений. Семантическое направление учитывает целесообразность, ценность или существенность информации.Эти три направления имеют свои определенные области применения. Структурное используется для  оценки возможностей технических средств различных систем переработки информации, независимо от  конкретных условий их применения. Статистические оценки применяются при рассмотрении вопросов  передачи данных, определении пропускной способности каналов связи. Семантические используются  при решении задач построения систем передачи информации разработки кодирующих устройств и при  оценке эффективности различных устройств. Структурные меры информации Структурные меры учитывают только дискретное строение информации. Элементами информационного  комплекса являются кванты ­ неделимые части информации. Различают геометрическую,  комбинаторную и аддитивную меры. Определение информации геометрическим методом представляет собой измерение длины линии,  площади или объема геометрической модели информационного комплекса в количестве квантов.  Максимально возможное число квантов в заданных структурных габаритах определяет  информационную емкость системы. Информационная емкость есть число, указывающее количество  квантов в полном массиве информации. Согласно рис. 1.2, г, количество информации М в комплексе  X(T,N), определенное геометрическим методом, равняется М=  , ; ;  ;  где  Х, Т, N ­ интервалы, через которые осуществляются дискретные отсчеты. В комбинаторной мере количество информации вычисляется как количество комбинаций элементов.  Здесь учитываются возможные или реализованные комбинации. Во многих случаях дискретное сообщение можно рассматривать как слово, состоящее из некоторого  количества элементов n, заданных алфавитом, состоящим из т элементов­букв. Определим количество  различных сообщений, которые можно образовать из данного алфавита. Если сообщение состоит из двух  элементов (п=2), то всего может быть  может быть образовано сто различных чисел от 0 до 99. Если количество элементов равно трем, то  различных сообщений. Например, из десяти цифр (0, 1, 2,..., 9)  количество различных сообщений равно  Таким образом, число возможных сообщений определяется: и т.д.  , L=  где L ­ число сообщений; п ­ число элементов в слове; т ­ алфавит. Чем больше L, тем сильнее может отличаться каждое сообщение от остальных. Величина L может быть  принята в качестве меры количества информации. Однако выбор L в качестве меры количества  информации связан с неудобствами: во­первых, при L =1 информация равна нулю, поскольку заранее  известен характер сообщения (т.е. сообщение есть, а информация равна нулю); во­вторых, не  выполняется условие линейного сложения количества информации, т.е. условие аддитивности. Если,  например, первый источник характеризуется  число различных сообщений для двух источников определяется произведением различными сообщениями, а второй ­  , то общее  . L=  Для k источников общее число возможных различных сообщений равно L=  Поэтому Хартли ввел логарифмическую (аддитивную) меру количества информации, позволяющую  оценивать количество инфомации, содержащейся в сообщении, логарифмом числа возможных  сообщений. . I=  Тогда при L=1 I=0, т.е. информация отсутствует. Для k источников информации . I=  ,. т.е. I=  Статистические меры информации При статическом вероятностном подходе получение конкретного количества информации  рассматривается как результат определенного выбора среди возможных сообщений. Получатель  информации может заранее знать или угадать ее часть. Когда приходит сообщение о часто происходящих событиях, вероятность появления которых Р стремится к единице, то такое сообщение  малоинформативно. Столь же малоинформативны в среднем сообщения о событиях, вероятности  которых стремятся к нулю, т.е. о почти невозможных событиях, поскольку сообщения о таких событиях  поступают чрезвычайно редко.  События можно рассматривать как возможные исходы некоторого опыта. Все исходы составляют  полную группу событий, или ансамбль. Ансамбль характеризуется тем, что сумма вероятностей всех сообщений в нем равна единице, то есть . Рассмотрим сложные сообщения, составляемые из п элементов, каждый из которых является  независимым и выбирается из алфавита, содержащего т букв, с вероятностями выбора элементов соответственно. Предположим, что в некоторое сообщение вошло  элементов  элементов  и т.д. Такое сообщение характеризуется таблицей (табл. 1.1). алфавита,  Таблица 1.1 Тип элемента  Число элементов  Вероятности выбора элементов Вероятность того, что в сообщение войдут  элементов  равняется  , а вероятность образования  сообщения из  , ,  ,..., ,...,  элементов будет равна  Р=  При большой длине п источником будут формироваться типичные сообщения, в которых относительная  частота появления отдельных элементов  стремится к вероятности появления этих элементов, то есть . (1.1) , (1.2) а вероятности появления типичных сообщений Р будут одинаковы и могут быть найдены из (1.1), (1.2): Р=  Определим число типичных сообщений: . (1.3) , (1.4) так как суммарная вероятность всех типичных сообщений стремится к единице при увеличении длины  сообщений. Хотя число возможных сообщений  сообщений, а вероятность появления остальных сообщений стремится к нулю. , источник практически будет вырабатывать только L типичныхНайдем количество информации I, содержащейся в одном сообщении: . (1.5) I= log L= ­log Данное выражение (формула Шеннона) дает более полное представление об источнике информации, чем  аддитивная мера (мера Хартли). Поясним это на следующем примере. Если мы подбрасываем монету, то  получим сообщение из двух возможных состояний (орел или решка), то есть, алфавит сообщений из двух  букв. Если подбрасываем кубик, одна грань которого голубая, а остальные грани окрашены в розовый  цвет, то здесь также имеем алфавит из двух букв (голубой или розовый). Чтобы записать полученный  текст (сообщение), в обоих случаях достаточно одной двоичной цифры на букву (п=1, т=2).  По Хартли здесь в обоих случаях I= n . Но мы знаем, что в первом случае вероятность каждого исхода опыта равна 0,5 ( =0,5). А во  втором случае  При равновероятности символов (частный случай) формула Шеннона вырождается в формулу Хартли: соответственно. Мера Хартли не учитывает этого. и  I= ­n Для случая с монетой: I= ­1 Для случая с кубиком:  .  . I= ­1 Количество информации, приходящейся на один элемент сообщения, называется удельной  информативностью или энтропией.  . . (1.6) Н=  Количество информации и энтропия являются логарифмическими мерами и измеряются в одних и тех  же единицах. Основание логарифма определяет единицу измерения количества информации и энтропии.  Двоичная единица соответствует основанию логарифма, равному двум, и называется битом. Один бит ­  это количество информации в сообщении в одном из двух равновероятностных исходов некоторого  опыта. Используются также натуральные (НИТ) и десятичные (ДИТ) логарифмы. Аналогичными  единицами пользуются и при оценке количества информации с помощью меры Хартли. Из формулы Шеннона следует, что количество информации, содержащейся в сообщении, зависит от  числа элементов сообщения п, алфавита т и вероятностей выбора элементов  является линейной. Отметим некоторые свойства энтропии. 1. Энтропия является величиной вещественной, ограниченной и неотрицательной, то есть Н>0. Это  свойство следует из выражения (1.6). . Зависимость I от п  2. Энтропия минимальна и равна нулю, если сообщение известно заранее, то есть если  =1, а  3. Энтропия максимальна, если все состояния элементов сообщений равновероятны. . Н= Величину максимальной энтропии найдем при использовании (1.6) и (1.7): , если  . (1.7)=logm .  4. Энтропия бинарных (двоичных) сообщений может изменяться от нуля до единицы (двоичный алфавит,  следовательно, т=2.) Н= . Используя условие  определится выражением Н= ­P logP ­ (1 ­ P)log(1 ­ P) . и обозначив  =Р, получим  , а энтропия  Энтропия достигает максимума, равного единице, при  =  =0,5. Рис. 1.3 ­ График функции Н= ­Р logP ­ (1 ­ P)log(1 ­ P) Семантические меры информации Семантические меры информации оценивают смысл, содержание информации, ее целесообразность и  существенность.  Целесообразность, полезность информации для решения какой­то задачи можно оценить по эффекту,  который оказывает полученная информация на решение задачи. Если вероятность достижения цели  увеличивается, то информацию следует считать полезной.