Лекция № 3 Представление информации. Количество и единицы измерения информации
Оценка 5

Лекция № 3 Представление информации. Количество и единицы измерения информации

Оценка 5
doc
20.11.2021
Лекция № 3 Представление информации.  Количество и единицы измерения информации
Лекция №3 Представление информации. Количество и единицы измерения информации.doc

Лекция № 3

Представление информации.

Количество и единицы измерения информации

 

Представление информации в различных формах происходит в процессе восприятия окружающей среды живыми организмами и человеком, человеком и компьютером, компьютером и компьютером и т.д. Преобразование информации из одной формы в другую (кодирование) необходимо для того, чтобы живой организм, человек или компьютер мог хранить и обрабатывать информацию в удобной для него форме, на понятном для него языке.

 

1. Язык как способ представления информации

Для обмена информацией с другими людьми человек использует естественные языки (русский, английский, китайский и др.), т.е. информация представляется с помощью естественных языков. В основе языка лежит алфавит, т.е. набор символов (знаков), которые человек различает по начертанию. В основе русского языка лежит кириллица, содержащая 33 знака, английский язык использует латиницу (26 знаков), китайский язык использует алфавит из десятков тысяч знаков (иероглифов).

Последовательности символов алфавита, в соответствии с правилами грамматики, образуют основные объекты языка – слова. Правила, согласно которым образуются предложения из слов данного языка, называется синтаксисом. В естественных языках грамматика и синтаксис языка формулируются с помощью большого числа правил, из которых существуют исключения, т.к. такие правила складывались исторически.

Наряду с естественными языками были разработаны формальные языки (системы счисления, алгебра, языки программирования и др.). Основное отличие формальных языков от естественных состоит в наличии не только жёстко зафиксированного алфавита, но и строгих правил грамматики и синтаксиса.

Например, системы счисления можно рассматривать как формальные языки, имеющие алфавит (цифры) и позволяющие не только именовать и записывать объекты (числа), но и выполнять над ними арифметические операции по строго определённым правилам.

Некоторые языки используют в качестве знаков не буквы и цифры, а другие символы, например, музыкальные ноты, изображения элементов электрических или логических схем, дорожные знаки, код азбуки Морзе и др.

Представление информации может осуществляться с помощью языков, которые являются знаковыми системами. Каждая знаковая система строится на основе определённого алфавита и правил выполнения операций над знаками.

Знаки могут иметь различную физическую природу. Например, для представления информации с использованием языка в письменной форме используются знаки, которые являются изображениями на бумаге или других носителях, в устной речи в качестве знаков языка используются различные звуки (фонемы), а при обработке текста на компьютере знаки представляются в форме последовательности электрических импульсов (компьютерных кодов).

 

Естественные и формальные языки

(сравнительная таблица)

 

 

Естественные языки (нося национальный ха­рактер): речь и пись­менность

Формальные языки (интернациональны, понятны всем)

Примеры

русский язык, английский язык и т. д.

язык математики, язык химии, языки программирования и т. д.

Алфавит – набор основных символов, различимых по их начертанию

- кириллица – 33 буквы;

- латиница – 26 букв;

- иероглифы и др.

Алфавит жёстко зафиксирован.

- арабские цифры;

- ноты;

- дорожные знаки;

- точки и тире и др.

Синтаксис – правила для образования предложений языка

Формируется из большого числа правил, из которых существуют исключения

Наличие строгих правил

Грамматика – правила правописания

Физическая природа знаков

Изображения на бумаге, звуки (фонемы), электрические импульсы и т. д.

 

 

 

 

2. Кодирование информации

Код – система условных знаков для представления информации.

Кодирование – операция преобразования знаков или групп знаков одной знаковой системы в знаки или группы знаков другой знаковой системы.

Средством кодирования служит таблица соответствия знаковых систем, которая устанавливает взаимно однозначное соответствие между знаками или группами знаков двух различных знаковых систем.

В процессе обмена информацией часто приходится производить операции кодирования и декодирования информации. Например, при вводе знака алфавита в компьютер путём нажатия соответствующей клавиши на клавиатуре происходит его кодирование, т.е. преобразование в компьютерный код. При выводе знака на экран монитора или принтера происходит декодирование, когда из компьютерного кода знак преобразуется в графическое его изображение.

Декодирование – операция, обратная кодированию.

 

 

 

 


Рассмотрим в качестве примера кодирования цифровой и штриховой коды товара. Такие коды имеются на каждом товаре и позволяют полностью идентифицировать товар (страну и фирму-производителя, тип товара и др.). Знакам цифрового кода (цифрам) соответствуют группы знаков штрихового кода (узкие и короткие штрихи, а также размеры промежутков между ними). Для человека удобен цифровой код, а для автоматизированного счёта удобен штриховой код, который считывается с помощью узкого светового луча и подвергается последующей обработке в компьютерных бухгалтерских системах учёта.

Способ кодирования зависит от цели, ради которой оно осуществляется: сокращение записи, шифровка информации, удобство обработки и т.п.

Чаще всего кодированию подвергаются тексты на естественных языках (русском, английском и пр.) Существует три основных способа кодирования текста:

1.    графический – с помощью специальных рисунков или значков;

2.    числовой – с помощью чисел;

3.    символьный – с помощью символов того же алфавита, что и исходный                 текст.

Полный набор символов, используемый для кодирования текста, называется алфавитом или азбукой.

 

3. Аналоговый и дискретный способы представления изображений и звука

Человек способен воспринимать и хранить информацию в форме образов (зрительных, звуковых, осязательных, вкусовых и обонятельных). Зрительные образы могут быть сохранены в виде изображений (рисунков, фотографий и т.д.), а звуковые зафиксированы на пластинках, магнитных лентах, лазерных дисках и т.д.

Информация, в том числе графическая и звуковая, может быть представлена в аналоговой или дискретной форме. При аналоговом представлении информации физическая величина может принимать бесконечное множество значений. При дискретном представлении информации физическая величина может принимать конечное множество значений, при этом она изменяется скачкообразно.

В качестве примера аналогового и дискретного представления информации можно привести наклонную плоскость и лестницу. Положение тела на наклонной плоскости и на лестнице задается значениями координат Х и У. При движении тела по наклонной плоскости его координаты могут принимать бесконечное множество непрерывно изменяющихся значений из определенного диапазона, а при движении по лестнице — только конечный набор значений, причем изменяющихся скачкообразно.

Примером аналогового представления информации может служить живописное полотно, виниловая пластинка (звуковая дорожка изменяет свою форму непрерывно), а дискретного – аудио компакт-диск (звуковая дорожка содержит участки с различной отражающей способностью), изображение, напечатанное на струйном принтере и состоящее из отдельных точек разного цвета.

Преобразование графической и звуковой информации из аналоговой в дискретную производится путём дискретизации – преобразования непрерывных значений изображения и звука в набор дискретных значений, каждому из которых  присваивается значение его кода. 

 

 

4. Двоичная форма представления информации

Компьютер может обрабатывать числовую, текстовую, графическую, звуковую и видеоинформацию[1]. Возникает вопрос: «Как, каким образом компьютер обрабатывает столь различающиеся по восприятию человеком виды информации?».

Все эти виды информации кодируются в последовательности электрических импульсов: есть импульс (1), нет импульса (0), т.е. в последовательности нулей и единиц. Такое кодирование информации в компьютере называется двоичным кодированием, а логические последовательности нулей и единиц — машинным языком.

Информация в компьютере представлена в двоичном коде, алфавит которого состоит из двух цифр (0 и 1).

Эти цифры можно рассматривать как два равновероятных состояния (события). При записи двоичной цифры реализуется выбор одного из двух возможных состояний (одной из двух цифр) и, следовательно, она несет количество информации, равное 1 биту.

Даже сама единица измерения количества информации бит (bit) получила свое название от английского словосочетания ВInary digiТ, т.е. двоичный разряд.

Важно, что каждая цифра машинного двоичного кода несет информацию в 1 бит. Таким образом, две цифры несут информацию 2 бита, три разряда — 3 бита и т.д. Количество информации в битах равно количеству цифр двоичного машинного кода.

Каждая цифра машинного двоичного кода несет количество информации, равное одному биту.

 

5. Количество и единицы измерения информации

В качестве основной единицы информации условились принять один бит (англ. binary digit – двоичная цифра).

За единицу количества информации принимается такое количество информации, которое содержит сообщение, уменьшающее неопределённость в два раза. Такая единица называется бит.

Бит в теории информации – количество информации, необходимое для различения двух равновероятных сообщений.

А в вычислительной технике битом называют наименьшую «порцию» памяти, необходимую для хранения одного из двух знаков «0» и «1», используемых для внутримашинного представления данных и команд.

Бит – слишком малая единица измерения. На практике чаще применяется более крупная единица – байт, равная восьми битам. Именно восемь битов требуется для того, чтобы закодировать любой из 256 символов алфавита клавиатуры компьютера (256 = 28).

В информатике система образования кратных единиц измерения количества информации несколько отличается от принятых в большинстве наук. Традиционные метрические системы единиц, например, Международная система единиц СИ, в качестве множителей кратных единиц используется коэффициент 10n, где n = 3, 6, 9 и т. д., что соответствует десятичным приставкам кило (103), мега (106), гига (109) и т. д.

Компьютер оперирует числами не в десятичной, а в двоичной системе счисления, поэтому в кратных единицах измерения количества  информации используется коэффициент 2n

Широко используются также ещё более крупные производные единицы информации:

1 Кбайт = 210 байт = 1024 байт.

1 Мбайт = 220 байт = 1024 Кбайт.

1 Гбайт = 230 байт = 1024 Мбайт.

1 Тбайт = 240 байт = 1024 Гбайт.

1 Пбайт = 250 байт = 1024 Тбайт.

 

Алфавитный подход к измерению количества информации

При хранении и передаче информации с помощью технических устройств целесообразно отвлечься от содержания информации и рассматривать её как последовательность символов (букв, цифр, кодов цвета точек изображения и т. д.)

Исходя из вероятностного подхода к определению количества информации, набор символов знаковой системы (алфавит) можно рассматривать как возможные различные состояния (события).

Тогда, если считать, что появление символов в сообщении равновероятно, по формуле можно рассчитать, какое количество информации несёт каждый символ:

N = 2I, где N – количество знаков в алфавите (мощность алфавита), I – количество информации, которое несёт один знак.

Информационная ёмкость знаков зависит от их числа в алфавите (мощности алфавита): чем больше их число, тем большее количество информации несёт один знак.

В соответствие с алфавитным подходом количество информации, которое содержит сообщение, равно количеству информации, которое несёт один знак, умноженному на число знаков в сообщении.

Например, количество информации одного символа текстового сообщения, набранного на компьютере, равно 8 битам, т. к. мощность компьютерного алфавита равна 256.

 

Вероятностный подход к измерению количества информации

Подход к информации как мере уменьшения неопределённости знания позволяет количественно измерять информацию, что чрезвычайно важно в информатике (например, при бросании монеты с равной вероятностью произойдёт одно из двух возможных событий – выпадение «орла» или «решки», что приводит к уменьшению неопределенности наших знаний в два раза).

Формула, которая связывает между собой число возможных событий N и количество информации I:

N = 2I

По этой формуле легко определить число возможных событий, если известно количество информации, и наоборот для определения количества информации, если известно число событий, необходимо решить показательное уравнение относительно I.


Скачано с www.znanio.ru



[1] Подготовка сообщений студентами.

 

Лекция № 3 Представление информации

Лекция № 3 Представление информации

Представление информации может осуществляться с помощью языков, которые являются знаковыми системами

Представление информации может осуществляться с помощью языков, которые являются знаковыми системами

Кодирование информации Код – система условных знаков для представления информации

Кодирование информации Код – система условных знаков для представления информации

Полный набор символов, используемый для кодирования текста, называется алфавитом или азбукой

Полный набор символов, используемый для кодирования текста, называется алфавитом или азбукой

Двоичная форма представления информации

Двоичная форма представления информации

За единицу количества информации принимается такое количество информации, которое содержит сообщение, уменьшающее неопределённость в два раза

За единицу количества информации принимается такое количество информации, которое содержит сообщение, уменьшающее неопределённость в два раза

Тогда, если считать, что появление символов в сообщении равновероятно, по формуле можно рассчитать, какое количество информации несёт каждый символ:

Тогда, если считать, что появление символов в сообщении равновероятно, по формуле можно рассчитать, какое количество информации несёт каждый символ:
Скачать файл