Двоичное кодирование текстовой информации
Начиная с 60-х годов, компьютеры все больше стали использовать для обработки текстовой информации и в настоящее время большая часть ПК в мире занято обработкой именно текстовой информации.
Текстовая информация состоит из символов: букв, цифр, знаков препинания, скобок и других символов.
Для представления текстовой информации достаточно 256 знаков. По формуле N = 2I 256= 28 , следовательно для кодирования одного символа используется количество информации равное 1 байту.
Двоичное кодирование текстовой информации
Кодирование заключается в том, что каждому символу ставиться в соответствие уникальный двоичный код от 00000000 до 11111111 (или десятичный код от 0 до 255).
Международным стандартом является таблица кодировки ASCII (American Standart Code for Information Interchange) – Американский стандартный код для информационного обмена.
Таблица кодировки ASCII
Стандартной в этой таблице является только первая половина, т.е. символы с номерами от 0 (00000000) до 127 (0111111). Сюда входят буква латинского алфавита, цифры, знаки препинания, скобки и некоторые другие символы.
Остальные 128 кодов используются в разных вариантах. В русских кодировках размещаются символы русского алфавита
Таблица расширенного кода ASCIIКодировка Windows-1251 (CP1251)
Таблица ASCII
Для удобства пользования этими кодами символов, в таблице используют шестнадцатиричную систему счисления, состоящую из 16 символов: это 10 цифр от 0 до 9 и 6 латинских букв: A, B, C, D, E, F.
При кодировании символов сначала записывается цифра столбца, а затем – строки, на пересечении которых находится данный символ.
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F | |
0 | 0 | @ | P | . | p | А | Р | а | ||||||||
1 | ! | 1 | A | Q | a | q | Б | С | б | |||||||
2 | 2 | B | R | b | r | В | Т | в | ||||||||
3 | # | 3 | C | S | c | s | Г | У | г | |||||||
4 | $ | 4 | D | T | d | t | Д | Ф | д | |||||||
5 | 5 | E | U | e | u | Е | Х | е | ||||||||
6 | & | 6 | F | V | f | v | Ж | Ц | ж | |||||||
7 | ‘ | 7 | G | W | g | w | З | Ч | з | |||||||
8 | ( | 8 | H | X | h | x | И | Ш | и | |||||||
9 | ) | 9 | I | Y | i | y | Й | Щ | й | |||||||
A | * | : | J | Z | j | z | К | Ъ | к | |||||||
B | + | ; | K | [ | k | ( | Л | Ы | л | |||||||
C | , | < | L | \ | l | | | М | Ь | м | |||||||
D | - | = | M | ] | m | ) | Н | Э | н | |||||||
E | . | > | N | ^ | n | О | Ю | о | ||||||||
F | / | ? | O | _ | o | П | Я | п |
Кодовые таблицы для русских букв
В настоящее время существует 5 разных кодовых таблиц для русских букв
(КОИ8, СР1251, СР866, Mac, ISO).
В настоящее время получил широкое распространение новый международный стандарт Unicode, который отводит на каждый символ два байта. С его помощью можно закодировать 65536 (216= 65536 ) различных символов.
Обратите внимание!
Цифры кодируются по стандарту ASCII в двух случаях – при вводе-выводе и когда они встречаются в тексте. Если цифры участвуют в вычислениях, то осуществляется их преобразование в другой двоичных код.
Возьмем число 57.
При использовании в тексте каждая цифра будет представлена своим кодом в соответствии с таблицей ASCII. В двоичной системе это – 0011010100110111.
При использовании в вычислениях, код этого числа будет получен по правилам перевода в двоичную систему и получим – 00111001.
© ООО «Знанио»
С вами с 2009 года.