Кодирование текстовой информации в компьютере

  • docx
  • 13.11.2021
Публикация на сайте для учителей

Публикация педагогических разработок

Бесплатное участие. Свидетельство автора сразу.
Мгновенные 10 документов в портфолио.

Иконка файла материала Л2-00860.docx

 Кодирование текстовой информации в компьютере

Компьютерная обработка текстовой информации начала ис- пользоваться с середины 60-х годов. Помимо преимуществ, которые появляются при автоматическом внесении текстовых комментариев в результаты расчетных программ, создание, обработка и хранение текстовых документов в файловом виде представляет массу удобств.

При кодировании текста в память последовательно заносятся коды символов, составляющих текст, и команд, управляющих внеш- ним видом и размещением этих символов. То есть если мы определя- ем числа 69 и 96 как текстовую информацию, коды этих чисел будут отличаться только порядком следования кодов цифр 6 и 9. Если же мы определяем их как числовую информацию, их коды будут совер- шенно различны, так как они представляют разные по величине чис- ла.

Первоначально для кодирования одного символа использовал- ся 1байт. В байт можно записать в 28 = 256 разных кодов (состояний). Эти состояния перенумерованы, и каждому сопоставляется какой- либо буквенный символ, графический элемент или команда, необхо- димая при оформлении текстовой информации. Такое соответствие называется кодовой таблицей.


В настоящее время существуют и применяются разные вари- анты 8-битных кодовых таблиц. Наиболее популярные из них:

  ASCII American Standart Code for Information Interchange – американский стандартный код для обмена информацией;

  КОИ8-Р Код Обмена Информацией 8-битный с кирилли-


цей; Windows;


CP1251 (Code Page) кодировка с кириллицей в Microsoft

 

CP866 кодировка MSDOS;


ISO 8859-5 – International Standards Organization – Междуна- родная организация по стандартизации. Ещѐ один стандарт для кодов для кириллицы.

Множество кодовых таблиц вызвано тем, что с учетом разно- образия естественных языков и фирм, выпускающих программное обеспечение, 256 состояний одного байта недостаточно для того, чтобы закодировать все встречающиеся символы и способы форма- тирования текста.

При разработке всех кодовых таблиц использовано следующее соглашение: первая половина таблицы – это коды с 0 по 127 – интер- национальна, т. е одинакова во всех вариантах кодировок. Первые 33 состояния (0–32) – это коды операций с текстом (перевод на новую строку, пробел, удаление последнего символа и т. п.). Затем состоя- ния с 33 по 127 – это коды знаков препинания, арифметических дей- ствий, цифр, строчных и прописных букв латинского алфавита. Вто- рая половина кодовых таблиц отводится под знаки национальных и специальных алфавитов и ввода в текст графических элементов для оформления таблиц.

В конце 90-х годов появился новый международный стандарт Unicode, который отводит под символ 2 байта. Каждый блок из 2-х байт может находиться в 216 =65536 состояниях. Этого достаточно, чтобы в одной таблице собрать символы большинства алфавитов ми- ра. Правда, длина текста удваивается, и скорость его обработки за- медляется. Но, в связи с существенным увеличение памяти и быстро- действия современных компьютеров, этот факт несущественен.