Кодирование текстовой информации в компьютере

docx
13.11.2021

Публикация педагогических разработок

Бесплатное участие. Свидетельство автора сразу.
Мгновенные 10 документов в портфолио.

Добавить материал

Л2-00860.docx

Кодирование текстовой информации в компьютере

Компьютерная обработка текстовой информации начала ис- пользоваться с середины 60-х годов. Помимо преимуществ, которые появляются при автоматическом внесении текстовых комментариев в результаты расчетных программ, создание, обработка и хранение текстовых документов в файловом виде представляет массу удобств.

При кодировании текста в память последовательно заносятся коды символов, составляющих текст, и команд, управляющих внеш- ним видом и размещением этих символов. То есть если мы определя- ем числа 69 и 96 как текстовую информацию, коды этих чисел будут отличаться только порядком следования кодов цифр 6 и 9. Если же мы определяем их как числовую информацию, их коды будут совер- шенно различны, так как они представляют разные по величине чис- ла.

Первоначально для кодирования одного символа использовал- ся 1байт. В байт можно записать в 2⁸ = 256 разных кодов (состояний). Эти состояния перенумерованы, и каждому сопоставляется какой- либо буквенный символ, графический элемент или команда, необхо- димая при оформлении текстовой информации. Такое соответствие называется кодовой таблицей.

В настоящее время существуют и применяются разные вари- анты 8-битных кодовых таблиц. Наиболее популярные из них:

ASCII – American Standart Code for Information Interchange – американский стандартный код для обмена информацией;

КОИ8-Р – Код Обмена Информацией 8-битный с кирилли-

цей; Windows;

CP1251 – (Code Page) – кодировка с кириллицей в Microsoft

CP866 – кодировка MSDOS;

ISO 8859-5 – International Standards Organization – Междуна- родная организация по стандартизации. Ещѐ один стандарт для кодов для кириллицы.

Множество кодовых таблиц вызвано тем, что с учетом разно- образия естественных языков и фирм, выпускающих программное обеспечение, 256 состояний одного байта недостаточно для того, чтобы закодировать все встречающиеся символы и способы форма- тирования текста.

При разработке всех кодовых таблиц использовано следующее соглашение: первая половина таблицы – это коды с 0 по 127 – интер- национальна, т. е одинакова во всех вариантах кодировок. Первые 33 состояния (0–32) – это коды операций с текстом (перевод на новую строку, пробел, удаление последнего символа и т. п.). Затем состоя- ния с 33 по 127 – это коды знаков препинания, арифметических дей- ствий, цифр, строчных и прописных букв латинского алфавита. Вто- рая половина кодовых таблиц отводится под знаки национальных и специальных алфавитов и ввода в текст графических элементов для оформления таблиц.

В конце 90-х годов появился новый международный стандарт Unicode, который отводит под символ 2 байта. Каждый блок из 2-х байт может находиться в 2¹⁶ =65536 состояниях. Этого достаточно, чтобы в одной таблице собрать символы большинства алфавитов ми- ра. Правда, длина текста удваивается, и скорость его обработки за- медляется. Но, в связи с существенным увеличение памяти и быстро- действия современных компьютеров, этот факт несущественен.

Кодирование текстовой информации в компьютере

В настоящее время существуют и применяются разные вари- анты 8-битных кодовых таблиц

Материалы на данной страницы взяты из открытых источников либо размещены пользователем в соответствии с договором-офертой сайта. Вы можете сообщить о нарушении.

Посмотрите также