Лекция № 26 ПОДГОТОВКА ТЕКСТОВ И ДЕМОНСТРАЦИОННЫХ МАТЕРИАЛОВ
ПЛАН
1. Текст: представление, хранение, ввод
2. Оформление текста.
3. Автоматизированная обработка текста.
4. Специальные тексты.
5. Издательские системы.
1 Текст: представление, хранение, ввод
Представление информации в виде текста стало одним из первых доступных для обработки с помощью ЭВМ и до сих пор остается одним из наиболее универсальных. Энциклопедический словарь дает такое определение понятию “текст”: “Текст — это упорядоченный набор слов, предназначенный для того, чтобы выразить некий смысл. В лингвистике термин используется в широком значении, включая в себя и устную речь”.
Представление информации в виде текста при обработке с помощью вычислительной техники близко к этому определению. Под “текстовым” понимают такое представление информации, в котором она представлена в виде записи слов (логических элементов) некоторого языка и доступна для чтения человеком.
Язык для такого представления характеризуется некоторым алфавитом — т.е. допустимым набором символов. Поскольку компьютер работает только с двоичным кодом, то для записи и обработки требуется взаимно-однозначно сопоставить символы и двоичные коды. Правило сопоставления кодов и символов, входящих в алфавит, называется кодировкой.
Первый широко распространенный стандарт кодирования — таблица (т.е. прямое сопоставление кодов символам) кодировки ASСII (American Standard Code for Information Interchange, американский стандартный код для обмена информацией) — был разработан в 1963 году. Стандарт предполагал использование не только в вычислительной технике, но и в телеграфии (он стал заменой 5-битного кода Бодо). В нем для кодирования каждого символа отводилось 7 бит. Восьмой бит использовался для служебных целей — контроля четности при передаче.
Эта часть таблицы кодировки содержит символы латинского алфавита, цифры, некоторые знаки препинания и набор управляющих символов (возврат каретки, перевод строки, конец файла, сигнал и т.п.).
Позже восьмой бит стали использовать для представления символов национальных алфавитов: первая часть таблицы — US-ASCII — использовалась по-прежнему, а содержание второй менялось в зависимости от исходного естественного языка. Каждый вариант этой второй половины (расширенной таблицы) исходной таблицы получил название “кодовой страницы” языка (code page).
Для русского языка таких расширений несколько (разрабатывались они в разное время). Наиболее известны: CP866 (DOS), KOI-8R (UNIX), CP1251 (Windows) и MacCyr.
Применение такого способа кодирования сильно затрудняет передачу текстовых сообщений между разными странами, объединение в сообщении текста на нескольких языках, а в случае с русским языком — и обмен файлами между разными ОС (для русского языка до сих пор активно применяется 4 разных кодовых таблицы). Для решения этих проблем в 1991 году некоммерческим объединением был предложен стандарт кодирования Юникод (Unicode).
Стандарт состоит из двух частей: универсального набора символов (Universal Character Set) и правил трансформации (Unicode Transformation Format). Универсальный набор символов предполагает описание всех возможных при записи текстов символов в виде общей таблицы кодов. Правила трансформации определяют способ записи этих кодов.
Первая версия стандарта предполагала использование двух байтов для кодирования каждого символа. В дальнейшем это кодовое пространство было расширено.
Сейчас чаще всего применяется способ трансформации UTF-8, обеспечивающий совместимость с предыдущими реализациями и стандартами. В частности, коды менее 128 записываются одним байтом, что автоматически превращает их в коды ASCII.
Применение этого стандарта кодирования позволяет объединять в одном тексте слова на различных языках (без ограничений на их количество), использовать устаревшие языки, дополнительные символы.
Наиболее переносимым и легко используемым с технической точки зрения способом хранения и передачи текста являются текстовые файлы. По сути, эти файлы представляют собой последовательности символов, разбитых на абзацы или строки.
Текстовые файлы
Понятие “текстового файла” не предусматривает строго заданного формата или расширения. Тем не менее, помимо характерной для той или иной ОС таблицы кодировки, в текстовых файлах могут применяться три основных способа деления текста на строки (абзацы):
1. Windows (DOS) — символы “Возврат каретки” + “Перевод строки” (CR+LF).
2. Unix — символ “Перевод строки” (LF).
3. MacOs — символ “Возврат каретки” (CR).
Текстовые файлы применяются для самых различных целей и часто оказываются формой хранения данных, описанных более сложными формальными языками. Эти файлы часто используются для записи конфигурации ПО, документирования, переноса данных, описания HTML- или XML-кода.
Правила машинописного набора текста
Для облегчения анализа и последующего преобразования текста при его наборе в самых различных случаях рекомендуется соблюдать общие правила машинописного набора:
1. Все слова разделяются пробелом, и только одним пробелом.
2. Знаки препинания примыкают к предыдущему слову.
3. Скобки и кавычки всех видов примыкают к первому и последнему слову заключенного в них текста.
4. Текст разрывается только в конце абзаца.
5. Большие форматированные пробелы делаются вставкой символа табуляции, а не несколькими пробелами подряд.
Соблюдение этих правил позволяет легко использовать текст при подготовке более сложных документов, в которые он входит как важнейший элемент, или при организации автоматической обработки.
Текст может появиться из
самых разных источников. Чаще всего текстовую информацию вводят с помощью
клавиатуры. Стандартная клавиатура и программа, принимающая от нее информацию о
нажатых клавишах, позволяют вводить текст (набирая его посимвольно), указывать
место ввода в уже введенном тексте (перемещая маркер места ввода клавишами
перемещения курсора либо с помощью мыши) и удалять неверно введенные символы
слева или справа от курсора (с помощью клавиш и
).
Возможность исправлять ошибки и набирать текст постепенно стала одной из существенных причин, по которым подготовка текстовой информации практически повсеместно была переведена с бумажной на компьютерную основу.
Текстовые редакторы с развитыми возможностями предоставляют пользователям возможность протоколировать и сохранять наборы действий — создавать макрокоманды, или макросы. Использование макросов позволяет ускорить выполнение частых простых задач обработки.
Специализированные программы, основной задачей которых является обеспечение набора текста, разделяют на текстовые редакторы, т.е. программы, которые помогают именно подготовить тот или иной специфический текст, но не оформить его для печати, и текстовые процессоры — более сложные программные комплексы, позволяющие выполнить оформление текста, точно задать его расположение, сопроводить его графическими материалами и т.д.
Примр программных продуктов — текстовых редакторов:
Блокнот, Notepad++, PSPad, vi
2 Оформление текста
Шрифты
Чаще всего текстовая информация используется при подготовке различных печатных материалов. Конечная цель подготовки такого материала — его печать или точное изображение печатной страницы на экране. В отличие от простой подготовки текстового файла, при подготовке печатного материала важно, как отображается текст. Практически все основные элементы и приемы оформления текстовых материалов заимствованы у давно существующих технологий — печатных, оттуда же пришла и основная часть терминологии.
Основным и наиболее важным средством определения внешнего вида текста является шрифт (schreiben, от нем. — “писать”). Шрифт — это графический рисунок букв, цифр и символов, обладающий общими для всех символов стилистическими особенностями изображения.
Отдельный символ
контурного шрифта
с обозначенными элементами рисунка (из книги В.Кричевского “Типографика в
терминах и образах”. М.: Слово, 2000)
Шрифт характеризуется рядом параметров:
1. Рисунок шрифта — графические особенности, определяющие общность шрифта и его отличие от всех других.
2. Кегль (кегель) — размер шрифта — предельная высота большой буквы и окружающих ее пробелов (термин введен для описания высоты площадки литеры при наборе с помощью типографской кассы). Чаще всего задается в типографских пунктах (1 пункт = 1/72 дюйма = 0,375 мм). По историческим причинам некоторые размеры имеют собственные названия: 8 пт — “петит”, 9 пт — “боргес”, 10 пт — “корпус”, 12 пт — “цицеро”.
3. Начертание — шрифт с общим рисунком, но какими-либо отличительными признаками: более жирный, наклонный, разреженный. Иногда параметр плотности шрифта (светлый, полужирный, жирный) отделяют от начертания.
4. Часто как параметр задается подчеркивание или зачеркивание шрифта, или его написание как индекса — с уменьшением размера и подъемом/спуском относительно текущей строки.
Совокупность всех возможных размеров и вариантов написания шрифта называется гарнитурой. Гарнитуры имеют имена, по которым часто называют и конкретный шрифт.
По общим чертам рисунка различают три основных вида шрифтов:
1. Рубленые шрифты. Для этих шрифтов характерно угловое соединение штрихов. Чаще всего у таких шрифтов нет засечек. Такими шрифтами часто набирают заголовки.
2. Антиквенные шрифты. Происходят от созданного Альбрехтом Дюрером шрифта “Антиква”.
В этом шрифте соединения между штрихами сглажены, обязательны засечки. Это наиболее популярная “книжная” группа шрифтов для набора больших объемов текстов. Пример одного символа такого шрифта приведен на рисунке.
3. Акцидентные (оформительские) шрифты. Шрифты с самым разным рисунком, применяемые для оформительских целей, часто — стилизованные под рукописные буквы. Большие объемы текста такими шрифтами набирать не рекомендуется, он начинает утомлять взгляд.
Шрифт задается для набранного текста и не изменяет самих символов — он только определяет написание каждого символа, исходя из эталонного изображения. Библиотека таких изображений называется просто “шрифтом”.
Существует несколько основных способов описания шрифтов (точнее — гарнитуры шрифта):
1. Растровые шрифты. При таком способе каждая буква описывается отдельно, как некоторая матрица точек. Способ позволяет максимально ускорить обработку, но сильно затрудняет изменение размеров или начертаний. Для достижения качества каждый символ такой гарнитуры должен быть отредактирован вручную и должен храниться отдельно.
2. Векторные шрифты. При таком способе описания шрифт задается с помощью некоторых математических кривых, совокупность которых и составляет рисунок символов. Такой шрифт может изменять размеры без потери качества, но с помощью примитивов трудно добиться прорисовывания заполняемых элементов.
3. Контурные шрифты. Аналогично векторным, описываются с помощью некоторых математических кривых, но они определяют не символ, а его контур, который заполняется по определенным правилам. Именно этот тип шрифтов и является наиболее популярным.
Для использования векторных и контурных шрифтов необходимо выполнение операции, “создающей” шрифт (заданного рисунка, размера и начертания), годного для отображения. Такая операция называется “растеризацией”. В состав графических оболочек современных операционных систем входят программы — растеризаторы шрифтов определенного формата.
Наиболее популярные форматы шрифтов — это TrueTypeFonts (TTF, поддерживается ОС Windows и MacOS) и PostScript (разработан фирмой Adobe, для использования необходима программа Adobe TypeManager). Сейчас на смену этим форматам приходит совместно разработанный этими компаниями формат OpenType.
Растеризация шрифта — достаточно ресурсоемкая операция, поэтому контурные шрифты получили распространение только с началом массового применения достаточно мощных компьютеров.
Структурирование теста
Помимо внешнего вида букв, важное значение имеет пространственное расположение текста. Единицей пространственного размещения служит абзац. Как и в литературе, в компьютерном тексте абзацем называется выделенный по смыслу участок.
Для оформления абзаца используют несколько параметров:
1. Выравнивание (выключка) — правило расположения букв в строке абзаца. Видов выравнивания четыре: по левому краю, центральное, по правому краю и по ширине полосы набора.
2. Отступы от краев полосы набора.
3. Абзацный отступ (красная строка) — положение первой строки абзаца.
4. Интервалы. Различают межстрочное расстояние — задается множителем размера шрифта (одинарный, полуторный, двойной интервал) — и промежутки до и после абзаца.
5. Буквица — крупная выступающая первая буква абзаца. Часто задается не просто более крупным размером буквы, но и буквой другого рисунка.
Абзацы размещаются в рамках полосы — выделенного участка страницы, как правило, прямоугольной формы, в котором размещаются текст и иллюстрации. На листе может быть либо одно такое место (одна колонка), либо несколько — тогда говорят о многоколоночном тексте.
Как правило, текстовые процессоры не дают появляться висячим строкам — отдельным строкам абзацев в начале или конце полосы.
Важным элементом оформления текста на странице являются поля — пробелы вдоль края страницы и интервалы между колонками. Для удобочитаемости, в силу особенностей восприятия, такие пробелы должны быть обязательно.
Как правило, в достаточно большом (больше нескольких страниц) тексте выделяется несколько смысловых блоков (разделов) и видов содержательного текста — обычный текст, примечания, ссылки и т.п.
Окно текстового
процессора OpenOffice.org Write
с основными элементами
Для оформления таких типовых элементов создаются стили — определенные наборы параметров оформления шрифта и абзацев. Применение стилей позволяет ускорить набор, автоматизировать оформление (например, автоматически создавать оглавления) и изменять внешний вид различных элементов, не разыскивая их по всему тексту. Практически все современные текстовые процессоры опираются на стили, даже если пользователь не использует их. Единство оформления — одно из условий удобочитаемости и красоты печатного издания.
Для решения некоторых типовых задач оформления текстов существующие текстовые процессоры предусматривают два мощных средства автоматизации.
1. Списки. При оформлении текста это набор визуально выделенных элементов перечисления. Элементы выделяют с помощью символа-маркера (маркированные списки) либо номером — в упорядоченных списках. При оформлении списка чаще всего также предусматривают форматирование абзацев — так, чтобы они не выступали за маркер. Автоматизация оформления позволяет автоматически маркировать и выделять новые элементы списков.
2. Таблицы. Современные текстовые процессоры предусматривают средства для создания двухмерной структуры размещения информации. Применение таких средств позволяет редактировать структуру и содержание таблицы, добавлять строки и столбцы, изменять их линейные размеры, выделять их с помощью сетки или фона. Фактически каждая ячейка таблицы становится листом в миниатюре.
Стоит отметить, что файлы текстового процессора содержат массу дополнительных (по отношению к тексту) данных об оформлении и текстовыми очень часто не являются.
Как и текстовые редакторы, текстовые процессоры обладают средствами создания макрокоманд. Современные процессоры реализуют их на развитом языке сценариев, позволяющем решать довольно сложные задачи преобразования и оформления публикаций.
Примеры программных продуктов
Microsoft Word, OpenOffice Writer, StarOffice Word
3 Автоматизированная обработка текста
. Текстовое представление информации — одно из наиболее удобных для организации автоматической обработки. Связано это с тем, что в этой форме информация представляется в виде близком к исходному языку, что позволяет выполнять преобразования, связанные со смыслом текста.
Существует несколько наиболее распространенных автоматизированных операций, связанных с текстовым представлением.
Поиск
Задача поиска необходимой информации чаще всего формулируется как поиск фрагментов, содержащих некоторые понятия, в достаточно большом массиве. Большое значение этот вид автоматической обработки получил с ростом популярности межсетевой среды Интернет. Существует несколько подходов к организации такого поиска.
Первый подход опирается на поиск фрагмента текста, соответствующего некоторому образцу. Наиболее популярная форма задания этого образца — так называемые регулярные выражения. По сути, это описание фрагмента текста, удовлетворяющего некоторым условиям, по тем частям, которые в нем содержатся, и их порядку. Таким способом в большом текстовом массиве можно находить упоминания тех или иных слов, адреса, номера телефонов и т.п. шаблонные элементы.
Достоинство этого подхода — возможность применять его к массиву текста без предварительной обработки. Например, сразу при посимвольном получении текста.
Второй подход предусматривает предварительное создание специального вида базы для ускорения поиска — индекса. Такой способ применяется для ускорения поиска, если некоторые типовые поисковые запросы повторяются часто и нет возможности формировать/хранить весь массив текста. Например, при организации поисковой машины в среде Интернет.
Расшифровка или уточнение значений слова
Для решения такой задачи в самых разных видах применяют словари — базы информационных фрагментов, связанных с некоторыми ключевыми словами или словосочетаниями. Примером таких баз могут быть словари различных языков: англо-русский, русско-английский, толковый и другие виды словарей. Одно из самых распространенных применений словарей — проверка правописания слов при наборе.
Особым видом словарей являются тезаурусы — словари, в которых слова связываются на основе каких-либо лексических отношений. Например: слова являются синонимами (смысловыми аналогами), антонимами (противоположны по смыслу) и т.п.
Этот вид словарей важен не только потому, что может помочь при подготовке текстов, но и потому, что это отразит смысл слов — для систем, моделирующих отдельные аспекты мышления человека.
Системы автоматизированной боработки текста
Используя закономерности естественного языка и описанные выше средства выполнения некоторых операций и выявления зависимостей, с помощью ЭВМ автоматизируют (хотя и не полностью) некоторые операции по смысловому преобразованию текста. Современные системы обработки позволяют создавать краткие обзоры текстов (рефераты) или готовить перевод с одного естественного языка на другой. Приходится отметить, что точного решения эти задачи не имеют, поскольку зачастую трудно подобрать адекватное слово или выражение, учитывая не только формальный перевод, но и грамматические особенности, и культурные. Тем не менее с применением специализированных по областям знания словарей современные системы автоматизированного перевода создают подстрочник, который может дать представление о смысле текста и в дальнейшем помочь переводчику в переводе документа.
Примеры программных продуктов
Системы локального поиска:
Следопыт, Google Desktop, Microsoft Office Find
Системы и утилиты автоматизированной обработки текста:
Grep, lexx, yacc
Словари:
Abbyy Lingvo, Multilex
Автоматизации перевода:
Promt
4 Специальные тексты
Под специальными текстами в этой статье подразумеваются тексты, содержащие математические, химические или другие формулы, сложные схемы и специфические обозначения, используемые в научных, учебных и технических публикациях и документах. Для создания таких фрагментов стандартные средства представления и подготовки текста плохо приспособлены.
Существует множество специальных программных средств, предназначенных для подготовки специальных текстов. Наиболее популярным способом интеграции элементов-формул в документы является технология OLE. Технология предусматривает, что в документе выделяется место для размещения объекта, а обработка его ведется с помощью внешней программы, выступающей как OLE-сервер.
Такой способ позволяет интегрировать в одном документе разные объекты, но для корректной обработки и печати требует наличия соответствующих программ, а для редактирования — большое количество системных ресурсов.
При подготовке научных, технических и учебных текстов часто используется свободно доступная система подготовки публикаций TeX (от гр. teRcnh — “искусство”, “мастерство”). При использовании этой системы документ с формулами описывается на специальном языке разметки в виде текстового файла, который и обрабатывается системой. Результатом становится специальный файл (dvi, device independent — “независимый от устройства”), который может быть просмотрен, напечатан или преобразован в другой формат с помощью специальных программ из комплекта.
Для соблюдения стандартов и упрощения набора систему комплектуют набором шаблонов и указаний о формировании страниц. Примерами таких шаблонов являются комплекты LaTeX, MikiTeX, AMSTeX.
Файл с материалом для этой системы набора может быть подготовлен с помощью обычного текстового редактора и передан на любую другую платформу. Тексты, подготовленные с помощью этой системы, соответствуют строгим стандартам оформления формул и научных текстов. Многие системы визуального набора позволяют сохранять описания формул в стандарте одного из комплектов TeX.
В современных условиях все большее значение приобретает отображение документа с помощью браузеров web-страниц, с минимальным количеством дополнительных средств.
Для решения этой задачи в общем стандарте XML предусмотрен язык специальной разметки: MathML. Формулы на этом языке описываются и отображаются в документах с помощью дополнительных модулей к программам просмотра web-страниц.
Примеры программных продуктов
Макропакеты TeX: LaTeX, MikiTeX, AMSTeX
Специализированные редакторы: MathType (его облегченная версия входит в пакет MS Office под названием Equation), Scientific Letter, Chem Window, ISIS Draw.
5 Издательские системы
Появление мощных и сравнительно недорогих персональных компьютеров, качественных устройств ввода и вывода информации, разработка программного обеспечения сделали возможным появление комплексов настольных издательских систем (Desktop Publishing, DTP).
В узком смысле под издательской системой понимают комплекс программ, позволяющих выполнить весь цикл допечатной подготовки издания: импорт или набор текста, его оформление и расположение на листах, вставку иллюстраций и сложных объектов — и в итоге выполнить вывод издания на печать. Примерами таких программ могут быть пакеты Adobe InDesign, Scribus, QuarkXPress. Процесс и результат создания страниц издания называют версткой, а точную копию самого издания — оригинал-макетом.
Следует отметить, что многие возможности программных пакетов настольных издательских систем заимствованы современными текстовыми процессорами, которые позволяют выполнить большую часть задач верстки и подготовки макета. Полнофункциональная издательская система имеет менее развитые средства ввода и обработки собственно текста, но значительно больше возможностей управления параметрами оформления и разметки листов, управления процессом вывода (с учетом цветовых особенностей), применения шаблонов оформления и автоматизации подготовки списков, указателей и оглавлений. Некоторые операции, типичные для издательских систем, нельзя выполнить средствами текстового процессора. Например, к таким операциям относится спуск полос — расположение подготовленных полос издания на большом печатном листе, который потом будет разрезан и сброшюрован.
В широком смысле под издательской системой понимают весь комплекс программного обеспечения и аппаратных средств, позволяющих ввести текст, подготовить графические изображения, выполнить подготовку оригинал-макета и вывести его в виде готовых форм для печати.
Современная издательская система, помимо компьютера со специальным ПО, также включает устройство оптического ввода (сканер, цифровую камеру) и устройства вывода на печать — различные принтеры. Для обеспечения точности и согласованности работы всех средств ввода и вывода перед использованием проводится цветокалибровка монитора, принтера и сканера. В процессе калибровки с помощью специального оборудования добиваются точного соответствия между цветами на всех этапах обработки.
Поскольку конечной целью подготовки оригинал-макета является его печать, издательская система либо выводит полученный макет на специальное устройство печати, либо готовит файл с описанием всего издания (чаще всего в формате PostScript), либо с помощью принтера готовит эталонную копию для тиражирования.
Использование издательских систем и фотонаборного оборудования позволило значительно сократить срок подготовки печатных изданий, снизить трудоемкость этого процесса, значительно расширить творческие возможности дизайнеров печатных изданий.
Примеры программных продуктов
Adobe InDesign, Scribus, QuarkXPress, Corel Ventura
6 Основные характеристики растровой графики
Основными параметрами изображения в растровой форме является разрешение, возможное количество градаций. Различают разрешение линейное — количество столбцов по горизонтали и линий по вертикали, и цветовое/оттеночное — количество оттенков или цветов у каждой точки. Линейное разрешение описывают как количество точек, а цветовое — в виде количества битов, отводимых на описание каждой отдельной точки (эту величину еще называют битовой глубиной цвета).
Основное окно редактора растровой графики Adobe Photoshop с отмеченными основными элементными
Чем выше количество точек на единицу площади, чем выше количество цветов каждой точки, тем выше возможное качество изображения, но тем больше объем памяти, необходимый для хранения и обработки изображения. Например, при использовании 24 бит для представления цвета каждой точки может быть использовано 16 777 216 (224) оттенков, и изображение размером 1280 ґ 1024 точки (разрешение современного монитора) будет занимать как минимум 3840 Кб памяти.
Растровая графика — универсальное средство для формирования и обработки любых плоских изображений. С помощью цветов и оттенков отдельных точек на плоском изображении могут быть показаны и пространственные (объемные) сцены.
Растровая графика — основное средство представления и обработки фотографических изображений, стилизованных художественных рисунков, всевозможных диаграмм, текста. С помощью именно этого способа представления информации строятся современные человеко-машинные интерфейсы.
Несмотря на универсальность, этот способ представления информации имеет целый ряд недостатков. К ним относятся: зависимость (причем квадратичная) качества изображения от его объема, трудность выделения и манипуляции отдельными осмысленными элементами, существенное падение качества изображения в результате геометрических преобразований.
Для преодоления этих недостатков программы работы с растровой графикой предусматривают средства создания составных изображений с помощью механизма слоев (layers) — накладывающихся друг на друга плоскостей, в каждой из которых используется только часть точек, механизма фильтров — преобразующих цвета пикселей с учетом некоторых параметров (выполняя, например, размытие или внесение геометрических искажений), управления цветовыми каналами и способом взаимодействия отдельных слоев.
Программы работы с растровой графикой имеют в своем составе большой набор способов изменения цвета пикселей, для этого используется метафора “инструмента” — модели кисти или карандаша с изменяемыми параметрами. Пользователь может создавать библиотеки таких инструментов.
Как было показано выше, при хранении и обработке растровая графика требует большого объема памяти. Поэтому при разработке способов ее хранения и передачи часто используют сжатие — преобразование, позволяющее уменьшить объем при хранении. Существует большое количество различных методов сжатия графической информации, подробнее о них рассказано в статье “Сжатие” 2.
Примеры программных средств
Adobe Photoshop, GIMP, Corel Painter
Цветовые модели
Один из самых важных вопросов при организации обработки графических данных — это представление и кодирование цвета.
В простейшем случае, когда на устройстве назначения всего два цвета, используется всего один бит, состояние которого и задает цвет. Если же цветов становится больше, то такой подход уже не может решить задачу.
Существует несколько способов кодирования цвета, применяемых при обработке как растровой, так и векторной графики.
Для описания градации одного цвета применяется обычное кодирование, в котором номер обозначает градацию. Чем больше значение, тем сильнее проявляется цвет. Для устройств-мониторов (в которых точка самостоятельно излучает свет) 0 обычно соответствует отсутствию цвета, а максимальное значение — максимальной светимости точки. Таким образом, появляется возможность задавать оттенок на монохромном мониторе.
В случае, когда используется печатающее устройство, на котором чернильная точка либо есть, либо нет, оттенок задается некоторой матрицей (например — 4 ґ 4 точки), количество чернильных точек в матрице точек будет образовывать оттенок.
В более сложных случаях, когда речь идет о кодировании сложного цвета с большим количеством оттенков, рассматривают разложение цвета на несколько отдельных компонентов, которые, смешиваясь (т.е. действуя в одной точке), образуют заданный цвет.
Компоненты цвета и способ образования из них видимого оттенка образуют цветовую модель.
Цветовые модели разрабатывались задолго до появления вычислительной техники, в психологии восприятия. Существует большое количество цветовых моделей, которые создавались и вводились разными авторами для описания и исследования зрения человека. С появлением проекционной и печатающей аппаратуры, с учетом технических требований были разработаны новые модели, учитывающие в первую очередь физические и технические аспекты формирования конкретного цвета.
Для каждого конкретного изображения все, что передается одним из компонентов цвета, также называется “каналом”.
Наиболее популярны сейчас следующие модели:
Модель восприятия HLS
Модель подразумевает образование цвета из трех основных компонентов:
Hue — оттенок цвета;
Lights — яркость;
Saturation — насыщенность.
При ее использовании считается, что все оттенки заданы на едином цветовом круге. Поэтому первый параметр задает градус поворота от эталонного оттенка (0 — белый). Остальные параметры задаются в процентах как положение между максимальными и минимальными доступными значениями.
Модель также известна под названиями HSL, HIS и другими.
Эта модель наиболее приближена к человеческому восприятию и описанию цвета. Она применяется в основном для описания цвета при анализе его восприятия человеком.
Аддитивная модель цвета RGB
В этой модели цвет образуется смешиванием трех компонентов:
Red — красный;
Green — зеленый;
Blue — голубой.
В данном случае цвет образуется из света нескольких источников (в том случае, когда источники излучают свет и он может быть “просуммирован”); модель является аддитивной.
Самыми популярными “потребителями” модели RGB являются мониторы, в которых цвет каждого пикселя растра складывается из трех компонентов, проекторы и сканеры, которые чаще всего регистрируют отраженный свет.
Именно цветовая модель RGB используется и при описании возможностей различных графических устройств. Цветовое пространство в этом случае характеризуют количеством битов, отводимых на сохранение цвета. Чаще всего используются режимы HighColor (16 бит, в соотношении 5:6:5 или 5:5:5) и TrueColor (24 бита, в соотношении 8:8:8).
Профессиональные программы обработки графической информации позволяют работать с расширенным представлением, когда на одну компоненту отводится не 8, а 16 бит.
Каждый компонент задается силой светимости, 0 соответствует отсутствию света. Таким образом, цвет 0-0-0 — это черный, цвет из равных долей каждого компонента — один из оттенков серого, а цвет с максимальными значениями компонентов — белый.
Субстрактивная модель цвета CMYK
Если необходимо сформировать цвет точки из несветящихся самостоятельно компонентов, то аддитивная модель применяться не может, поскольку формируется цвет точки не из самостоятельного излучения, а из отраженного. Поэтому для формирования цвета при печати была разработана субстрактивная — вычитающая модель цвета (удобнее рассматривать отраженную, а не поглощенную компоненту). В ней цвет формируется из трех основных компонентов:
Cyan — голубой;
Magenta — фиолетовый;
Yellow — желтый.
Эти цвета получаются вычитанием из чистого белого цветов аддитивной модели.
Формально, при смешивании в равных максимальных долях они должны давать черный цвет. Поскольку на практике точного черного цвета при смешивании не получается, то в модель добавляется компенсирующий четвертый компонент, blaсK —черный. Почему именно последняя буква взята в сокращение, точно не известно.
Эта модель формирования цвета используется при печати как в типографиях, так и в современных печатающих устройствах. В некоторых моделях для уточнения добавляют еще четыре цвета — осветленных, для достижения точности оттенков.
Следует отметить, что преобразование из трехкомпонентной модели в четырехкомпонентную не может быть математически точным и всегда проходит с некоторыми искажениями. По этой причине оборудование при профессиональном использовании требует калибровки, а печать — учета большого количества параметров.
Именно из-за использования такой модели часто при печати сложных материалов указывают “печать в три краски” или “печать в четыре краски”.
Векторная графика
Существенным недостатком растровой графики является трудность манипуляции отдельными объектами и выполнение геометрических преобразований. Одно из следствий этого — трудности в организации качественного вывода на различных устройствах и затруднения при изображении новых, не сфотографированных объектов.
Кроме того, очень быстро растет объем изображения (и необходимой для него памяти) при увеличении линейных размеров.
Для преодоления этих трудностей применяется подход, подразумевающий хранение и обработку изображения не в виде растра, а в виде некоторых отдельных элементов (графических примитивов). Элементами обычно являются математические объекты с заданными конкретными параметрами. Параметры позволяют выполнить визуализацию элементов на устройстве вывода (растеризацию), исходя из его характеристики и заданного “окна” просмотра.
Поскольку пространственное положение примитивов и способ отображения задаются с помощью координат, способ хранения и обработки получил название векторной графики.
Одним из наиболее существенных достоинств векторной формы представления изображения является ее компактность и малая зависимость объема от размеров изображения.
Рисунок в векторном графическом редакторе Corel Draw с основными элементами редактирования
К минусам этой формы представления относится отсутствие общих стандартов (практически у каждого редактора есть свои собственные форматы и особенности) и высокие требования к системным ресурсам, особенно — ресурсам вычислительным.
В программах подготовки векторных изображений работа строится вокруг объектов(примитивов), обладающих некоторыми свойствами.
Наиболее распространенными примитивами являются: отрезки, прямоугольники и их производные (со сглаженными углами), эллипсы и их части, кривые Безье(математические кривые третьего порядка, задаваемые 4 точками), а также составленные из них сложные контуры. Одним из типовых объектов является текст, написанный, как правило, контурным шрифтом (векторным по сути).
Каждый объект может обладать целым рядом свойств. К ним, в частности, относят: толщину линий и способ их стыковки, цвет, заливку — способ заполнения замкнутого контура, — накладываемые на объект эффекты. Параметром является и положение объекта.
С объектами редактор векторной графики может выполнять большое количество разнообразных операций. К таким операциям относятся: повороты, масштабирование, геометрические искажения всевозможных видов, тиражирование готовых объектов. Специфика формы представления такова, что операции выполняются без искажений.
Современные редакторы векторной графики могут импортировать и использовать как готовые объекты изображения растровой графики.
Редакторы векторной графики позволяют группировать объекты и создавать таким образом сложные объекты для выполнения операций над ними как над единым целым.
Объекты могут быть упорядочены друг относительно друга, распределены на плоскости как “на поверхности”, так и “по вертикали”.
Как и программы растровой графики, программы векторной графики поддерживают работу со слоями.
Векторная графика применяется в программах автоматизированного проектирования, подготовки графических печатных материалов (плакатов, например), для подготовки анимационных роликов к публикации в сети Интернет, презентаций.
Примеры программных средств
CorelDraw, Adobe Illustrator, OpenOffice Draw
Преобразование представлений информации. Автоматизация ввода
Несмотря на развитые методы и большое количество средств работы с различными видами информации, преобразование этих представлений (т.е. перевод из одной формы в другую с сохранением смысла) часто оказывается сложной задачей, не имеющей универсального решения.
Задача преобразования чаще всего строится так: есть некоторый поток данных, полученных в результате оцифровки. Требуется выделить из него исходный текст и выдать его в другой форме.
Вот несколько наиболее часто решаемых задач такого типа.
Рабочее окно распознавания текста Abbyy FineReader
Задача распознавания текста. В этом случае требуется на растровом изображении (матрице окрашенных точек) распознать текст и сформировать соответствующий документ. Решение этой задачи сильно осложнено существованием большого количества различных шрифтов, неточностями сканирования и повреждением оригинала (наличием зачеркнутого текста, например), сложными приемами разметки (таблицами, информационными “врезками”, внедрением в текст рисунков и т.д.). Особенно сложным является распознавание рукописного текста.
Программные средства распознавания текста обеспечивают: прием изображения со сканера или графического файла, распознавание структуры листа, распознавание текста и последующее редактирование (исправление неверно распознанных элементов), и сохранение полученного результата. Точность распознавания в современных системах такого рода находится на уровне 97–99%. Для повышения качества распознавания такие системы позволяют проводить обучение, т.е. модифицировать базу средств распознавания.
Промышленные варианты систем распознавания текста, используя то же самое ядро распознавания, обеспечивают автоматизированный ввод и распознавание (работу с автоматической подачей документов), передачу распознанной информации в общую базу данных. Используют такие системы для быстрого ввода и заполнения всевозможных стандартных форм. Узнать подобные формы можно по строго заданным местам для написания букв и маркерам, позволяющим точно позиционировать поля на листе.
Задача векторизации изображения. Эта задача родственна уже описанной, но в ней речь идет о распознавании графических примитивов: кривых, заполненных областей и их параметров.
Программы такого рода применяют для оцифровки чертежей (раньше существовавших в бумажной форме), картографических материалов, обработки спутниковых снимков и формирования карт.
“Бытовые” средства распознавания графических примитивов позволяют подготовить векторное изображение (для плаката, например) по ранее нарисованному на бумаге.
Задача голосового ввода. Создание промышленных систем автоматического распознавания речи позволило бы значительно ускорить ввод большого количества данных, но, к сожалению, пока такие системы не обеспечивают достаточно высокой степени распознавания.
Как и системы распознавания текста, такие системы практически всегда обучаемы. Перед началом работы каждому новому оператору нужно потратить довольно много времени для предоставления системе своих голосовых данных; для этого приходится наговаривать специально подобранные тексты.
Сейчас программное обеспечение голосового ввода позволяет использовать голосовые команды для управления компьютером. Такой интерфейс увеличивает доступность вычислительной техники в ситуациях, когда ручное управление затруднено (например, для людей с ограниченными возможностями).
Задача синтеза речи. Часто бывает трудно или неудобно использовать экран для чтения текста (например, в транспорте), или хотелось бы получить информацию по голосовому каналу связи. В этом случае применяют программы синтеза речи.
Технически эти программы проще, чем программы распознавания, но безупречной их работу назвать сложно — “начитанный” такими программами текст часто оказывается неестественным и плохо воспринимается человеком. Трудности возникают при расстановке ударений, интонировании предложений и фраз, чтении неизвестных системе слов.
Тем не менее такие системы активно применяются во всевозможных автоинформаторах, когда набор используемых слов и фраз невелик.
Операционные системы Microsoft Windows в своем составе имеют общий интерфейс такого рода — MicrosoftSpeech. Для этого интерфейса могут быть разработаны системы произнесения текста — так называемого “голоса”. Интерфейс позволяет разрабатывать программы, использующие синтез речи. В частности, один из новых стандартов языков для разработки web-сайтов предусматривает голосовое взаимодействие — чтение страниц и распознавание команд перехода по ссылкам.
Задачи такого рода (распознавания образов в особенности) традиционно считаются задачами, связанными с областью искусственного интеллекта, то есть с воссозданием мыслительной деятельности человека. Разработка общих методов распознавания визуальных образов, речи человека, задача поиска решений и закономерностей в сложных ситуациях — задача, которую пытаются решить почти с самого момента появления ЭВМ.
Появление общего решения позволило бы принципиально увеличить возможности компьютеров, построить принципиально новую среду работы пользователя, решить огромное количество производственных задач.
В настоящий момент решений такого рода не существует. Современные методы создания обучающихся систем для распознавания образов в приведенных системах используются как дополнительные средства поиска решений.
Примеры программных средств
Abbyy FineReader, Dragon NaturallySpeaking, Corel Trace
Деловая графика в электронных таблицах
Существенной возможностью для всех табличных процессоров является наличие средств графического представления данных. Средства графического представления данных позволяют наглядно отобразить большие массивы числовой информации и с помощью этого значительно упростить их восприятие; позволяют решать задачи поиска и иллюстрирования зависимостей, сравнения данных, поиска закономерностей.
Поскольку в электронных таблицах графические средства выполняют деловые функции, их набор получил название средств деловой графики.
Общий подход к построению диаграмм в электронных таблицах состоит в демонстрации на графике нескольких сопоставляемых наборов данных, организованных в ряды. Набор соответствующих друг другу значений из разных рядов называется категорией.
При построении диаграмм в электронных таблицах данные могут сопровождаться подписями — маркерами на осях, которые записываются в отдельном диапазоне. Каждая подпись должна соответствовать категории.
Диаграмма строится в некоторой системе координат. По одной из осей отсчитываются категории, по второй — значения. Диапазон значений определяется автоматически на основе имеющихся данных.
В зависимости от типа диаграммы данные отображаются на ней разным способом. Можно отметить несколько стандартных типов:
1. Гистограмма (столбчатая диаграмма). В этом типе диаграмм данные отображаются в виде вертикальных или горизонтальных столбцов. Высота (или длина) каждого столбца соответствует отображаемому значению. Если отображается несколько согласованных рядов, то столбцы либо строятся рядом, либо один над другим — это позволяет оценить соотношение величин.
2. Круговая диаграмма. В этом типе диаграмм величины отражаются секторами круга. Чем больше величина, тем большую долю круга занимает ее отображение. Объемный вариант такой диаграммы предусматривает “нарезку” некоторого диска.
3. График. В этих диаграммах значения величин отображаются высотой точки графика. Точки соединяются линиями.
4. Поверхность. Диаграмма, в которой ряды становятся линиями для некоторой поверхности в объеме.
5. Лепестковая диаграмма. Каждый ряд отображается как линия, соединяющая точки на радиусах.
Графики и поверхности в Microsoft Excel
Большинство диаграмм может быть построено как в виде плоской фигуры, так и в виде объемной фигуры. Объемные диаграммы часто являются псевдо-трехмерными, то есть объем используется не для показа большего количества данных, а только для изменения внешнего вида диаграммы. Например, столбчатая диаграмма может быть построена и с помощью трехмерных объектов — параллелепипедов, цилиндров, конусов.
Диаграммы в электронных таблицах сохраняют свою зависимость от данных, на основе которых они построены. При изменении данных или подписей диаграмма изменяется автоматически.
Наиболее развитые системы отражают и обратную зависимость: они позволяют изменением положения маркеров на диаграмме менять исходные данные. Такое средство позволяет подобрать оптимальное решение.
После построения диаграмма может быть оформлена или переделана — может быть изменен ее тип, заданы названия осей, способ отображения легенды, цвета, подписи и другие параметры.
Методические рекомендации
Электронные таблицы изучаются в основной и старшей школе. При этом различаются цели, содержание и методы обучения.
В основной школе, в соответствии со стандартом, электронные таблицы осваиваются в качестве инструмента моделирования. Необходимо научиться вводить данные в таблицу, изменять данные, оперировать математическими формулами, переходить к графическому представлению данных, представлять зависимости на графике, проводить компьютерные эксперименты с использованием готовых моделей объектов и процессов.
Основная организационная форма работы — урок, где используются устоявшиеся в дидактике методы обучения.
Можно выделить следующие вопросы для изучения по данной теме в основной школе:
1. Области применения электронных таблиц.
2. Среда табличного процессора, режимы работы, система команд.
3. Обрабатываемые данные.
4. Методы адресации (виды и способы реализации).
5. Используемые функции.
6. Графическое представление данных.
7. Сортировка и фильтрация данных.
8. Работа с электронной таблицей как с базой данных (при использовании макросов и внешних приложений).
9. Использование электронных таблиц для решения задач численного моделирования.
.
ВОПРОСЫ И ЗАДАНИЯ
1. Текст. Символы и кодирование. Правила машинописного набора.
2. Оформление текста. Структурирование текста.
а) Понятие шрифта. Форматы представления шрифтов. Внешний вид шрифтов.
б) Абзац. Параметры оформления абзацев.
в) Структурирование текста. Списки. Таблицы.
г) Верстка текста.
3. Автоматизированная обработка текстовой информации.
а) Словари, тезаурусы.
б) Индексирование, поиск.
в) Реферирование, перевод.
В старшей школе в рамках предмета независимо от уровня изучения (базового или профильного) рассматриваются:
1. Специальный текст. Формулы. Системы набора.
2. Издательские системы.
3. Макросы.
Материалы на данной страницы взяты из открытых источников либо размещены пользователем в соответствии с договором-офертой сайта. Вы можете сообщить о нарушении.