Организация массового ввода бумажных документов

  • docx
  • 22.10.2021
Публикация на сайте для учителей

Публикация педагогических разработок

Бесплатное участие. Свидетельство автора сразу.
Мгновенные 10 документов в портфолио.

Иконка файла материала Л1-644.docx

1.   Организация массового ввода бумажных документов

Рассмотрим содержание основных операций автомати- зированного ввода бумажных документов. Автоматизирован- ное чтение и ввод документов включает в себя следующие операции:


1.     Подготовка документа к сканированию.

2.     Получение изображения документа.

3.     Распознавание и ввод данных, содержащихся в документе, в инфор- мационную базу.

 

Подготовка документа к сканированию включает в себя две операции (рис. 10.1): непосредственную подготовку документа к сканированию и вы- полнение описания настройки системы на конкретную форму документа.

 

 

Подготовка документа к сканированию

 

 

Непосредственная подготовка документа Описание настройки системы на конкретную форму документа

Настройки модели ввода

Настройка полей ввода документа и индексация базы данныхСоставление настройки формы документаРис. 10.1. Операции подготовки документа к сканированию

 

 

В основе выполнения этого состава операций лежит понятие формати- рованного (структурированного) документа. Основной структурной единицей форматированного документа является поле документа.

 


 

Каждое поле описывается в двух аспектах: визуально, в частности гео- метрически, и содержательно.

 

Получение изображения документа включает в себя выполнение та- ких операций, как сканирование, контроль качества отсканированных изо- бражений и возможное повторное сканирование (рис. 10.2).


 

                         

 

Основная	функция всех документов – зафиксировать информа- цию так, чтобы в дальнейшем ее можноРис. 10.2. Схема получения изображения документов

 

Распознавание и ввод данных, содержащихся в документе, в информа- ционную базу предполагает выполнение следующих основных операций: предварительная обработка изображений, нахождение полей, проверка распо- знанной информации, ввод данных в информационную базу (рис. 10.3).

 


Рис. 10.3. Операции распознавания и ввода данных

 

Распознавание документа в настоящее время осуществляется с помо- щью следующих систем распознавания текстов: OCR (Optical Character Recognition) технология оптического распознавания печатных символов, ICR (Intelligent Character Recognition) технология распознавания раздель- ных печатных символов, написанных от руки, OMR (Optical Mark Recognition) распознавания отметок.

В отличие от обычной системы распознавания система ввода стандарт- ных форм использует формальное описание исходной формы документа или бланка. Это позволяет автоматически помещать распознанную информацию в поля базы данных без участия оператора. Строгое соблюдение стандарта внешнего вида формы существенно повышает точность распознавания полей документа.

Контроль распознанных данных является следующей операцией, реа- лизуемой системой ввода.

Системы автоматического распознавания обычно вместе с результатом возвращают так называемую «степень уверенности». Для повышения надеж-


ности данных после распознавания применяются определенные пользовате- лем автоматизированные методы проверки данных (например, можно прове- рить, имеется ли распознанная информация в базе данных, и если нет, то пометить поле как некорректное). Для повышения надежности данных ис- пользуются дополнительные механизмы, такие как применение словарей и таблиц, определяемых пользователем. Помимо этого, системы включают специальные встроенные средства для определения специальных процедур проверки для каждого поля документа.

Если данные после распознавания помечены как некорректные, то они автоматически направляются на ручное редактирование. Во время редактиро- вания оператор видит реальное изображение нераспознанного поля и имеет возможность откорректировать его. После ввода оператором новых данных снова применяются правила проверки данных, т.е. на всех этапах ввода, как автоматического, так и ручного, осуществляется проверка данных в соответст- вии с правилами, определенными пользователем.

Индексирование и загрузка данных. Заключительная операция про- цесса – это экспорт изображений документов и сопутствующих данных в кон- кретную систему документооборота или базу данных и индексирование. Ос- новными требованиями к экспорту являются поддержка различных форматов данных и его скорость.

После того как документ распознан, он поступает в базу данных или в систему управления документами, где проводится его индексирование.

В отличие от обычной системы распознавания система ввода стандарт- ных форм использует формальное описание исходной формы документа, опи- сание модели ввода и модели соответствия полей ввода и индексирования. Это позволяет автоматически производить индексирование документов и за- гружать информацию в поля базы данных или архив без участия оператора.

В зависимости от конкретной задачи и типа документа он может быть загружен в полнотекстовый модуль или информация, из него извлеченная, должна будет попасть в систему атрибутивной индексации. Например, значе- ния из полей формы попадают в карточку документа (рис. 10.4). При этом может быть сохранено изображение документа.


 

Рис. 10.4. Регистрационная карточка документа


В качестве системы обработки форм можно использовать систему Cogni- tive Forms компании Cognitive Technologies. Cognitive Forms Российская система промышленного ввода стандартных форм документов. Она предна- значена для автоматизированного ввода в информационные системы и базы данных произвольных, одно- и многостраничных форм документов. При этом документы должны удовлетворять определенным требованиям к оформлению и заполнению и быть подготовленными на лазерных, струйных, и матричных принтерах или стандартных бланках с использованием пишущих машинок.

Внедрение системы позволяет обеспечить ускорение ввода стандартных форм документов в 5–10 раз по сравнению с ручным вводом, уменьшение ко- личества ошибок. Cognitive Forms дает возможность осуществлять распреде- ленную в рамках локальной сети обработку вводимых форм и добиться эф- фективного доступа к данным в режиме реального времени.

 


 

Скачивание материала доступно только для авторизованных пользователей.