Задача распознавания текста. В этом случае требуется на растровом изображении (матрице окрашенных точек) распознать текст и сформировать соответствующий документ. Решение этой задачи сильно осложнено существованием большого количества различных шрифтов, неточностями сканирования и повреждением оригинала (наличием зачеркнутого текста, например), сложными приемами разметки (таблицами, информационными “врезками”, внедрением в текст рисунков и т.д.). Особенно сложным является распознавание рукописного текста.
Программные средства распознавания текста обеспечивают: прием изображения со сканера или графического файла, распознавание структуры листа, распознавание текста и последующее редактирование (исправление неверно распознанных элементов), и сохранение полученного результата. Точность распознавания в современных системах такого рода находится на уровне 97–99%. Для повышения качества распознавания такие системы позволяют проводить обучение, т.е. модифицировать базу средств распознавания.
Промышленные варианты систем распознавания текста, используя то же самое ядро распознавания, обеспечивают автоматизированный ввод и распознавание (работу с автоматической подачей документов), передачу распознанной информации в общую базу данных. Используют такие системы для быстрого ввода и заполнения всевозможных стандартных форм. Узнать подобные формы можно по строго заданным местам для написания букв и маркерам, позволяющим точно позиционировать поля на листе.
Материалы на данной страницы взяты из открытых источников либо размещены пользователем в соответствии с договором-офертой сайта. Вы можете сообщить о нарушении.