Задача распознавания текста

  • docx
  • 12.11.2021
Публикация на сайте для учителей

Публикация педагогических разработок

Бесплатное участие. Свидетельство автора сразу.
Мгновенные 10 документов в портфолио.

Иконка файла материала Л2-00833.docx

Задача распознавания текста. В этом случае требуется на растровом изображении (матрице окрашенных точек) распознать текст и сформировать соответствующий документ. Решение этой задачи сильно осложнено существованием большого количества различных шрифтов, неточностями сканирования и повреждением оригинала (наличием зачеркнутого текста, например), сложными приемами разметки (таблицами, информационными “врезками”, внедрением в текст рисунков и т.д.). Особенно сложным является распознавание рукописного текста.

Программные средства распознавания текста обеспечивают: прием изображения со сканера или графического файла, распознавание структуры листа, распознавание текста и последующее редактирование (исправление неверно распознанных элементов), и сохранение полученного результата. Точность распознавания в современных системах такого рода находится на уровне 97–99%. Для повышения качества распознавания такие системы позволяют проводить обучение, т.е. модифицировать базу средств распознавания.

Промышленные варианты систем распознавания текста, используя то же самое ядро распознавания, обеспечивают автоматизированный ввод и распознавание (работу с автоматической подачей документов), передачу распознанной информации в общую базу данных. Используют такие системы для быстрого ввода и заполнения всевозможных стандартных форм. Узнать подобные формы можно по строго заданным местам для написания букв и маркерам, позволяющим точно позиционировать поля на листе.