Поиск
Задача поиска необходимой информации чаще всего формулируется как поиск фрагментов, содержащих некоторые понятия, в достаточно большом массиве. Большое значение этот вид автоматической обработки получил с ростом популярности межсетевой среды Интернет. Существует несколько подходов к организации такого поиска.
Первый подход опирается на поиск фрагмента текста, соответствующего некоторому образцу. Наиболее популярная форма задания этого образца — так называемые регулярные выражения. По сути, это описание фрагмента текста, удовлетворяющего некоторым условиям, по тем частям, которые в нем содержатся, и их порядку. Таким способом в большом текстовом массиве можно находить упоминания тех или иных слов, адреса, номера телефонов и т.п. шаблонные элементы.
Достоинство этого подхода — возможность применять его к массиву текста без предварительной обработки. Например, сразу при посимвольном получении текста.
Второй подход предусматривает предварительное создание специального вида базы для ускорения поиска — индекса. Такой способ применяется для ускорения поиска, если некоторые типовые поисковые запросы повторяются часто и нет возможности формировать/хранить весь массив текста. Например, при организации поисковой машины в среде Интернет.
Материалы на данной страницы взяты из открытых источников либо размещены пользователем в соответствии с договором-офертой сайта. Вы можете сообщить о нарушении.