Лекция 5-6
Работа с поисковыми машинами
Как показано ранее, химическая информация по объёму значительно превосходит количество информации в других областях науки, поэтому использование как обычных, так и специализированных поисковых систем для химиков является насущной потребностью. Поисковые системы - это сетевые сервисы в Интернет, сформированные для облегчения пользователям сбора необходимой информации, содержащейся на всевозможных сайтах.
Формирование информационного запроса
На настоящий момент большинство поисковых машин уже поддерживают запрос на естественном языке (natural language query; free-text search). В таком запросе связь между словами устанавливается, основываясь не на логических операторах, а по правилам грамматики, и поисковой запрос имеет вид обычного предложения: «Реакция взаимодействия гидроксида натрия с серной кислотой», либо фрагмента предложения «гидроксид натрия + серная кислота».
Поисковая программа на первом этапе обрабатывает такое задание достаточно формально: отбрасываются служебные слова (stopwords), распознаются известные данной программе устойчивые словосочетания, термины объединяются операторами or, после чего начинается процесс поиска, аналогичный Boolean search (булиеву поиску) в режиме stemming. Результатом поиска является очень обширный перечень записей, которые ранжируются по степени соответствия запросу.
Настоящий смысловой анализ текста пока что возможен только при небольших объемах материала узкой тематической направленности; он требует огромной мощности компьютера, поэтому еще не скоро будет применен в реальной поисковой работе.
Поскольку поисковые системы предназначены для использования широкой публикой, то их создатели стремятся упростить процесс взаимодействия пользователя с программным обеспечением. На стадии формулирования запроса это проявляется в ненавязчивых рекомендациях избегать использования операторов в задании, хотя система сама по себе способна обрабатывать сложные логические выражения. Изначально постулируемая нечеткость запроса предполагает и некоторую размытость критериев, по которым отбираются результаты поиска. Итогом поиска будет избыточность извлекаемой информации, при том, что пользователь сформулировал узконаправленное задание с помощью операторов, разрешенных в конкретной системе.
Определенный смысл в таком подходе есть, поскольку ресурсы WWW огромны и не стандартизированы по содержанию и форме (здесь речь не идет о научных базах данных), а пользователь не всегда способен предугадать, какими словами может быть сформулирован ответ на его вопрос (запрос).
Большой объем информации, извлеченной в результате поиска, устроит пользователя, только если поисковая программа способна высококачественно ранжировать обнаруженные документы по степени их соответствия запросу. Современные поисковые системы соперничают друг с другом не столько в области увеличения индексов, сколько в создании эффективных алгоритмов расчета релевантности. В настоящее время лидером на этом поле является Google, которая, кроме уже традиционных параметров (наличие терминов в документе, их частота, расположение, плотность), при определении релевантности веб-страницы учитывает ее популярность в Интернете. Согласно подходу Google, чем больше ссылок направлено к данной веб-странице, тем она авторитетнее, тем выше ее ранг и тем она более ценна для пользователя; чем выше ранг страницы, тем, в свою очередь, больший вес имеют ссылки с нее. Как показывает практика, такой учет стихийного взаимного рецензирования весьма плодотворен, и в списках результатов поисковой системы Google самые подходящие документы действительно оказываются на первых местах.
Если запрос состоит только из слов, разделенных пробелами, программа, прежде чем начать поиск, сама размещает между терминами операторы по умолчанию, обычно — логическое «и».
В таком случае запрос: получение оксида углерода (II) автоматически преобразуется в получение и оксида и углерода.
Общие сведения о поисковых системах
Схема работы алгоритма каждой поисковой системы является коммерческой тайной. Каждая поисковая система использует свои анти-спам методики и фильтры, также у каждой системы собственное понятие о том, что именно следует относить к спаму. Большинство поисковых систем улучшают собственные алгоритмы для того, чтобы усваивать новейшие технологии фильтрации; другие не изменяют алгоритмы, используя улучшенные фильтры. Фильтр поисковой системы находит ненужные элементы и изымает их из результатов поиска. Все основные поисковые системы придают большое значение качеству заголовка.
Search Engine с англ. - поисковая система, дословный перевод Двигатель Поиска (SE) или приближенный аналог в русском языке - поисковый движок. В практике чаще всего используется слово – «поисковик». Прежде чем поисковая система найдет и покажет вам необходимую информацию, она должна проделать работу по сканированию информации. Поисковики индексируют сайты, т.е. сканируют все сайты в ресурсах сети Интернет и проводят индекс содержащейся на них информации. С помощью поисковых систем любой пользователь найдет слова и сочетания слов в индексе.
Индексирование информации в сети
Для выдачи необходимого материала по запросу, поисковые системы не сканируют весь ресурс Интернета, это слишком дорого бы обходилось и занимало много времени.
Для экономии времени и материальных затрат поисковые системы формируют собственную базу данных по всем страницам, хранящимся в сети, и непосредственно проводят поиск в этой базе данных. Базу данных называют индексом поисковой системы, а подсоединение необходимого сайта в этот индекс называют индексированием сайта.
Каждая поисковая система обладает специальной программой, которая и индексирует сайты. Эта программа называется пауком, а процесс индексирования - ползание паука (spider crawling). Поисковых пауков называют – «ботами».
Поисковый паук начинает свое странствие по самым популярным сайтами в сети. Пауки индексируют слова на предоставленной странице, а затем проходят по всем ссылкам того же сайта, подобным образом поисковый бот достаточно стремительно сканирует ресурсы сети.
Любой поисковый бот имеет собственное название, для отличия ботов данной поисковой системы. Имя ботов видно в поле User-Agent (Пользовательский Агент) запроса к серверу. К примеру, бот Яндекса - Yandex.
Иногда бывает, что формируются различные страницы для различных поисковых ботов, при заходе бота от Yandex на страничку, выдается одна страница, а для бота Google - другая. Но в случаях, когда для паука выкладывается одна страница, а для пользователя - другая, этот сайт отчислят из индекса поисковой системы.
Ускоряют поиск внедрением в страницу метатегов. Метатегами называются служебные компоненты документа, которые не заметны на сайте, но оказывают большое влияние на поиск сайта поисковыми системами. Главное назначение метатегов - это представление содержания сайта. Метатеги упрощают задачу поисковым машинам, чтобы не было необходимости подвергать анализу полный текст сайта.
Ключевые слова (фразы). Ключевое слово (фраза) — слово или словосочетание в тексте, способное в совокупности с другими ключевыми словами (фразами) представлять текст (релевантность). В вебе оно используется главным образом для поиска.
Набор ключевых слов документа называют поисковым образом документа. Он обычно близок к аннотации, плану и конспекту, которые тоже представляют документ с меньшей детализацией, но лишён синтаксической структуры, присущей им.
Когда используют термин «ключевое слово», подразумевают несколько близких, но не сводимых друг к другу понятий:
- ключевое слово в анализе текста (в том числе, и в поисковых системах) — набор слов, представляющих содержание текста и получаемых лингвистическими и математическими методами (например, анализируя частоту появления слова в тексте).
- в HTML для задания ключевых слов есть элементы HTML meta с атрибутом keywords. Такой путь задания ключевых слов открывает ещё больше возможностей для злоупотребления, поэтому практически не воспринимается поисковыми системами. Однако, их используют другие пользовательские агенты (например, веб-браузеры для поиска по закладкам).
- в микроформатах XHTML ключевые слова, описывающие документ, представлены в виде списка ссылок, каждая из которых должна вести на страницу, содержащую список документов, также содержащих это ключевое слово. Таким образом, возможность злоупотреблений несколько уменьшается, поскольку каждая ссылка должна вести к реальному содержимому. Для таких ключевых слов чаще используются термины «теги», «метки», а на уровне кода реализуются они с помощью микроформата tag-rel.
Говоря о ключевых словах необходимо подробнее рассмотреть понятие релевантности. Релевантность (лат. relevo — поднимать, облегчать) в информационном поиске — семантическое соответствие поискового запроса и поискового образа документа. В более общем смысле, одно из наиболее близких понятию качества «релевантности» — «адекватность», то есть не только оценка степени соответствия, но и степени практической применимости результата, а также степени социальной применимости варианта решения задачи.
Различают два вида релевантности: содержательную и формальную.
Содержательная релевантность - показывает соответствие документа информационному запросу, определяемое неформальным путем.
Одним из методов для оценки релевантности является TF-IDF-метод. Его смысл сводится к тому, что чем больше локальная частота термина (запроса) в документе (TF) и больше «редкость» (то есть чем реже он встречается в других документах) термина в коллекции (IDF), тем выше вес данного документа по отношению к термину — то есть документ будет выдаваться раньше в результатах поиска по данному термину.
Формальной релевантностью, называют соответствие, определяемое путем сравнения образа поискового запроса с поисковым образом документа по определенному алгоритму.
Все поисковые системы используют свой собственный поисковый алгоритм, который является математической формулой. В этой формуле запрос пользователя принимается за неизвестное, и, в основном, проанализировав несколько решений, которые были получены при помощи данной формулы, поисковая система выдает решение. Поисковый алгоритм сравнивает ключевые слова запроса со сведениями, которые находятся в базе данных, и отыскивает релевантные результаты. Поисковые роботы подвергают анализу контент и релевантность ключевых слов на веб-страницах при помощи формулы.
Большинство алгоритмов содержат сведения о запросах пользователей, а также о страницах и времени, которое они проводят на странице. Имея подобную информацию, поисковая система легко выдает необходимые сведения. Однако алгоритм рассчитан только на малое количество потенциальных запросов, что в несколько раз уменьшает эффективность такого способа.
Иной способ заключается в анализе ссылок. Полагают, что ссылки имеются между родственными по теме сайтами. Проводя анализ принципов, по которым одни веб-страницы ссылаются на другие, поисковая система может понять, на какую тему сайт, и насколько релевантна страница. Некоторые поисковые системы анализирует и внутреннюю навигацию по сайту.
Одним из самых главных элементов, которые непременно подвергает анализу поисковый алгоритм, можно назвать местонахождение ключевых слов на веб-странице, а также их плотность. Чем чаще на странице встречается ключевое слово, тем релевантнее оно считается.
Из-за постоянного умножения спама поисковые роботы перестали учитывать мета-теги. А те, которые еще ориентируются по данному фактору, обычно анализируют теги.
Универсальные поисковые машины (Search machines)
Поисковая система (поисковая машина, поисковик, поисковый робот, поисковый паук) - инструмент для поиска информации в Интернете. Как правило, работа поисковой машины состоит из двух этапов. Специальная программа (поисковый робот, автомат, агент, паук, червяк, crawler) постоянно обходит сеть и собирает информацию с веб-страниц (индексирует их). Когда пользователь задает запрос, поиск идет по предварительно построенному индексу. Результатом поиска является так называемая поисковая выдача - список ссылок на документы (веб-страницы), соответствующие запросу.
Поисковые машины различаются по области действия на локальные (ограничивающиеся национальным доменом, определенным языком) и глобальные.
Обычно глобальные поисковые системы хорошо покрывают американский Интернет (который действительно является значительной частью мирового) и несколько хуже "знают" остальную часть. Поэтому, если ваш поиск заведомо ограничен страной или языком, лучше пользоваться локальной «машиной». Интернет - живая динамическая система, которая меняется быстрее, чем об этом успевает узнать робот поисковой машины. Поэтому иногда найденные документы могут оказаться измененными или вообще не существовать.
Практически все поисковые машины при индексации сохраняют у себя копию индексируемого документа и могут показать его пользователю даже после того, как оригинал перестал существовать.
Скорость обновления индекса и полнота покрытия (размер поисковой базы) являются важной характеристикой поисковой машины.
После знакомства с несколькими глобальными поисковыми машинами Сети, пользователь, как правило, останавливается на одной-двух, с которыми и предпочитает работать в дальнейшем.
Интерфейс у всех поисковых систем похож, имеется поле ввода искомых слов кнопка «Найти». Практически у всех есть надстройка «расширенный поиск», в котором возможна установка поиска в определенные даты (сроки), также возможно задать формат искомого документа, язык, регион и др.
Далее мы рассмотрим самые популярные поисковые системы Рунета.
Google, Гугл (www.google.com). Самая популярная среди пользователей и имеющая одну из самых больших баз проиндексированных документов (по собственным заявлениям - около 2,5 млрд.) поисковая система. Была разработана в 1998 выпускниками Стэндфордского университета Сергеем Брином (Sergey Brin) и Ларри Пейджем (Larry Page), которые применили для ранжирования документов технологию PageRank, где одним из ключевых моментов является определение "авторитетности" конкретного документа на основе информации о документах, ссылающихся на него. Наряду с этим Google применил для определения релевантности документа не только текст самого документа, но и текст ссылок на него. Эта технология позволила ему обеспечить выдачу довольно релевантных результатов на фоне других поисковиков. Кроме поиска по HTML документам Google в настоящее время осуществляет поиск еще по 12 типам документов: Adobe Portable Document Format (pdf); Adobe PostScript (ps); Lotus 1-2-3 (wk1, wk2, wk3, wk4, wk5, wki, wks, wku); Lotus WordPro (lwp); MacWrite (mw); Microsoft Excel (xls); Microsoft PowerPoint (ppt); Microsoft Word (doc); Microsoft Works (wks, wps, wdb); Microsoft Write (wri); Rich Text Format (rtf); Text (ans, txt)
Google позволяет пользователям просматривать сохраненные копии документов, содержащихся в его поисковой базе.
Наряду с поиском по документам Google имеет сервисы поиска по изображениям (images.google.com), группам UseNet (groups.google.com), новостям (news.google.com), а также каталог сайтов (directory.google.com) на основе каталога Open Directory Project (dmoz.org). Google осуществляет поиск по документам на более чем 35 языках, в том числе русском (русская локализация поисковика находится по адресу www.google.ru). В настоящее время многие порталы и специализированные сайты предоставляют услуги поиска информации в Интернете на базе Google, что делает задачу успешного позиционирования сайтов в Google еще более важной. Крупнейшие из них - каталог Yahoo (www.yahoo.com) и портал AOL (www.aol.com).
Google проводит переиндексацию своей поисковой базы примерно раз в четыре недели. Во время этого апдейта, неофициально называемого «Google dance», происходит обновление базы на основе информации, собранной роботами за время, прошедшее с предыдущего апдейта, и перерасчет значений PageRank документов. Также существует определенное количество документов с достаточно большим значением PageRank, информация о которых в поисковой базе обновляется ежедневно, однако значение PageRank пересчитывается только во время Google dance. Нормированное значение PageRank для конкретного документа, загруженного в браузер, можно узнать, скачав и установив Google ToolBar - специальную панель инструментов для работы с этим поисковиком. Несмотря на то, что в поисковике имеется форма для бесплатного добавления страницы в базу, Google предпочитает сам находить новые документы по ссылкам с уже известных и не будет индексировать добавленную через форму страницу, если в его базе не найдется ни одной страницы, ссылающейся на нее.
Rambler, Рамблер (www.rambler.ru). Поисковая система Рамблер создана в 1996 году, понимает и различает слова русского, английского и украинского языков. По умолчанию поиск ведётся по всем формам слова. По умолчанию в Рамблере результаты ранжируются по степени соответствия (релевантность) запросу и группируются по сайтам.
Настройки языка поиска: любой, русский, английский, украинский. Учитывается морфология.
Слева несколько ссылок позволяют перейти к справочной информации, ссылки вверху страницы позволяют сменить кодировку для русского текста. Запросов на естественном языке Рамблер не поддерживает, поэтому надо вводить ключевые слова, желательно без окончаний. К услугам пользователя ввод масок (?- любая буква, * - любое окончание слова). На странице результатов поиска Рамблер выводит исчерпывающую информацию по каждому результату - ссылка, название страницы, размер страницы, кодировка, контекст в котором встречается слово и процент релевантности. Кроме того, выводится количество результатов для всех частичных поисков (совпадение 1 слова), нажав на соответствующую ссылку эти результаты можно просмотреть. К сожалению, релевантность результатов для простого поиска на Rambler оставляет желать лучшего.
Одно время поисковая система Рамблер была самой популярной в Рунете, но позже уступила лидерство Яндексу.
Yandex, Яндекс (www.yandex.ru) выполняет поиск по российской части Интернета с учетом морфологии русского языка. Имея очень мощный механизм подбора сайтов под запросы, эта поисковая машина помогает найти наиболее подходящие веб-страницы в русской части Интернета. Яндекс ежедневно просматривает сотни тысяч веб-страниц в поисках изменений или новых ссылок. Коллекция ссылок постоянно растет.
Слово "Яndex" означает "Языковой index", или, если по-английски, "Yandex" - "Yet Another indexer". За 4 года публичного существования Яndex возникли и другие толкования. Например, если в слове "Index" перевести с английского первую букву ("I" - "Я"), получится "Яndex".
Официально поисковая машина Yandex.Ru была анонсирована 23 сентября 1997 года на выставке Softool. Уже тогда поисковик обладал некоторыми преимуществами - возможностью проверки документов на уникальность, учетом морфологии русского языка, возможностью поиска с учетом расстояния (например, при поиске точного словосочетания). Основной отличительной чертой Yandex был тщательно разработанный алгоритмом оценки соответствия ответа запросу (релевантности), учитывающий не только количество слов запроса, найденных в тексте, но и "контрастность" слова (его относительную частоту для данного документа), расстояние между словами, и положение слова в документе.
Согласно данных глобальной статистики Рунета, сегодня более 50% поискового трафика генерируется именно этим поисковиком (для сравнения, на долю Rambler приходится около 20%, и еще меньше - на долю Google).
Nigma, Нигма (www.nigma.ru). Остановимся более подробно на работе данной поисковой системе, так как она развивается как поисковая система для получения знаний, а не просто развлекательной информации.
Являясь научным проектом МГУ им. М.В.Ломоносова и Stanford University, Nigma – стала прогрессивной российской интеллектуальной поисковой системой.
Nigma осуществляет поиск, как по своему собственному индексу, так и по индексам Google, Yahoo, MSN, Yandex, Rambler, AltaVista, Aport.
На основе введённого пользовательского запроса Nigma формирует список документов, разделённых на несколько классов (кластеров). Пользователь может уточнить, в каком классе продолжить поиск, тем самым улучшив релевантность результатов поиска. Пользователь также может исключить ненужные ему классы сайтов, например документы, пришедшие из интернет-магазинов (для них формируется специальный кластер). Список кластеров выводится слева от списка результатов поиска. Для каждого кластера указывается образующая его фраза и количество документов в кластере. Пользователь может управлять кластерами при помощи специальных ссылок под списком кластеров.
Nigma поддерживает русскую морфологию. Используется морфологический модуль для русского языка собственной разработки.
Ранее в Nigma.ru поддержка морфологии была реализована через отсылку в поисковые системы дублирующих запросов, в которых приведены распространенные морфологические формы запрашиваемых слов. При этом, в отличии от имеющихся реализаций русской морфологии для поисковых систем, предлагаемый алгоритм не сокращает, а увеличивает количество найденных документов, так как морфологически измененный запрос объединяется с исходным. Релевантность также увеличивалась, так как использовались специальные алгоритмы объединения результатов.
Таким образом, через Nigma, например, можно было искать документы в индексе Google с учётом русской морфологии даже в то время когда Google не поддерживал русскую морфологию. Сейчас надобность в данной технологии отпала, так как все ведущие поисковые системы поддерживают русскую морфологию.
Nigma использует искусственный интеллект на базе нейронной сети для выбора более релевантных результатов.
Скобки позволяют группировать слова запроса для применения к ним оператора. Например: цифровой спектрофотометр PD-303S Apel Япония (документация OR руководство) слова «руководство» и «документация» объединены скобками для того, чтобы оператор OR применялся только к ним.
В Nigma.ru есть сервис расшифровки сокращений. Сокращения вводятся в строку поиска, и параллельно с поиском документов ведется поиск расшифровок сокращений. Расшифровки, которые получили подтверждения в найденных документах, попадают в список кластеров. А те расшифровки, которые не получили подтверждения документами, попадают в специальный псевдокластер "Аббревиатуры".
Система Nigma позволяет не только производить простейшие арифметические преобразования, но и решать математические задачи различной степени сложности. Также Нигма распознает более тысячи физических, математических констант и единиц измерения, что позволяет производить операции с множеством величин (в том числе решать с ними уравнения) и получать ответ в требуемых единицах измерения. Помимо уравнений система решает все задачи, характерные для калькуляторов поисковых систем и конверторов валют. Однако Нигма умеет считать в дробях и знает общеупотребимые синонимы валют. С помощью нового сервиса пользователи смогут решать различные математические задачи (упрощать выражения, решать линейные и квадратные уравнения, системы уравнений, уравнения с единицами измерения, конвертировать валюты, вычислять модуль числа, упрощать тригонометрические выражения, сокращать дроби и многое другое), вводя их прямо в строку поиска в виде строгого или нестрогого (обычного) текста. Сейчас разработчики Nigma работают над созданием дополнительной возможности: вывода хода решения.
Специализированные научные поисковые машины
Системы поиска, нацеленные исключительно на поиск научной информации в Интернете. Позволяют находить информацию в научных журналах, персональных страницах ученых, университетов и исследовательских центров.
Scirus (http://www.scirus.com/) - это специализированная поисковая система, предназначенная для обнаружения научной, в том числе, химической информации. База данных Scirus содержит более 150 млн. записей (-120 млн. веб-страниц и ~20 млн. научных статей или рефератов) со сведениями не только о бесплатных ресурсах, но и о документах из платных баз данных. Система способна читать нетекстовые файлы (напр., в формате PDF или PostScript) и выдавать результат с более чем 150 млн. индексируемых страниц менее чем за 0,5 сек. Позволяет расширить поиск по своим журналам и базам данных, объединив его с одновременным поиском в Интернете. Осуществляет полнотекстовый поиск по статьям журналов большинства крупных иностранных издательств (порядка 17 млн. статей), статьям в крупных архивах статей и препринтов, научным ресурсам Internet (более 250 млн. проиндексированных страниц). Многократно признавалась лучшей специализированной поисковой системой. С недавних пор появилась возможность установить браузерную панель Scirus. Это позволяет осуществлять поиск в Scirus'е прямо из браузера, быстро перемещаться между результатами поиска по разным запросам, подсвечивать на найденных страницах слова из поисковых запросов. Увидев интересный научный сайт, можно нажатием одной кнопки предложить занести его в индекс этой поисковой системы.
Специализированная поисковая система CHEMIE.DE
Портал располагается по адресу http://www.chemie.de/?language=e/. Поисковая система данного портала доступна по адресу: http://www.chemie.de/search/?language=e.
Chemie.DE — это двуязычный (немецкий и английский) информационный портал, на котором размещены специализированная поисковая система с тематическим каталогом, метапоисковая система для работы с библиографическими базами данных нескольких издательств, службы информирования о химических товарах, конференциях, обзоры научных новостей, а также ряд онлайн справочников (словарь акронимов, пересчет единиц измерения физических величин и др.).
Метапоисковые системы
Метапоисковые системы (meta search engine), в отличие от обычных поисковых систем, таких как Google или AlltheWeb, не имеют роботов-пауков и не формируют свои собственные базы данных. Вместо этого они обращаются к нескольким готовым индексам, выбирают нужную информацию и обрабатывают ее тем или иным способом. Обычно метапо-исковая система посылает сформулированный пользователем запрос одновременно нескольким поисковым системам, причем нередко с «черного хода» — специально выделенным для них серверам.
Самый простой вариант — метапоисковая система только цитирует результаты, полученные от индивидуальных поисковых систем, не обрабатывая их. Пример такой системы — Dogpile (http://www.dogpile.com/).
Вторая группа метапоисковых систем обрабатывает полученные от поисковых систем результаты: объединяет их в один список, устраняет дубликаты (одни и те же страницы, обнаруженные несколькими системами), проводит ранжирование и только тогда передает окончательный список пользователю. Примеры: Excite (http://www.excite.com/), MetaCrawler (http://www.metacrawler.com/).
Третья группа поисковых систем проводит дальнейшую интеллектуальную обработку — группирует полученные результаты по неким общим свойствам в кластеры. Например, в части кластеров объединяются страницы, в которых есть сведения о конкретных веществах; в иных кластерах — страницы, содержащие информацию о неких общих свойствах разных веществ, или страницы, связанные с конкретным автором, с конкретным университетом и т. д. Понятно, что одна и та же веб-страница по разным признакам может входить одновременно в несколько кластеров. Примеры систем этого типа: Vivisimo, Infonetware (http://www.infonetware.com/).
Скачано с www.znanio.ru
Материалы на данной страницы взяты из открытых источников либо размещены пользователем в соответствии с договором-офертой сайта. Вы можете сообщить о нарушении.