Лабораторная работа №10.
Поиск информации в сети Internet
10.1 Цель работы
Познакомиться с основными поисковыми системами сети Интернет. Овладеть навыками работами в поисковых системах. Научиться выбирать оптимальную поисковую систему с учетом специфики поставленных задач.
10.2 Приборы и материалы
Для выполнения лабораторной работы необходим персональный компьютер, функционирующий под управлением операционной системы семейства WINDOWS. Должна быть установлена программа Internet Explorer.
10.3 Современные поисковые системы
Интернет - гигантское хранилище информации. Множество страниц, ценных и не очень, существуют безо всякого порядка и связанны между собой только случайными ссылками, зависящими от квалификации и личных пристрастий авторов сайтов. Однако пользователю необходимо ориентироваться в этом многообразии и находить, желательно за минуты, необходимую информацию.
В Интернет существует большое количество поисковых систем. По самым скромным оценкам, их более восьми тысяч, считая классические поисковые машины, общие и специализированные каталоги, а также метапоисковые Web-узлы (которые посылают запросы сразу на несколько поисковых серверов). В дополнение к этому существует ряд альтернативных средств поиска, способных вам пригодиться, включая утилиты, которые, работая совместно с браузером, добывают информацию из Web, и так называемые "экспертные узлы", где с вашими запросами работают живые люди. В настоящее время разрабатываются интеллектуальные поисковые системы. Примером такой системы может служить, например, интеллектуальная поисковая система Nigma (www.nigma.ru).
10.3.1 Поисковые машины и каталоги
При всем изобилии методов поиска в Internet наиболее распространенными средствами нахождения информации по-прежнему остаются поисковые машины и каталоги. Каждый из этих инструментов имеет определенные преимущества, а основная разница между ними заключается в участии/неучастии человека.
Поисковые машины – это комплекс специальных программ для поиска в сети.
Основные части программного комплекса:
1. Робот spider (паук). Автономно работающая программа, которая перебирает страницы сайтов, стоящих в очереди на индексацию. Она скачивает на диск поискового сервера содержимое исследуемых страниц.
2. Робот crawler (“путешествующий” паук). Его задача - собирать все ссылки на исследуемой странице, находить среди них новые, неизвестные поисковой системе, и добавлять их в список ожидающих индексации.
3. Индексатор. Обрабатывает страницы из очереди на индексацию. Для этого он составляет “словарь” странички, запоминает “частоту” использования слов. Особо отмечает ключевые слова, используемые в заголовках, выделенные в тексте жирным шрифтом. Помещает все это в особый файл - “индекс”.
4. База данных. Хранит ссылки на страницы, словарь встречаемых на странице слов и много другой информации, которая необходима для формирования результатов поиска.
5. Система обработки запросов и выдачи результатов. Принимает запрос пользователя, формирует запрос к базе данных, получает оттуда результат и передает его пользователю.
Поисковые машины запускают в Web программных "пауков", которые путешествуют со страницы на страницу и на каждой индексируют ее полный текст.
Практически у всех поисковых машин одинаковая форма запроса и примерно одинаковый формат выдачи результатов (см. пункт «Внешний вид поисковых страниц»), однако работа поисковых машин существенно различается. Во-первых, релевантностью (степенью соответствия результатов поиска запросу пользователя), во-вторых, величиной и частотой обновления баз данных, в-третьих, скоростью выдачи результатов. Ну и, конечно, поисковые машины различаются удобством работы.
На сегодняшний день поисковые системы - самые популярные страницы сети, на которых пользователи проводят очень много времени. Поэтому, все большее значение при выборе поисковика приобретают сопутствующие сервисы (почта, новостные ленты, торговые площадки и т.п.).
Каталоги - традиционное средство организации информации. Наверное, всем нам приходилось встречаться с библиотечными каталогами, каталогами товаров. Каталоги используются во множестве систем. Практически везде, где необходимо хранить и организовывать информацию.
Одна из основных задач, с которой сталкиваются составители каталогов - создать естественную, интуитивно понятную рядовому пользователю рубрикацию. К сожалению, данную задачу можно решить только с той или иной степенью приближения. Мир непрерывен, строгих границ в нем не существует. Один и тот же сайт можно рассматривать под разными углами зрения и видеть разные его функции. Каталоги формируются людьми-редакторами, которые прочитывают страницы, отсеивают неподходящие и классифицируют узлы по темам.
К недостаткам каталогов можно отнести следующее.
Во-первых, неоднозначность структуры - это явный минус каталожной организации информации (хотя он и несколько сглаживается тем, что в каждом крупном каталоге реализован поиск по каталогу).
Во-вторых, каталоги делают люди. Их полнота и качество зависят от количества и квалификации людей, занятых работой в каталоге, их личных вкусов и пристрастий. Неровность наполнения рубрик - характерная черта всех каталогов.
В- третьих, трудоемкость ручной рубрикации ограничивает объем каталогизируемой информации.
В тоже время безусловными достоинствами каталогов является то, что информация в нем хранится упорядоченно, в соответствии с элементарной человеческой логикой и релевантность найденных страниц при поиске в каталоге обычно на порядок выше, чем при поиске поисковыми системами.
Как было сказано выше, из-за того, что каталоги создаются вручную, они охватывают намного меньше ресурсов, чем поисковые машины. В Web сейчас, по самым скромным оценкам, насчитывается миллиард страниц (причем их число ежедневно увеличивается на миллион). Большинство поисковых машин не подошли сколько-нибудь близко к тому, чтобы проиндексировать всю Сеть. Исключением является Google (для России www.google.ru), который претендует именно на эту цифру - миллиард страниц, частично или полностью охваченных его индексами. Самый большой каталог - Open Directory Project (www.dmoz.org) - на этом фоне кажется крошечным: в него занесено лишь около 2 млн. страниц.
В 1994 г., когда начинался бурный рост "Всемирной паутины", выбор средств поиска в Сети был весьма ограниченным: Yahoo (www.yahoo.com). Этот сервер и по сей день остается краеугольным камнем исследования Web, но как каталог он столкнулся сейчас с жесткой конкуренцией со стороны Open Directory Project.
Многие каталоги весьма полезны, но с учетом всех обстоятельств предпочтение стоит отдать Open Directory Project. Проект Open Directory Project, инициированный компанией Netscape, реализуется усилиями редакторов-добровольцев со всего мира, которых насчитывается более 24 тысяч и которые проиндексировали около 2 млн. узлов b расклассифицировали их по более чем 200 тыс. категорий. Любой поисковый сервер может получить лицензию Open Directory Project и использовать его базу данных при обработке запросов, и на многих это сделано: AltaVista (www.altavista.com), HotBot (www.hotbot.com), Lycos (www.lycos.co.uk) и около сотни других серверов ныряют туда за ссылками.
Можно было бы ожидать, что, коль скоро каталог Open Directory Project создается силами добровольцев, качество результатов будет колебаться. Но в результате мы получаем хорошо организованные списки относящихся к теме страниц с четкими описаниями каждой ссылки. А узел Open Directory Project производит такое же впечатление, как Google: это "чистый поиск" без отвлекающих моментов типа ссылок на магазины.
Какой каталог ни выбрать, у всех есть одно преимущество перед поисковыми машинами: их можно систематически просматривать, пользуясь иерархической системой меню.
10.3.2 Гибридные поисковые серверы
Поскольку у каталогов свои достоинства, а у поисковых машин - свои, большинство крупных поисковых серверов в том или ином виде реализуют оба метода. Поисковую машину AltaVista, например, дополняет каталог, основанный на индексах с серверов LookSmart и Open Directory Project. Когда же вы что-то ищете на LookSmart или Yahoo, сервер сначала выдает результаты из своего каталога, а потом переадресует ваш запрос поисковой машине.
Разумеется, услуги многих серверов далеко не исчерпываются каталогом и поисковой машиной. Rambler, Yandex, Mail и другие превратились в порталы, на которых есть и информация о котировках акций, и новости, и электронная почта, и магазин. Короче, они делают все возможное, чтобы подольше задержать посетителя на своих страницах: это повышает вероятность того, что он прочтет рекламу, за счет которой и существует сервер. Но хотя многие материалы, предлагаемые порталами, полезны или забавны, в результате сервер настолько загромождается второстепенными функциями, что средства поиска начинают казаться необязательным дополнением.
Некоторые поисковые серверы возвращаются к основам. Первым это движение начал Google: на его элегантной главной странице нет почти ничего, кроме логотипа сервера, поля, куда вводится запрос, и пары кнопок. Несколько позже от AltaVista отпочковался сервер Raging Search, который предоставляет доступ к поисковой машине AltaVista без сутолоки соответствующего узла. Cсуществование чисто поисковых узлов должно порадовать завсегдатаев Web, которым мешает отвлекающий внимание сервис порталов
10.3.3 Метапоисковые серверы
Количество проиндексированных сайтов различными поисковыми системами растет в геометрической прогрессии. Но, тем не менее, эксперты утверждают, что доля непроиндексированного, «темного» Интернета для каждой поисковой системы (даже для такой мощной, как Google) возрастает месяц от месяца. Т.к. разные поисковики используют разные алгоритмы поиска и уделяют «особое» внимание разным участкам сети, к которым они наиболее адаптированы, логично во многих случаях искать сразу несколькими поисковыми машинами. Эту возможность и предлагают search bots, метапоисковые системы. Такие серверы не ведут собственных индексов, а каждый запрос передают другим поисковым машинам и каталогам. В основу работы search bots заложен следующий принцип: из запроса пользователя генерируются запросы, отформатированные в синтаксисе и логических конструкциях каждого конкретного поискового ресурса. Таким образом, из одного запроса метапоисковая машина делает множество запросов, которые затем рассылаются широкому кругу поисковых машин (и/или каталогов). Полученные результаты большинство метапоисковых систем объединяют, убирают из них повторы и представляют пользователю обработанный список, содержащий больше адресов, чем при поиске на какой-то одной машине. За полноту поиска и сортировку приходится платить - поиск метапоисковики проводят, как правило, заметно медленнее, чем обычные поисковики.
Метапоисковые системы бывают двух классов. К первому классу относятся метапоисковые системы, располагающиеся на публичном онлайн-ресурсе. А ко второму метапоисковые системы, которые инсталлируются на персональный компьютер.
Одной из наиболее популярных метапоисковых систем, относящихся к первому классу является система Vivisimo (http://www.vivisimo.com/). Vivisimo – англоязычная система, однако она корректно работает и с русским контентом – но, к сожалению, проиндексированных русских сайтов не так уж и много, поэтому результаты русскоязычного поиска оставляют желать лучшего.
Второй класс - метапоисковые машины, устанавливаемые на компьютеры пользователей. Они удобны и могут настраиваться на круг запросов и интересов конкретного человека. Сейчас можно найти несколько десятков систем этого класса, но, к сожалению, англоязычных. Одна из популярнейших таких систем - Copernic Agent (http://copernic.com)., программа компании Copernic Technologies. Это мощное и понятное средство, позволяющее самостоятельно выбирать тематические категории, поисковый и предметный домен, задавать состав глобальных поисковых машин. К русскоязычным метапоисковым системам можно отнести разработанную фирмой Convera Technologies и адаптированную с учетом специфики русского языка систему Convera. Познакомиться с ней можно по адресу http://www.vest-meta.ru/product/Convera/rss.asp.
Как правило, более сложный алгоритм поиска существенно влияет на время обработки результатов. Поэтому метапоисковые системы особенно полезны для корпоративных сетей.
10.3.4 Интеллектуальные поисковые системы
Примером интеллектуальной поисковой системы может служить Nigma (www.nigma.ru).
Проект Nigma.ru разрабатывается группой студентов и аспирантов факультетов ВМиК и психологии Московского Государственного Университета им. М.В. Ломоносова. Основное преимущество технологии - наличие искусственного интеллекта, который позволяет группировать найденные сайты в так называемые "кластеры", которые пользователи Nigma.ru видят слева от результатов поиска.
Новая поисковая система передает запрос в известные поисковые системы (Google, Yahoo, MSN, Yandex, Rambler) с поддержкой русской морфологии и выдает результаты поиска с использованием специальных алгоритмов объединения и ранжирования результатов.
Результаты поиска группируются в так называемые "кластеры". Каждый кластер - это группа сайтов, относящихся, по мнению поисковой системы, к общей тематике. Используется частотная кластеризация по ключевым словам, поэтому названия кластеров - это тоже ключевые слова, которые пользователь может использовать для расширения своего запроса. Интеллектуальный алгоритм объединяет кластеры в иерархию (пока двухуровневую), которая позволяет представить их в более компактном виде.
Кластеризация полученных от внешней поисковой системы документов является первым этапом создания системы, формирующей уточняющие вопросы.
В ближайшее время разработчики планируют расширить поисковую систему экспертными системами, психологическими тестами, системами поведенческого анализа и другими методами, базирующимися на таких алгоритмах искусственного интеллекта как искусственные нейронные сети, генетические алгоритмы, алгоритмы нечеткой логики и т.п. После создания стабильной версии кода планируется публикация его исходных текстов.
На сайте Nigma.ru можно не только испытать возможности новой системы, но и получить информацию об используемых методах и алгоритмах, познакомиться с публикациями и презентациями по данной тематике.
10.4 Внешний вид поисковых страниц
Внешне главные страницы поисковиков выглядят примерно одинаково и, если не брать во внимание дополнительные сервисы, содержат одни и те же основные элементы. Они естественны и просты. Практически любой человек, попав на первую страницу поисковой системы, может начать с ней работать. Внешний вид первой поисковой страницы для поисковой машины Google показан на рисунке 10.1.
На первой странице поисковой системы мы видим основные элементы поисковых страниц:
¾ поле поиска, куда необходимо внести ключевую фразу, при помощи которой мы задаем условия поиска необходимой нам информацию;
¾ кнопка «искать», на которую надо нажать для начала поиска;
¾ таблица найденных результатов, появляющаяся после того, как поисковая машина выполнила наш запрос.
Поисковые машины не только находят страницы, но и сообщают о находках много ценной информации!
За время существования поисковых машин выработался стандарт выдачи пользователю страниц результатов поиска. Разобравшись в форме выдачи результатов одной поисковой машины, можно уверенно пользоваться остальными поисковиками.
Каждый результат поиска содержит (см. рисунок 10.2):
1. Заголовок найденной страницы.
2. Отрывок из текста страницы, по которому видно, в каком окружении (контексте) используются нужные нам слова. Искомые слова в нем, как правило, выделены жирным шрифтом или отличаются по цвету от основного текста.
3. Полный URL (“Universal Resource Locator” - адрес в сети Интернет) страницы.
4. Размер страницы, дата последнего изменения (если поисковая машина в состоянии ее определить).
Рисунок 10.1 – Первая страница поисковой машины Google
5. Ссылка на копию страницы в базе поисковой машины. Если документ был изменен или сайт временно не работает, то сохраненная в базе поисковой машины копия вам все равно дает возможность ознакомиться с найденным документом.
6. “Похожие документы”. Некоторые поисковики анализируют содержание найденных по запросу страниц и группируют их по своим, внутренним критериям. Например – по близости словарей страниц, по одинаковым заголовкам, по совпадениям фраз, по количеству синонимов. К сожалению, пока еще данные алгоритмы далеки от совершенства и в “похожих страницах” не очень часто можно найти нечто, что действительно поможет в нашем поиске.
Также, в результатах поиска вы можете увидеть
7. Рубрику каталога или рейтинга поисковой машины (если сайт участвует в каталоге или рейтинге).
Рисунок 10.2 – Один из результатов поиска на запрос «вопросы экономики» в поисковой машине Google
Интернет - гигантское хранилище информации. Множество страниц, ценных и не очень, существуют безо всякого порядка и связанны между собой только случайными ссылками, зависящими от квалификации и личных пристрастий авторов сайтов. Однако пользователю необходимо ориентироваться в этом многообразии и находить, желательно за минуты, необходимую информацию.
В Интернет существует большое количество поисковых систем. По самым скромным оценкам, их более восьми тысяч. Разумеется, важно выбрать поисковую систему, в которой вы собираетесь искать, но и не менее важно правильно сформировать запрос, тогда быстрее будет получена необходимая информация. Вопросам правильного формирования запросов и будет посвящена эта статья.
Все крупные поисковики имеют специальный язык запросов, дающий широкие функциональные возможности для детализации поиска и экономии времени. Знание операторов языка запросов не только существенно облегчит вам жизнь, но и поможет находить информацию, добыть которую только с помощью простых запросов практически невозможно.
Язык запросов - мощный инструмент, который позволяет искать информацию, учитывая следующее:
¾ только на определенном сайте (или группе сайтов);
¾ опубликованную в строго заданном временном диапазоне;
¾ опубликованные на каком-либо из языков (например, русском).
При помощи языка запросов, можно искать текст на определенных участках страниц (в ссылках, в заголовках, в ключевых словах и др.). К сожалению, не существует общепринятого стандарта для операторов языка поисковых систем. Даже для основных операций разные поисковые системы имеют разные обозначения. Некоторые из них показаны в таблице.
Таблица 6 – Обозначение основных операций на популярных поисковых системах
Операторы языка запросов |
Rambler |
Yandex |
|
Оператор обязательного присутствия |
AND или & |
& или + |
+ |
Оператор отсутствия слова |
NOT или ! |
- |
- |
Оператор выбора |
OR или | |
| |
~ |
Разберем поподробнее каждый из трех основных операторов.
Оператор обязательного присутствия слова в результатах поиска. Все три рассматриваемые поисковые машины выполняют этот оператор по умолчанию. Или, задавая в строке поиска, например, “Булгаков Мастер Маргарита” мы требуем, чтобы поисковик находил страницу, на которой содержатся все три слова.
Оператор отсутствия слова. Найденная страница не должна содержать данное слово. Например, вы ищете книгу Булгакова, но желаете получить текст для чтения, а не предложение купить эту книгу в интернет-магазине. В этом случае логично использовать в теле запроса конструкцию "Булгаков Мастер Маргарита -заказать -магазин". Данный запрос написан на языке Yandex. В поисковой строке Rambler следовало бы написать "Булгаков Мастер Маргарита !заказать !магазин".
Оператор выбора. Удобно использовать для поиска текста, содержащего слово или его синонимы. Предположим, мы ищем тексты, содержащие упоминание о городе Волгограде. Разумно было бы, для полноты поиска, использовать и его предыдущее название – Сталинград. Вот так будет выглядеть данный запрос на языке Yandex и Rambler: “Волгоград |Сталинград”. Следует отметить, что поисковые системы первое слово считают более важным, и в первых строках результатов поиска будут идти строки с «Волгоградом», «Сталинград» же появится только на более глубоких страницах.
Многие поисковые системы позволяют использовать в запросах для группирования круглые скобки.
Другой важный оператор – кавычки, "" - оператор строго соответствия. Сочетание слов, которые вы укажете в кавычках, будет учитываться системой как единое целое, поисковик будет искать все слова именно в данном порядке и без применения морфологического склонения слов. Попробуем найти в Rambler фразу “если не я, так кто же”. Фраза эта специальная, “трудная” для поисковиков т.к. содержит многочисленные стоп-слова. Стоп-слова – это предлоги, частицы, местоимения, которые настолько часто встречаются в тексте, что поиск по ним выдавал бы миллионы страниц и поэтому они, как правило, поисковыми системами игнорируются. Итак, если мы ищем без кавычек – результат поиска выглядит совершенно нерелевантно, похоже на случайный набор страниц (может быть это страницы пользователей, оплативших рекламу на поисковой системе). Если ищем с кавычками найдено то, что нужно. Обратите внимание если не поставить запятую в этой фразе, то ищется вроде бы та же самая фраза, кавычки стоят, но не найдено ни одного документа. В чем же причина? В запятой. Поисковые системы ищут полное совпадение фразы, заключенной в кавычки, вплоть до знаков.
Более подробно с операторами языка запросов поисковых систем можно ознакомиться на специальных страницах, описывающих их работу. Использование языка запросов очень сокращает время поиска. Однако, досконально знать язык запросов совсем не обязательно! Хотя языки поисковых запросов не очень сложны, ими редко пользуются. Очень хорошо, что на многих поисковых системах существуют расширенные формы запросов, заполнив которые, вы формируете сложный запрос, даже не имея представления о синтаксисе языка поисковой машины.
Кроме того, очень полезен и поиск в ссылках. Например - вы хотите найти не пространные рассуждения о популярном интернет-пейджере icq, а скачать его. Зайдите на страницу расширенного поиска, ну например, Rambler или любой другой поисковой системы. Введите в строке поиска "icq download". Выберите “поиск в гиперссылках”. То, что вам необходимо, найдется в первых же результатах поиска.
10.6 Порядок выполнения работы
1. Внимательно изучить методические указания к лабораторной работе.
2. Получить допуск на выполнение работы у преподавателя.
3. Вызовите программу Internet Explorer.
4. В строке адрес наберите www.google.ru.
5. Найдите информацию о современных поисковых системах.
6. В строке адрес наберите www.nigma.ru.
7. Найдите аналогичную информацию.
8. Сравните результаты поиска.
9. Составьте отчет в соответствии с требованиями, предъявляемыми к оформлению отчетов.
10. Свою рабочую папку с отчетами по лабораторным работам скопировать на сервер в папку STUDENTS, в папку с номером своей группы.
10.7 Оформление отчета
1. Титульный лист в соответствии с требованиями, предъявляемыми в институте к оформлению лабораторных работ студентов.
2. Цель работы.
3. Ход работы.
4. Письменные ответы на два (по заданию преподавателя) контрольных вопроса.
5. Выводы.
10.8 Контрольные вопросы
1. Что такое поисковые машины? Назовите основные части программного комплекса.
2. Что такое каталоги? Перечислите их достоинства и недостатки
3. Перечислите классы метапоисковых систем.
4. Дайте определение интеллектуальной поисковой системы.
5. Как группируются результаты поиска в интеллектуальной поисковой системе?
6. Назовите основные элементы поисковых страниц.
7. Какие элементы содержит каждый результат поиска?
8. Назовите преимущества использования языка запросов?
9. Существует ли общепринятый стандарт для операторов языка поисковых систем?
10. Скачано с www.znanio.ru
Материалы на данной страницы взяты из открытых источников либо размещены пользователем в соответствии с договором-офертой сайта. Вы можете сообщить о нарушении.