С каждым годом объемы Интернета увеличиваются в разы, поэтому вероятность найти необходимую информацию резко возрастает. Интернет объединяет миллионы компьютеров, множество разных сетей, число пользователей увеличивается на 15-80% ежегодно. И, тем не менее, все чаще при обращении к Интернет основной проблемой оказывается не отсутствие искомой информации, а возможность ее найти. Как правило, обычный человек в силу разных обстоятельств не может или не хочет тратить на поиск нужного ему ответа больше 15-20 минут. Поэтому особенно актуально правильно и грамотно научиться, казалось бы, простой вещи – где и как искать, чтобы получать ЖЕЛАЕМЫЕ ответы.
Чтобы найти нужную информацию, необходимо найти её адрес. Для этого существуют специализированные поисковые сервера (роботы индексов (поисковые системы), тематические Интернет-каталоги, системы мета-поиска, службы поиска людей и т.д.). В данном мастер-классе раскрываются основные технологии поиска информации в Интернете, предоставляются общие черты поисковых инструментов, рассматриваются структуры поисковых запросов для наиболее популярных русскоязычных и англоязычных поисковых систем.
Технология WWW. Поиск информации в Интернет
1. Введение
2. Технологии поиска
2.1 Поисковые инструменты
2.2 Поисковые машины (search engines)
2.3 Каталоги (directories)
2.4 Подборки ссылок
2.5 Базы данных адресов ( addresses database)
2.6 Поиск в архивах Gopher (Gopher archives)
2.7 Система поиска FTP файлов (FTP Search)
2.8 Система поиска в конференциях Usenet News
2.9 Системы метапоиска
2.10 Системы поиска людей
3. Заключение
1. Введение
С каждым годом объемы Интернета увеличиваются в разы, поэтому вероятность найти
необходимую информацию резко возрастает. Интернет объединяет миллионы
компьютеров, множество разных сетей, число пользователей увеличивается на 1580%
ежегодно. И, тем не менее, все чаще при обращении к Интернет основной проблемой
оказывается не отсутствие искомой информации, а возможность ее найти. Как правило,
обычный человек в силу разных обстоятельств не может или не хочет тратить на поиск
нужного ему ответа больше 1520 минут. Поэтому особенно актуально правильно и
грамотно научиться, казалось бы, простой вещи – где и как искать, чтобы получать
ЖЕЛАЕМЫЕ ответы.
Чтобы найти нужную информацию, необходимо найти её адрес. Для этого существуют
специализированные поисковые сервера (роботы индексов (поисковые системы),
тематические Интернеткаталоги, системы метапоиска, службы поиска людей и т.д.). В
данном мастерклассе раскрываются основные технологии поиска информации в
Интернете, предоставляются общие черты поисковых инструментов, рассматриваются
структуры поисковых запросов для наиболее популярных русскоязычных и англоязычных
поисковых систем.
2. Технологии поискаWebтехнология World Wide Web (WWW) считается специальной технологией подготовки
и размещения документов в сети Интернет. В состав WWW входят и webстраницы, и
электронные библиотеки, каталоги, и даже виртуальные музеи! При таком обилии
информации остро встает вопрос: «Как сориентироваться в столь огромном и масштабном
информационном пространстве?»
В решении данной проблемы на помощь приходят поисковые инструменты.
2.1 Поисковые инструменты
Поисковые инструменты это особое программное обеспечение, основная цель которого –
обеспечить наиболее оптимальный и качественный поиск информации для пользователей
Интернета. Поисковые инструменты размещаются на специальных вебсерверах, каждый из
которых выполняет определенную функцию:
1. Анализ вебстраниц и занесение результатов анализа на тот или иной уровень базы
данных поискового сервера.
2. Поиск информации по запросу пользователя.
3. Обеспечение удобного интерфейса для поиска информации и просмотра результата
поиска пользователем.
Приемы работы, используемые при работе с теми или другими поисковыми
инструментами, практически одинаковы. Перед тем как перейти к их обсуждению,
рассмотрим следующие понятия:
1. Интерфейс поискового инструмента представлен в виде страницы с гиперссылками,
строкой подачи запроса (строкой поиска) и инструментами активизации запроса.
2. Индекс поисковой системы – это информационная база, содержащая результат
анализа вебстраниц, составленная по определенным правилам.
3. Запрос – это ключевое слово или фраза, которую вводит пользователь в строку
поиска. Для формирования различных запросов используются специальные символы
("", , ~), математические символы (*, +, ?).
Схема поиска информации в сети Интернет проста. Пользователь набирает ключевую
фразу и активизирует поиск, тем самым получает подборку документов по
сформулированному (заданному) запросу. Этот список документов ранжируется по
определенным критериям так, чтобы вверху списка оказались те документы, которые
наиболее соответствуют запросу пользователя. Каждый из поисковых инструментов
использует различные критерии ранжирования документов, как при анализе результатовпоиска, так и при формировании индекса (наполнении индексной базы данных web
страниц).
Таким образом, если указать в строке поиска для каждого поискового инструмента
одинаковой конструкции запрос, можно получить различные результаты поиска. Для
пользователя имеет большое значение, какие документы окажутся в первых двухтрех
десятках документов по результатам поиска и на сколько эти документы соответствуют
ожиданиям пользователя.
Большинство поисковых инструментов предлагают два способа поиска – simple
search (простой поиск) и advanced search(расширенный поиск) с использованием
специальной формы запроса и без нее. Рассмотрим оба вида поиска на примере
англоязычной поисковой машины.
Например, AltaVista удобно использовать для произвольных запросов, «Something about
online degrees in information technology», тогда как поисковый инструмент Yahoo позволяет
получать мировые новости, информацию о курсе валют или прогнозе погоды.
Освоение критериев уточнения запроса и приемов расширенного поиска, позволяет
увеличивать эффективность поиска и достаточно быстро найти необходимую информацию.
Прежде всего, увеличить эффективность поиска Вы можете за счет использования в
запросах логических операторов (операций) Or, And, Near, Not, математических и
специальных символов. С помощью операторов и/или символов пользователь связывает
ключевые слова в нужной последовательности, чтобы получить наиболее адекватный
запросу результат поиска. Формы запросов приведены в таблице 1.
Таблица 1
Простой запрос
account
merchant account
internet merchant account
"merchant account"
"internet merchant account"Расширенный запрос
internet merchant account and online payments
internet merchant near gov*
internet merchant near education
Расширенный запрос с использованием математических символов
+internet +merchant +account
internet ~merchant ~gov*
internet ~merchant ~governor
Internet ~merchant ~(governor account)
Простой запрос дает некоторое количество ссылок на документы, т.к. в список попадают
документы, содержащие одно из слов, введенных при запросе, или простое словосочетание
(см. таблицу 1). Оператор and позволяет указать на то, что в содержании документа
должны быть включены все ключевые слова. Тем не менее, количество документов может
быть все еще велико, и их просмотр займет достаточно времени. Поэтому в ряде случаев
гораздо удобнее применить контекстный оператор near, указывающий, что слова должны
располагаться в документе в достаточной близости. Использование near значительно
уменьшает количество найденных документов. Наличие символа "*" в строке запроса
означает, что будет осуществляться поиск слова по его маске. Например, получим список
документов, содержащих слова, начинающиеся на "gov", если в строке запроса запишем
"gov*". Это могут быть слова government, governor и т.д.
Наиболее развитый сервис поиска русскоязычной информации предоставляет поисковый
сервер Яndex. В Яndex можно просто написать порусски фразу, описывающую то, что Вы
хотите найти, и система проанализирует и обработает Ваш запрос, а затем постарается
найти все, что относится к заданной теме. Вы можете, используя специальные операторы,
составить строку, поясняющую поисковой системе, каким Вашим требованиям должнаотвечать интересующая Вас информация. Некоторые из операторов языка запросов Яndex
можно посмотреть здесь: http://help.yandex.ru/search/?id=481939
Не менее популярная поисковая система Rambler ведет статистику посещаемости ссылок
из собственной базы данных, поддерживаются те же логические операторы И, ИЛИ, НЕ,
метасимвол * (аналогично расширяющему диапазон запроса символу * в AltaVista),
коэффициентные символы + и , для увеличения или уменьшения значимости вводимых в
запрос слов.
Давайте рассмотрим наиболее популярные технологии поиска информации в Интернет.
2.2 Поисковые машины (search engines)
Машины вебпоиска это сервера с огромной базой данных URLадресов, которые
автоматически обращаются к страницам WWW по всем этим адресам, изучают
содержимое этих страниц, формируют и прописывают ключевые слова со страниц в свою
базу данных (индексирует страницы).
Более того, роботы поисковых систем переходят по встречаемым на страницах ссылкам и
переиндексируют их. Так как почти любая страница WWW имеет множество ссылок на
другие страницы, то при подобной работе поисковая машина в конечном результате
теоретически может обойти все сайты в Интернет.
Именно этот вид поисковых инструментов является наиболее известным и популярным
среди всех пользователей сети Интернет. У каждого на слуху названия известных машин
вебпоиска (поисковых систем) – Яndex, Rambler, Aport.
Чтобы воспользоваться данным видом поискового инструмента, необходимо зайти на него
и набрать в строке поиска интересующее Вас ключевое слово. Далее Вы получите выдачу
из ссылок, хранящихся в базе поисковой системы, которые наиболее близки Вашему
запросу. Чтобы поиск был наиболее эффективен, заранее обратите внимание на следующие
моменты:
определитесь с темой запроса. Что именно в конечном итоге Вы хотите найти?
обращайте внимание на язык, грамматику, использование различных небуквенных
символов, морфологию.Важно также правильно сформулировать и вписать ключевые
слова. Каждая поисковая система имеет свою форму составления запроса —
принцип один, но могут различаться используемые символы или операторы.
Требуемые формы запроса различаются также в зависимости от сложности
программного обеспечения поисковых систем и предоставляемых ими услуг. Так или