На главную   Контакты   Поиск   Карта сайта   Ссылки 
рефераты
 

Поиск информации в www, стр. 2

телей, но и Web-мастеров. Пользователи должны учитывать способ формирования баз данных, чтобы знать, на что они могут рассчитывать при поиске информации, а Web-мастера должны это знать, чтобы добиться наилучшего представления своих ресурсов в основных поис­ковых службах мира.

Поисковые каталоги

Поисковые каталоги похожи на предметные каталоги общественных биб­лиотек. На начальной странице поискового каталога мы выбираем тему, которая нас интересует, затем в рамках темы выбираем категорию, потом подкатегорию, и так далее, пока не получим конкретный список Web-ресур­сов, рекомендованных для просмотра. Крупнейшим поисковым каталогом мира сегодня считается поисковая система Yahoo! (www.yahoo.com) Она предоставляет примерно 1 млн. ссылок к ресурсам WWW, то есть охва­тывает чуть более тысячной доли всего Web-пространства.

Основным недостатком и, в то же время, достоинством поисковых катало­гов является «человеческий фактор». Данные, которые заносятся в ката­лог, проходят «ручную обработку». Сегодня на Yahoo! работают до 150 редакторов, ежедневно просматривающих Web-пространство в поисках наиболее ценных ресурсов по темам, вызывающим общественный инте­рес. Кроме собственных редакторов служба использует и информацию, по­ставляемую Web-мастерами. Так, например, теоретически любой владелец Web-страницы может самостоятельно заполнить положенную анкету и направить ее в адрес службы. Правда, гарантии, что страница будет вклю­чена в каталог Yahoo!, это не дает, поскольку служба не замусоривает свои каталоги ссылками на страницы-однодневки. Клиентов службы всегда раздражают ссылки, указывающие на давно несуществующие ресурсы. Чтобы не иметь особой головной боли по проверке актуальности храня­щихся ссылок, служба Yahoo! предпочитает скрупулезно подходить к фор­мированию своих каталогов. Тщательность в подборе информации обеспечивает высокую репутацию Yahoo!, несмотря на то, что совокупный объем ее ресурсов крайне мал.

Другой подход к формированию каталога демонстрирует поисковая служба Open Directory (dmoz.org). В качестве источника для своих ресурсов она при­влекает пользователей WWW, которые на добровольной основе могут обо­зревать понравившиеся им Web-страницы, каталогизировать их и размещать ссылки на них на центральном сервере службы. Поскольку число добро­вольных помощников может быть очень большим, у этой службы есть все шансы перекрыть успех Yahoo!. Но принцип добровольности не гарантирует качественности работы, поэтому каталоги, равные Yahoo по качеству, по-видимому, появятся еще не скоро. Однако есть и другие подходы, основанные, например, на 5МАНГ-технологии, и мы их тоже рассмотрим.

Поисковые указатели (индексы)

11ринцип действия поискового указателя похож на принцип действия пред­метного каталога библиотеки. Пользователь формирует запрос с помощью ключевых слов, выражающих объект его поиска, а поисковая система выдает ему список ссылок на Web-страницы, содержащие данные ключевые слова. Ксли мы хотим найти информацию, посвященную взаимоотношениям А. Вольта с Н. Бонапартом, можно задать поиск документов, в которых одновременно встречаются слова Вольта и Бонапарт, например так:

+Вольта +Бонапарт или так:

Вольта AND Бонапарт

Основное отличие поисковых указателей от поисковых каталогов состоит is полной автоматизации всех этапов работы. Здесь отсутствует «челове­ческий фактор», и потому количество Web-страниц, к которым ведет поис­ковый указатель, намного больше. Летом 1999 г. крупнейшие поисковые указатели преодолели 200-миллионный рубеж и, как сообщают, следую­щий рубеж (300-миллионный) будет взят в 2000 г.

Сбор информации поисковыми роботами

Поисковые указатели работают в три этапа. Создание поисковой системы начинается с разработки специальной агентской программы, которая спо­собна путешествовать по Web-узлам Интернета, просматривать Web-стра­ницы и копировать их содержание на центральный сервер поисковой системы. Такие агентские программы называют «червяками», «пауками», «поис­ковыми роботами» (сокращенно «ботами»), «поисковыми машинами», «краулерами» и т. п. Многообразие названий связано с тем, что каждая поисковая система создает свою собственную, неповторимую программу и дает ей свое имя, которое впоследствии становится нарицательным. Большинство современных поисковых систем начинались с того, что в 1993-94 годах в университетских лабораториях были разработаны экспе­риментальные программы для мониторинга Сети.

Если при чтении Web-страницы поисковый робот находит на ней ссылки на другие страницы того же Web-узла, он переходит по этим ссылкам, читает их содержание и так далее. Как червяк, он проникает в самые отда­ленные закоулки WWW.

Индексация ресурсов

Второй этап работы поисковой системы — индексация. Собрать на цен­тральном сервере образы сотен миллионов Web-страниц — это одно дело, а суметь выбрать те из них, которые нужны клиенту, сформировавше

<< назад    вперед >>

© 2006. Все права защищены.