Автор работы: Пользователь скрыл имя, 28 Декабря 2010 в 13:39, Не определен
веб индексы, веб каталоги
Основная цель пользователя при работе с сетью Internet – это получение информации, так как в первую очередь Internet является гигантским информационным ресурсом.
Задача поиска информации в условиях стремительного развития и постоянного изменения сети и ее информационного наполнения является нетривиальной!
Случайно найти нужный адрес в сети можно разными способами: просто путешествуя по узлам (surfing on the web), узнать у знакомых, увидеть в рекламе и т.д.
Целенаправленный поиск явно или неявно требует формулировки цели поиска, понимания того, что является объектом поиска, обоснованного выбора средства поиска и эффективной методики.
Цель определяет характеристики объектов поиска, объем и сроки выполнения работы, перечень средств поиска и способы их применения. Например, при подготовке к экзамену требуется методическая литература, учебные курсы, конспекты лекций, для реферата – аналитические обзоры, для доклада – графические материалы, для презентации – файлы мультимедиа, для научного исследования – программное обеспечение, и т.д.
В качестве объекта поиска может рассматриваться любая информация, если имеется возможность представления ее в Internet. Это могут быть телефоны и адреса, информация о товарах и услугах, радио и теле трансляции и многое другое. Наиболее распространенными объектами поиска является:
Адрес информационного ресурса, в том числе:
- адрес WWW-сервера (http://www.company.ru);
-
адрес Web-страницы (http://www.company.ru/index.
-
адрес файла (http://www.company.ru/images/
- адрес электронной почты (mailto:user@company.ru);
- адрес FTP-сервера (ftp://ftp.company.ru)
- адрес Gopher-сервера (gopher://gopher.mysite.com)
- статья UseNet (news:relcom.newusers)
- сеанс Telnet (telnet://mysite.ru)
- Web-страница и включенные в нее элементы: текст, мультимедиа данные, гиперссылки, программы (апплеты) и т.д.
- программы в том числе: демонстрационные и тестовые программы, средства улучшения (upgrade), обновления (update) и исправления ошибок (patch) в программах;
- сообщения в телеконференциях;
- информация из интерактивных баз данных, справочников, каталогов, репозиториев.
Средствами поиска являются Web-индексы, Web-каталоги, гибридные системы поиска, метапоисковые системы, средства локального поиска и утилиты автономного поиска.
Данный сервер пытается просмотреть все Web-страницы, представленные в Internet и учесть их содержимое в базе данных. Просмотр выполняется в автоматическом режиме программами, которые называются сетевыми роботами, пауками или червями (net robot, spider, worm). Каждая найденная страница исследуется специальной программой индексирования, которая анализирует заголовок, тему, ключевые слова, текст и состав Web-страницы. Полученная информация заносится в базу данных и является основой для выполнения поиска по запросу пользователя.
Наиболее известные Web-индексы:
- AltaVista (http://www.altavista.com).
- HotBot (http://www.hotbot.com)
В Web-каталоге ссылки на ресурсы Internet объединены тематически и организованы в виде иерархии категорий. На верхнем уровне иерархии обычно находятся категории “бизнес”, “наука”, “искусство” и т.д. Каталоги составляются вручную аналитиками Web-каталога. Поэтому для каталогов характерно высокое качество отбора информации и ее сортировки, но по охвату информации и оперативности они уступают Web-индексам.
Самые известные Web-каталоги - это Yahoo! (http://www.yahoo.com) и Magellan (http://www.magellan.com).
Гибридные поисковые системы имеют и индексную базу данных, и структурированный тематический каталог. Примерами таких систем являются:
- Lycos (http://www.lycos.com);
- Excite (http://www.excite.com);
- Infoseek (http://www.infoseek.com);
- WebCrawler (http://www.webcrawler.com).
Метапоисковые системы обеспечивают для каждого запроса одновременный поиск с помощью нескольких поисковых серверов. Такие системы позволяют задавать только простые запросы на поиск. Это сокращает время, но получаемые результаты, как правило, хуже, чем при независимом поиске не каждом поисковом сервере с использованием расширенных возможностей.
Наиболее удобные метапоисковые системы это:
- Accufind (http://www.accufind.com);
- Metafind (http://www.metafind.com);
- Metasearch (http://www.metasearch.com).
Следует отметить тенденцию к превращению многих известных поисковых серверов в порталы Internet (от латинского porta - вход, ворота). Каждый пользователь портала имеет возможность настроить вид и содержание узла-портала по своему усмотрению. При использовании портала можно ограничить состав тематических каталогов и баз данных только интересующей пользователя информацией, хранить поисковые запросы и создавать закладки для поиска.
В последнее время во многие крупные Web-узлы включаются средства локального поиска информации, представленной на узле. Это могут быть справочники, интерактивные базы данных, архивы публикаций, репозитории. Применение подобных средств актуально при поиске узко специализированной информации. Например, информацию о продукции фирмы Sony удобно искать непосредственно на узле данной фирмы (http://www.sony.com).
Утилиты автономного поиска устанавливаются на компьютере пользователя. Они обеспечивают накопление поисковых запросов, выполняют метапоиск, отслеживают изменения заданных Web-страниц. К подобным программам можно отнести WebCompass (http://www.quarterdeck.com) и Copernic (http://www.copernic.com).
Полезными при поиске могут оказаться, так называемые автономные браузеры (off-line browsers), обеспечивающие загрузку заданных Web-узлов без участия пользователя. В таких программах можно задавать “глубину” поиска ссылок внутри узла, тип и предельный размер копируемых файлов, расписание загрузки. Наиболее популярны WebWhacker (http://www.ftg.com ) и Teleport Pro (http://www.tenmax.com)
Ускорить ручной поиск можно с помощью средств анализа структуры Web-узла. Они изображают в удобной форме навигационную карту узла, на которой показаны элементы Web-страниц с аннотациями и их связи. Для этой цели можно применять WebTurbo (http://www.webturbo.com) или PersonalCrawler (http://www.vci.co.il).
Методика поиска включает правила формирования запроса на поиск, методы сужения области поиска, управление процессом поиска, выбор формы представления результатов.
Так как процесс поиска существенно зависит от используемой поисковой системы, поэтому далее приводятся только общие рекомендации.
Запрос на поиск описывает условия, которым должны удовлетворять результаты поиска. В запросе задаются слова или фразы, которые будут искаться, они называются ключевыми.
Правила формирования запроса:
1. Имя собственное (должно начинаться с прописной буквы): Слово.
2. Поиск слова без учета регистра: слово.
3. Ключевое слово с любым окончанием: слово*.
4. Ключевое слово с любым окончанием, состоящим из 1 буквы: слово?.
5. Неделимая ключевая фраза: “слово1 слово2 ...”.
6. Ключевое слово обязательно: +слово.
7. Ключевое слово должно отсутствовать: -слово.
В запросе можно задавать произвольные логические выражения над ключевыми словами, они применяются обычно при расширенном поиске (Advanced search). Логические выражения строятся из ключевых слов круглых скобок и логических операций AND, OR, NOT (эти же операции могут обозначаться иначе - &, | , !)
Некоторые поисковые системы поддерживают при формировании сложного запроса метакоманды, полный список которых можно получить с помощью справочной информации. В системе AltaVista метакоманды применяются для следующих видов поиска:
- поиск Web-страниц с указанным заголовком: title:заголовок;
- поиск в тексте страниц: text:слово;
- поиск слова среди ссылок на Web-странице: anchor:слово;
- поиск страниц, имеющих ссылки на определенный адрес: link:адрес;
- поиск графического файла на Web-странице: image:имя.jpg;
- поиск страницы с апплетом: applet:имяапплета;
В качестве ключевых слов в запросе следует использовать как можно более точное слово или словосочетание, наиболее полно характеризующее объект поиска. Когда результатов поиска мало запрос следует наоборот - обобщить.
Не нужно использовать часто встречающиеся слова типа “Internet”, “web”, “program”, иначе количество результатов поиска будет огромным.
Предлоги и слова-связки типа “in”, “the”, “that” могут отбрасываться даже при использовании их во фразах или запросах на естественном языке.
Для областей знаний, где терминология еще не устоялась (например, в области компьютерных технологий) целесообразно использовать слова-синонимы, соединяя их логической операцией OR.
При
недостаточном числе
От
области поиска естественным образом
зависит количество результатов
поиска. Для сокращения области можно
комбинировать возможности
Большинство поисковых систем (Yahoo, AltaVista и др.) позволяют перед выполнением запроса уточнить область по тематическому каталогу категорий. Для этого следует вначале выбрать одну или несколько категорий, а затем выполнить запрос. Также существуют возможности для выбора языка, места поиска (Internet, UseNet, и т.д.), страны или домена. Можно задать и временные границы для даты последнего обновления информации об искомых объектах.
Из метакоманд сервера AltaVista, ограничивающих область поиска, полезны ограничение поиска заданным доменом domain:edu и узлом host:company.ru.
Обычно процесс поиска является циклической процедурой, состоящей из последовательно уточняемых запросов на поиск и просмотра найденной информации. Если найдена ссылка, максимально удовлетворяющая цели поиска, целесообразно выполнить поиск похожих документов, например, с помощью экранной кнопки More like this.
Стратегия поиска индивидуальна, но полезно учитывать определенные практические рекомендации.
Начинать поиск лучше с определения адресов поисковых серверов, специализирующихся на нужных темах. Первым объектом поиска могут быть обзоры ссылок, которые регулярно составляют многие пользователи Internet. Имеет смысл искать в первую очередь и документы с ответами на часто задаваемые вопросы FAQ (Frequently Asked Questions) по какой-либо теме. В этих случаях первый запрос на поиск должен включать фразы типа “Поиск ...”, “Обзор ...” или “FAQ ...”.
Если
использование поисковых