Автор работы: Пользователь скрыл имя, 07 Ноября 2010 в 15:53, Не определен
реферат
Федеральное агентство по образованию
Смоленский
государственный университет
Технологии
поиска информации в
сети Интернет.
Смоленск
2010
Содержание:
Введение………………………………………………………… 1.Классификация
поисковых систем ………………………………… 2.Приемы поиска……………………………………… 2.1.Простой поиск………………………………… 2.2.Расширенный поиск…………………………………………………………. 3.Тематический каталог Yahoo.………………………………………………… 4.Автоматический индекс Alta Vista…………………………………………… 5.Поиск информации в конференциях (Usenet)……………………………….. 6.Отечественные поисковые службы ………………………………………….. 6.1.Rambler ………………………………………………………………………. 6.2.Яндекс…………………………………………………… 7.Поиск файлов ………………………………………………………………….. 8.Источники специализированной информации ……………………………… 9.Поиск отдельных людей в сети Internet ……………………………………... 10.Метапоиск……………………………………………… 11.Эффективный поиск информации…………………………………………... Заключение……………………………………………………
|
3
3 6 6 8 10 12 13 14 15 15 16 17 18 19 19 21 22 |
Введение
Любой,
кто пытался когда-нибудь найти
нужную информацию в Интернете, наверняка
согласится с тем, что этот процесс
похож на поиск иголки в стоге
сена. Глобальная сеть Internet содержит огромный
объем информации, который стремительно
увеличивается с каждым днем. В силу этого
часто оказывается, что задача нахождения
необходимой информации в этом информационном
океане является чрезвычайно сложной
и нужно уметь эффективно использовать
различные поисковые системы (программы
поиска информации в сети). Необходимо
учесть, что "поиск - это искусство".
Существует много разных поисковых систем принадлежащих разным компаниям. Прежде всего, выделяют так называемые тематические каталоги (например, Yahoo) и автоматические индексы (например, AltaVista), хотя необходимо иметь ввиду, что целый ряд поисковых систем занимает некоторое промежуточное положение между этими двумя "полюсами", то есть они содержат в себе элементы обоих этих классов. Каждая из поисковых систем имеет свою обширную базу данных об адресах (местоположении) различных Web-документов, и поиск ссылок на необходимую нам информацию происходит, не в самих Web-документах, а именно в этой базе данных.
Тематические каталоги и автоматические индексы различаются, прежде всего, по тому, как формируются и пополняются их базы данных: принимают ли в этом процессе участие люди, или все происходит совершенно автоматически.
Базы данных тематических каталогов составляются и систематически пополняются экспертами в соответствующих областях на основании новых Web-документов, обнаруженных в Internet специальными поисковыми программами. Тематический каталог представляет пользователю Internet некоторую древовидную структуру категорий (разделов и подразделов), на верхнем уровне которой собраны самые общие понятия, такие как Наука, Искусство, Бизнес и т. п., а элементы самого нижнего уровня представляют собой ссылки на отдельные Web-страницы и серверы вместе с кратким описанием их содержимого. По этому иерархическому каталогу можно путешествовать, начиная с более общих категорий (понятий) к более узким, специализированным.
Например, для нахождения информации о состоянии научных исследований по теории суперструн можно спуститься вниз по следующей "лестнице" понятий:
Science (Наука)
Physics (Физика)
Theoretical Physics (Теоретическая физика)
Theories (Теории)
String Theories (Теории струн)
В результате будет получен список сайтов, среди которых наибольший интерес представляет сайт Superstrings. Щелкнув мышью на гиперссылке Superstrings, мы попадаем на home page сайта, с соответствующим заголовком, на котором можно найти on-line учебник по теории суперструн, различные ссылки для дальнейшего чтения, глоссарий по суперструнам и т.д.
Главным достоинством тематических каталогов является большая ценность получаемой пользователем информации, что обеспечивается присутствием "человеческого фактора" в процессе анализа и сортировки новых Web-страниц. С другой стороны, тематические каталоги имеют существенный недостаток, связанный опять же с человеческим фактором, ибо из-за ограниченных возможностей человека их базы данных охватывают лишь небольшую часть всего информационного Web-пространства (менее 1 %). Таким образом, несмотря на всю полезность тематических каталогов, использование лишь поисковых систем этого вида часто оказывается явно недостаточным.
Сводная таблица избранных предметных каталогов
|
В отличие от тематических каталогов, базы данных для автоматических индексов создаются и пополняются полностью автоматически некоторыми специальными, внутренними поисковыми программами-роботами, которые в круглосуточном режиме просматривают Internet-узлы (сайты) в поисках вновь появившихся Web-документов. Из каждого такого документа робот извлекает все содержащиеся в нем новые ссылки и добавляет их в свою базу адресов, в результате чего у программы-робота возникает возможность просмотра еще некоторого количества новых для него Web-документов. В каждом новом Web-документе робот анализирует все входящие в него слова и в разделе базы данных, соответствующем каждому данному слову, запоминается адрес (URL) документа, где это слово встретилось. Таким образом, база данных, создаваемая автоматическим индексом, фактически хранит сведения о том, в каких Web-документах содержаться те или иные слова. В отличие от тематических каталогов, автоматические индексы охватывают до 25 % общего Web-пространства.
Автоматический индекс имеет отдельную поисковую систему для обеспечения интерфейса с пользователем. Эта система может, просматривая базу данных, по заданному набору ключевых слов находить и выдавать на экран пользовательского компьютера адреса и краткую информацию обо всех Web-страницах, которые содержат данный набор ключевых слов. Таким образом, автоматический индекс состоит из трех частей: программы-робота, собираемой этим роботом базы данных и интерфейса для поиска в этой базе данных. Именно с последней составляющей и работает пользователь. В силу такой организации, автоматический индекс не делает какой-либо классификации или оценивания информации.
Интерфейс автоматических индексов позволяет пользователю задать некоторый набор ключевых слов, которые с его точки зрения, являются характерными для искомых им документов, и позволяют, таким образом, найти достаточно ограниченное число потенциально относящихся к делу Web-страниц. В качестве таковых слов могут быть использованы некоторые специфические термины и их комбинации, достаточно редкие фамилии и т. д.
Успех поиска нужной информации в значительной степени определяется именно удачным выбором ключевых слов, ибо в противном случае поисковая система может выдать многие тысячи и миллионы ссылок на не относящиеся к делу Web-документы.
Следует иметь ввиду, что начинающего пользователя подстерегает много разных неожиданностей, иногда доходящих до анекдотических ситуаций.
Если для автоматических индексов поиск по ключевым словам является единственным средством нахождения необходимой информации, то в тематических каталогах (например, в Yahoo!) это средство является альтернативным способом поиска наряду с путешествием по системе (дереву) вложенных друг в друга категорий.
Некоторой
разновидностью поисковых служб являются
рейтинговые службы. Они предоставляют
клиенту готовый список некоторых ссылок,
к которым обращались наиболее часто другие
пользователи сети Internet. Когда речь идет
о темах, имеющих общественный интерес,
таких как новости, музыка и т. д., такие
рекомендации, полученные статистическим
методом, являются весьма удобными и полезными.
Такие услуги, в частности, обеспечивает
отечественная служба Rambler.
Каждая поисковая система (ПС ) предоставляет свои методы поиска и имеет свои особенности в правилах записи комбинаций ключевых слов. Однако есть общие элементы одинаково справедливые для большинства поисковых систем. Обычно все ПС допускают поиск Web-документов по ключевым словам, которые являются характерными для искомого документа. Выбор таких слов часто является нетривиальной задачей.
Как правило, указание одного ключевого слова является недостаточным, и тогда возникает вопрос о том, как задавать их соответствующие комбинации. Пусть, например, мы хотим получить информацию о российском лауреате нобелевской премии 2000 г. Жоресе Алферове. Указание в поле поиска только фамилии
Alferov
приведет
к обнаружению огромного
Zhorez Alferov,
разделенных символом пробела, мы должны иметь ввиду, что разные поисковые системы реагируют на этот символ по-разному. Большинство ПС рассматривают пробел как знак логической операции "или" (OR) (к ним относятся Yahoo, AltaVista и т. д.). Поэтому поиск по комбинации слов Zhorez Alferov не сократит, а, наоборот, увеличит количество документов, найденных поисковой системой: будут найдены все документы, где встречается или слово Zhorez, или слово Alferov, или оба эти слова вместе.
В
таких случаях для более
"Zhorez Alferov".
Однако, при этом не будут найдены документы, в которые входит комбинация этих слов в другом порядке (Alferov Zhorez), ибо всё заключенное в кавычки является единым словосочетанием, и поисковая система ищет в документах абсолютно точное совпадение всех символов этого словосочетания.
Информация о работе Технологии поиска информации в сети Интернет