Автор работы: Пользователь скрыл имя, 28 Ноября 2011 в 21:24, реферат
Пользователям Internet уже хорошо известны названия таких сервисов и информационных служб, как Lycos, AltaVista, Yahoo, OpenText, InfoSeek, а без услуг этих систем сегодня практически нельзя найти что-либо полезное в море информационных ресурсов Сети. Но что собой представляют эти сервисы изнутри, как они устроены, почему результат поиска в терабайтных массивах информации осуществляется достаточно быстро и как устроено ранжирование документов при выдаче - все это обычно остается за кадром.
Page-ID отображает
идентификаторы страниц в их URL, Keyword-ID
- каждое ключевое слов в уникальный идентификатор
этого слова, таблица заголовков - идентификатор
страницы в заголовок страницы, таблица
гипертекстовых ссылок - идентификатор
страниц в гипертекстовую ссылку на эту
страницу. Инвертированный список ставит
в соответствие каждому ключевому слову
документа список пар - идентификатор
страницы, позиция слова в странице. Прямой
список - это массив поисковых образов
страниц. Все эти файлы так или иначе используются
при поиске, но главным среди них является
файл инвертированного списка. Результат
поиска в данном файле - это объединение
и/или пересечение списков идентификаторов
страниц. Результирующий список, который
преобразовывается в список заголовков,
снабженных гипертекстовыми ссылками
возвращается пользователю в его программу
просмотра Web. Для того чтобы быстро искать
записи инвертированного списка, над ним
надстраивается еще несколько файлов,
например, файл буквенных пар с указанием
записей инвертированного списка, начинающихся
с этих пар. Кроме этого, применяется механизм
прямого доступа к данным - хеширование.
Для обновления индекса используется
комбинация двух подходов. Первый можно
назвать коррекцией индекса "на ходу"
с помощью таблицы модификации страниц.
Суть такого решения довольно проста:
старая запись индекса ссылается на новую,
которая и используется при поиске. Когда
число таких ссылок становится достаточным
для того, чтобы ощутить это при поиске,
то происходит полное обновление индекса
- его перезагрузка. Эффективность поиска
в каждой конкретной ИПС определяется
исключительно архитектурой индекса.
Как правило, способ организации этих
массивов является "секретом фирмы"
и ее гордостью. Для того чтобы убедиться
в этом, достаточно почитать материалы
OpenText .
Информационно-поисковый язык системы
Индекс - это только часть поискового аппарата, скрытая от пользователя. Второй частью этого аппарата является информационно-поисковый язык (ИПЯ), позволяющий сформулировать запрос к системе в простой и наглядной форме. Уже давно осталась позади романтика создания ИПЯ, как естественного языка, - именно этот подход использовался в системе Wais на первых стадиях ее реализации. Если даже пользователю предлагается вводить запросы на естественном языке, то это еще не значит, что система будет осуществлять семантический разбор запроса пользователя. Проза жизни заключается в том, что обычно фраза разбивается на слова, из которых удаляются запрещенные и общие слова, иногда производится нормализация лексики, а затем все слова связываются либо логическим AND, либо OR. Таким образом, запрос типа:
>Software that is used on Unix Platform
будет преобразован в:
>Unix AND Platform AND Software
что будет означать примерно следующее: "Найди все документы, в которых слова Unix, Platform и Software встречаются одновременно".
Возможны и варианты. Так, в большинстве систем фраза "Unix Platform" будет опознана как ключевая фраза и не будет разделяться на отдельные слова. Другой подход заключается в вычислении степени близости между запросом и документом. Именно этот подход используется в Lycos. В этом случае в соответствии с векторной моделью представления документов и запросов вычисляется их мера близости. Сегодня известно около дюжины различных мер близости. Наиболее часто применяется косинус угла между поисковым образом документа и запросом пользователя. Обычно эти проценты соответствия документа запросу и выдаются в качестве справочной информации при списке найденных документов.
Наиболее развитым
языком запросов из современных ИПС Internet
обладает Alta Vista. Кроме обычного набора
AND, OR, NOT эта система позволяет использовать
еще и NEAR, позволяющий организовать контекстный
поиск. Все документ в системе разбиты
на поля, поэтому в запросе можно указать,
в какой части документа пользователь
надеется увидеть ключевое слово: ссылка,
заглавие, аннотация и т.п. Можно также
задавать поле ранжирования выдачи и критерий
близости документов запросу.
Интерфейс системы
Важным фактором является вид представления информации в программе-интерфейсе. Различают два типа интерфейсных страниц: страницы запросов и страницы результатов поиска.
При составлении запроса к системе используют либо меню - ориентированный подход, либо командную строку. Первый позволяет ввести список терминов, обычно разделяемых пробелом, и выбрать тип логической связи между ними. Логическая связь распространяется на все термины. На приведенной на рис. 1 схеме имеется сохраненные запросы пользователя - в большинстве систем это просто фраза на ИПЯ, которую можно расширить за счет добавления новых терминов и логических операторов. Но это только один способ использования сохраненных запросов, называемый расширением или уточнением запроса. Для выполнения этой операции традиционная ИПС хранит не запрос как таковой, а результат поиска - список идентификаторов документов, который объединяется/пересекается со списком, полученным при поиске документов по новым терминам. К сожалению, сохранение списка идентификаторов найденных документов в WWW не практикуется, что было вызвано особенностью протоколов взаимодействия программы-клиента и сервера, не поддерживающих сеансовый режим работы.
Итак, результат поиска в базе данных ИПС - это список указателей на удовлетворяющие запросу документы. Различные системы представляют этот список по-разному. В некоторых выдается только список ссылок, а в таких, как Lycos, Alta Vista и Yahoo, дается еще и краткое описание, которое заимствуется либо из заголовков, либо из тела самого документа. Кроме этого, система сообщает, на сколько найденный документ соответствует запросу. В Yahoo, например, это количество терминов запроса, содержащихся в ПОД, в соответствии с которым ранжируется результат поиска. Система Lycos выдает меру соответствия документа запросу, по которой производится ранжирование.
При обзоре интерфейсов и средств поиска нельзя пройти мимо процедуры коррекции запросов по релевантности . Релевантность - это мера соответствия найденного системой документа потребности пользователя. Различают формальную релевантность и реальную. Первую вычисляет система, и на основании чего ранжируется выборка найденных документов. Вторая - это оценка самим пользователем найденных документов. Некоторые системы имеют для этого специальное поле, где пользователь может отметить документ как релевантный. При следующей поисковой итерации запрос расширяется терминами этого документа, а результат снова ранжируется. Так происходит до тех пор, пока не наступит стабилизация, означающая, что ничего лучше, чем полученная выборка, от данной системы не добьешься.
Кроме ссылок на
документы в списке, полученном пользователем,
могут оказаться ссылки на части
документов или на их поля. Это происходит
при наличии ссылок типа http://host/path#mark
или ссылок по схеме WAIS. Возможны ссылки
и на скрипты, но обычно такие ссылки
роботы пропускают, и система их не индексирует.
Если с http-ссылками все более или менее
понятно, то ссылки WAIS - это гораздо более
сложные объекты. Дело в том, что WAIS реализует
архитектуру распределенной информационно-поисковой
системы, при которой одна ИПС, например
Lycos, строит поисковый аппарат над поисковым
аппаратом другой системы - WAIS. При этом
серверы WAIS имеют свои собственные локальные
базы данных. При загрузке документов
в WAIS администратор может описать структуру
документов, разбив их на поля, и хранить
документы в виде одного файла. Индекс
WAIS будет ссылаться на отдельные документы
и их поля как на самостоятельные единицы
хранения, программа просмотра ресурсов
Internet в этом случае должна уметь работать
с протоколом WAIS, чтобы получить доступ
к этим документам.
Заключение
В обзорной статье
были рассмотрены основные элементы
информационно-поисковых систем и
принципы их построения. Сегодня ИПС
являются наиболее мощным механизмом
поиска сетевых информационных ресурсов
Internet. К сожалению, в российском секторе
Internet пока не наблюдается активного изучения
этой проблемы за исключением, может быть,
проекта LIBWEB, финансируемого РФФИ и системы
"Паук", которая работает недостаточно
надежно. Наибольшим опытом разработки
такого сорта систем безусловно обладает
ВИНИТИ, но здесь работа сосредоточена
пока на размещении своих собственных
ресурсов в Сети, что принципиально отличается
от информационно-поисковых систем Internet
типа Lycos, OpenText, Alta Vista, Yahoo, InfoSeek и т.п. Казалось
бы, что такая работа могла быть сосредоточена
в рамках таких проектов, как Россия On-line
компании SovamTeleport, но здесь мы пока наблюдаются
ссылки на чужие поисковые машины. Развитие
ИПС для Internet в США началось два года назад,
учитывая отечественные реалии и темпы
развития технологий Сети в России, можно
надеяться, что у нас еще все впереди.
Литература
[1].
Дж. Солтон. Динамические
библиотечно-информационные
системы. Мир, Москва, 1979
[2]. Frank G.
Halasz. Reflection notecards: seven issues for the next generation of
hypermedia systems. Communication of the
acm, V31, N7, 1988, p.836-852.
[3]. Tim Berners-Lee. World
Wide Web: Proposal for HyperText Project. 1990.
[4]. Alta Vista. http://www.altavista.
[5]. Brain Pinkerton. Finding
What People Want: Experiences with the
WebCrawler.http://info.
[6].
Bodi Yuwono, Savio L.Lam, Jerry H.Ying,
Dik L.Lee. A World Wide Web Resource Discovery System. http://dbcl13.cs.ust.
[7]. Martin
Bartschi. An Overview of Information Retrieval Subjects. IEEE Computer,
N5, 1985,p.67-84.
[8]. Michel L. Mauldin,
John R.R. Leavitt. Web Agent Related Research at the Center for Machine
Translation. http://fuzine.mt.
[9]. Ian
R.Winship. World Wide Web searching tools -an evaluation.
VINE (99), p.49-54. (или http://
www.bubl.bath.ac.uk/BUBL/
[10].
G.Salton, C.Buckley. Term-Weighting
Approachs in Automatic Text Retrieval.
Information Processing & Management, 24(5), pp. 513-523, 1988.
[11]. Open Text Corporation
Releases Industry"s Highest Performance Text Retrieval System. http://www.opentext.
Информация о работе Классификация информационно-поисковых систем. Основные методы поиска в ИПС