Метапоисковые системы

Автор работы: Пользователь скрыл имя, 10 Сентября 2011 в 16:28, лабораторная работа

Описание работы

1. Определение метапоисковых систем.
2. Рассмотрим метапоисковые системы nigma, Exactus, Hot Bot.
3. Результаты поиска по запросу «информационные системы»

Файлы: 1 файл

Лабораторная работа.doc

— 76.50 Кб (Скачать файл)

Лабораторная  работа №2

по курсу  «Информационные системы в экономике»

Метапоисковые системы 

1. Определение  метапоисковых систем.

Отличия в стратегии  и широте охвата материала различных  поисковых систем часто приводят к тому, что разные средства поиска дают разноречивые ответы на один и тот же запрос. Этим воспользовались разработчики метапомсковых систем, которые в своей работе используют потенциал других средств информационного поиска (рис. 5.). Метапоисковые системы - это надстройки над поисковыми системами и электронными каталогами, которые не имеют собственной базы данных (индекса) и при поиске по поисковому предписанию пользователя самостоятельно формируют запросы для нескольких внешних средств

 

 Рис. 5. Типовая  схема метапоисковой системы

поиска, а затем  анализируют полученные результаты и выдают список ссылок в порядке, определяемом соотношением рейтингов  ответа сразу по нескольким средствам  поиска. Иначе, такая система ведет опрос нескольких поисковых систем, а затем отбирает ссылки, следуя собственному алгоритму. Метапоисковые системы позволяют сократить время, затраченное на поиск информации, так как при обработке запроса пользователя эти системы одновременно обращаются к нескольким различным средствам поиска. Метапоисковые системы наиболее эффективны на начальных этапах поиска информации. Они помогают локализовать средства поиска, в которых присутствуют сведения об искомой пользователем информации.

2. Рассмотрим метапоисковые системы nigma, Exactus, Hot Bot.

    а) Дата рождения проекта Нигма.РФ - 12 апреля 2005 года. Примерно за год до этой знаменательной даты родилась идея создания поисковой системы с новым методом обработки и анализа полученных данных - методом кластеризации.Создатель проекта - Виктор Лавренко - ранее работавший в компании Mail.ru. Активная работа по созданию принципиально новой поисковой системы началась в первой половине 2005 года и продолжается по сей день. Название Nigma (один из трех родов пауков семейства Dictunidae) появилось очень просто: во-первых, оно короткое и запоминающееся, во-вторых, нам нужна была аналогия с Сетью, Всемирной Паутиной, то есть Интернетом. В рамках проекта «Интеллектуальная поисковая система Нигма.РФ» команда программистов работает над созданием системы, построенной на основе разработок в области искусственного интеллекта. Конечная цель проекта — создание поисковой системы, позволяющей анализировать содержание документов и выдавать конкретную информацию на запрос пользователя, а не ссылки на другие сайты. Разработчиками были созданы такие сервисы, как «Нигма-математика» (решение математических задач), «Нигма-химия» (решение химических задач), сервис ответов на вопросы пользователей, табличный поиск и многие другие. Ежедневно пользователи поисковой машины «Нигма.РФ» делают более 1 миллиона переходов на сайты, ежемесячная аудитория сайта «Нигма.РФ» составляет более 3 000 000 уникальных посетителей.

  б) Алгоритм поиска Exactus объединяет статистическую и лингвистическую составляющие. Из статистических характеристик текста Exactus учитывает TF*IDF веса термов и значимость фрагментов текстов (на основе HTML-разметки документов). Лингвистическая составляющая – значения синтаксем (минимальных семантико-синтаксических единиц текста) и их сочетаемость в конкретном предложении. Это позволяет отбирать только те тексты, в которых семантическое значение синтаксемы совпадает с ее семантическим значением в запросе (что невозможно в обычных статистических методах). Кроме того, это позволяет обработать ситуацию, когда целевая синтаксема является элементом более сложной синтаксической конструкции. Пример:

  Запрос: «К чему приводит инфляция?».

Документ 1: «Инфляция приводит к снижению темпов экономического роста».

Документ 2: «Строительство непроизводственных мегаобъектов приводит к росту инфляции». 

  В результате для системы Exactus первый документ наиболее предпочтителен, так как во втором документе «инфляция» находится в  другом семантическом значении. Пример показателен еще и тем, что для традиционных поисковых машин Интернет вопросительные слова и предлоги являются стоп-словами и не учитываются при поиске. Это приводит к невозможности отличить семантические значения слов и, как следствие, понижению точности поиска. В результате Документ1 и Документ2 являются равнозначными для традиционных поисковых машин, а для Exactus – совсем нет. 

  Поиск в  Excatus может быть проведен только после предварительной индексации документов. На этапе индексации производится преобразование документов к внутреннему формату Exactus, обсчет TF*IDF  весов термов с учетом морфологии русского языка. Параллельно этому производится синтаксический и семантический анализ текстов, что позволяет выявить подчинения синтаксем в тексте и их семантические значения. Полученные в результате анализа данные укладываются в линейные упорядоченные списки.

  В результате поиск в Exactus представляет собой слияние и переранжирование линейных упорядоченных списков, что опять же аналогично концепции большинства поисковых машин. Особенностью алгоритма являются весовые коэффициенты и алгоритм предварительной индексации текстов, которые позволяют учесть как статистические, так и семантические составляющие единиц текста. 

в) Поисковая система Hot Bot (Хот Бот) самая молодая из рассматриваемых нами всемирных поисковых систем. Так же как Yahoo и Infoseek, в ней имеется каталог, но кроме него информация выдаётся по запросам, как в системе Alta Vista. Обычный поиск в данной системе аналогичен такой же операции в других системах. Но расширенные возможности поиска в системе Hot Bot реализованы достаточно оригинально. Для ввода запросов не требуется знать специальные правила, запросы формируются вами прямо на данной странице путём ввода значений и выбора других значений из списка.

   Система Hot Bot достаточно удобна для поиска. Количество ссылок в системе растёт быстрыми темпами, но при этом скорость работы системы остаётся достаточно высокой.

   В предыдущих опытах мы рассмотрели поиск информации с помощью четырёх популярных систем. В настоящее время в  Интернете работают сотни поисковых  систем, и выбор той или другой зависит от вашего вкуса и ваших  запросов. Однако основные принципы поиска остаются всегда неизменными.

3. Результаты поиска по запросу «информационные системы»:

   Nigma.ru  

При обычном  поиске 536 млн. результатов,

При использовании  расширенного поиска : с любым из слов 15 млн. результатов, с точной фразой 7,3 млн. результатов.

Excatus

При обычном  поиске найдено 43 документа,

При использовании  расширенного поиска: с семантическим профилем  найдено 92 документа, с профилем «поиск по ключевым словам» найдено 88 документов, с профилем « поиск точных фактов» найден 91 документ.

Hot Bot

   В этой системе поиск производится в Yahoo, lyGO, and MSN!  В lyGO представляются в виде картинок. в Yahoo, MSN результаты  представлены в виде ссылок. Количество  не понятно.

4. В настоящее время в Интернете работают сотни поисковых систем, и выбор той или другой зависит от вашего вкуса и ваших запросов. Однако основные принципы поиска остаются всегда неизменными.

   Мы выполнили  операции поиска с помощью нескольких систем, обеспечивающих поиск в русскоязычной  части Интернета и ведущих  обширные каталоги. Какая из этих систем станет наиболее удобной – покажет время. Сейчас все они активно развиваются, а кроме того появляются и другие поисковые системы. Мы советуем вам посмотреть на описание систем через некоторое время, возможно одна из них станет намного удобнее и мощнее, чем другие, и вы предпочтёте пользоваться её услугами.

Информация о работе Метапоисковые системы