Метопоисковые системы. Понятие, назначение, обзор и сравнение существующих систем

Автор работы: Пользователь скрыл имя, 19 Марта 2012 в 23:35, реферат

Описание работы

Всемирная Сеть содержит постоянно растущий огромный объем динамически изменяющейся информации, для того, чтобы как-то упорядочить этот непрерывный поток данных, были созданы поисковые системы (ПС). К сожалению, пока ни одна из подобных систем не может в одиночку охватить все бесконечные ресурсы интернета. Для решения данной проблемы и расширения возможностей поиска, были созданы системы, названные метапоисковыми.

Файлы: 1 файл

МИР.doc

— 292.50 Кб (Скачать файл)

Глава 1. Метопоисковые системы. Понятие, назначение, обзор и сравнение существующих систем.

 

Всемирная Сеть содержит постоянно растущий огромный объем динамически изменяющейся информации, для того, чтобы как-то упорядочить этот непрерывный поток данных, были созданы поисковые системы (ПС). К сожалению, пока ни одна из подобных систем не может в одиночку охватить все бесконечные ресурсы интернета. Для решения данной проблемы и расширения возможностей поиска, были созданы системы, названные метапоисковыми.

Итак, метапоиск — это поисковая машина, которая при поисковом запросе параллельно опрашивает несколько независимых традиционных ПС и возвращает их результаты одним, объединенным списком результатов без дублирования ссылок и, по возможности, улучшая частные результаты выдачи, т.е. выступая посредником между вами и множеством ведущих ПС.

Главное преимущество — это возможность быстро и удобно сделать запрос фактически через одну поисковую строку сразу ко многим ведущим ПС, что экономит время, да и анализ единого листинга результатов намного проще, чем сличение множества разных листингов с множеством дублирований результатов. Иначе говоря, работая через метапоиск, ваш угол обзора всегда будет существенно шире, чем через каждую ПС в отдельности.

Недостатки метапоиска являются продолжением и логическим следствием его преимуществ: так, очевидно, что у метапоиска отсутствует собственная индексная база, соответственно вы не можете добавлять в его поиск URL своих сайтов. Второй очень важный недостаток такого поиска, это традиционные очень скромные синтаксические возможности для формулирования условий расширенного поиска. Поскольку метапоисковик может использовать в качестве доноров до 15-20 сторонних поисковых машин, то очевидно, что синтаксис расширенного поиска (булевы операции и т.п.) у всех поисковиков так или иначе будут отличаться.

Рис.1 Схема метопоисковой системы

Наиболее стандартный тип метапоиска это ПС, обеспечивающий параллельный запрос во множество обычных ПС с последующей выдачей результата этих поисков в одной общей странице исходного метапоиска (Рис.1). Но кроме этого вида существуют и другие разновидности, в частности, варианты, когда результаты запроса подгружаются во фреймах в пределах одной страницы, причем в каждом фрейме отображается оригинальная страница с результатами целевой ПС, также возможен вариант открытия после запроса нескольких страниц с оригинальной выдачей на ваш запрос каждой подключенной ПС. Ещё один распространенный вариант — это наличие формы поиска, в которой вы можете обращаться к огромному количеству ПС, но здесь есть возможность выполнить за раз запрос только к одной ПС на выбор, это так называемые поисковые страницы «все в одном» (all-in-one search).

Переходя от абстрактного описания к конкретике, на март 2011 года лидирующим по количеству посещений был метапоиск WebCrawler (рис. 2)c более чем 12 миллионов уникальных посетителей в месяц.

 

Рис.2 Метопоисковая система WebCrawler

Вся десятка сегодняшних лидеров на этом рынке выглядит, как показано на рис. 3 ниже. Лишний раз напомним, что далеко не всегда самые популярные системы автоматически являются самыми качественными.

 

Рис. 3 десятка лидеров поисковых систем

 

Переходя к рассмотрению разновидностей метапоисковиков, перечислим наиболее известные и уже классические из них. Большинство из них имеет очень длинную историю и хорошо известны пользователям интернета со стажем, но в силу их принципиально одинакового устройства нет смысла сильно останавливаться на каждом из них в отдельности:

 

Рис. 4 Схема метопоисковика старой школы

 

К ним относятся:

              Dogpile

              IxQuick

              MetaCrawler

              MetaSearch

              MetaEureka

              Search.com

              WebCrawler

              WindSeek

              Vivissimo

              ZapMeta

              Draze

Все отличия, как правило, сводятся лишь к различным интерфейсным решениям, поэтому тут лучше самостоятельно подобрать себе что-то наиболее соответствующее именно вашему вкусу.

Главной особенностью метопоисковиков новой школы является использование кластеринга (clustering). Кластеринг технически реализуется в самых разных формах, но чаще всего он автоматически выделяет ключевые темы или слова вашего поиска, кроме традиционной выдачи, дополнительно создавая облако тематических тегов или предоставляя уже готовый набор ключевых запросов вокруг вашей темы, которые позволяют при желании ещё больше уточнить ваш последующий поиск.

Второй типичной чертой современных поисковых метасистем является выраженная стадия постобработки полученных результатов. Как правило, сразу после получения суммы всех результатов происходит самостоятельное ранжирование всех описаний полученных документов, на втором этапе их выдача дополнительно анализируется и корректируется с учетом места, на котором находится каждый документ в каждой составляющей поисковой выдачи, и общему количеству аналогичных документов, найденных по этому запросу в других ПС (т.е. выдачи доноров сами являются предметом ранжирования и активного анализа со стороны метапоиска).

 

Рис. 5 Схема метопоисковиков новой школы

 

Приведем список подобных систем, из которых каждый сможет выбрать себе наиболее удобную систему:

              Clusty

              Izito

              Kartoo

              KillerInfo

              Mooter

              WebClust

 

Перечислим пару страниц для примера поиска «Все в одном». Говоря строго технически, эти метастраницы не являются полноценными метапоисковиками, но поскольку их часто всё равно относят к этой категории, давайте приведем их для примера:

              AllSearches

              iTools

              Searchalot

              AdClick.ru

 

 

 

 

 

 

 

Глава 2. Планирование поисковой процедуры.

Грамотное планирование поисковой процедуры является наиболее серьезным фактором, определяющим, насколько быстро поисковик приходит к цели. При планировании основным является правильный выбор:

           типа ресурсов, которые потенциально способны нести информацию, релевантную поисковой задаче;

           инструментов поиска, обслуживающих соответствующее информационное поле, в зависимости от их предполагаемой результативности.

Независимо от характера задачи, непродуманное переход от одного поискового сервиса к другому существенно увеличивает время получения результата

Этапы планирования поиска:

           проведение всестороннего лексического анализа искомой информации. Следует получить из любого достоверного источника подробное и грамотное описание исследуемого вопроса. Это может быть специализированный справочник или электронная энциклопедия общего профиля;

           сформировать максимально широкий набор ключевых слов в виде отдельных терминов, словосочетаний, а при необходимости и на нескольких языках;

           заранее предусмотреть возможные условия уточнения поискового запроса – редких (легких) слов, названий или фамилий, тесно связанных с проблемой, поиск с расстоянием;

           предусмотреть возможность уточнения поискового запроса при помощи редких слова, названий или фамилий, тесно связанных c проблемой;

           желательно заранее определить, какие из выбранных терминов могут привнести в результаты поиска нерелевантные документы;

           после накопления таких знаний можно перейти к получению предварительной информации из Сети. Основная задача этой фазы работы - определить особенности проблемы поиска данной информации с помощью Интернет, который является не только носителем технологий, но и собственных традиций, и собственной этики. Сетевая лексика, сленг и написание общеупотребительных слов здесь могут отличаться от общепринятых;

           после лексического анализа информации наступает технологический этап. Выбор информационного поля Сети и поисковых инструментов производится на основе подходов, изложенных ранее;

           после проведения лексического анализа информации следует перейти к подготовке текстовых запросов из 2-3 ключевых слов или отдельной фразы;

           после получения отклика следует провести анализ количественного объема полученной информации (количественного отклика). На этом этапе могут применяться и метапоисковые, и крупные автономные системы;

           на основании содержательного анализа данных следует откорректировать запрос по релевантности отклика. Для этого рекомендуется применять метапоисковые системы;

           из результатов анализа определить наиболее ценные источники информации и уточнить последовательность применения поисковых инструментов.

В результате тестирования выясняются наиболее представительные источники информации, после чего следует уточнить последовательность применения поисковых инструментов. На этом этап планирования завершается.

Необходимо отметить, что для задачи сбора информации из Сети сегодня заметно возрастает роль региональных и специализированных поисковых сервисов. Использование глобальных индексов не для прямого поиска нужных сведений, а для локализации этих поисковых инструментов нередко позволяет в сжатые сроки значительно ускорить процесс поиска.

Поиск с расстоянием – поиск, при котором пользователь указывает, на каком расстоянии между собой должны располагаться ключевые слова в документе.

 

 

 

 

 

Глава 3. Описание технологии поиска информации в сети Internet с помощью различных ИПС

 

Приемы работы, используемые при работе с теми или другими поисковыми инструментами, практически одинаковы.

Схема поиска информации проста. Пользователь набирает ключевую фразу и активизирует поиск, тем самым получает подборку документов по сформулированному (заданному) запросу. Этот список документов ранжируется по определенным критериям так, чтобы вверху списка оказались те документы, которые наиболее соответствуют запросу пользователя. Каждый из поисковых инструментов использует различные критерии ранжирования документов, как при анализе результатов поиска, так и при формировании индекса (наполнении индексной базы данных web-страниц).

Таким образом, если указать в строке поиска для каждого поискового инструмента одинаковой конструкции запрос, можно получить различные результаты поиска. Для пользователя имеет большое значение, какие документы окажутся в первых двух-трех десятках документов по результатам поиска и насколько эти документы соответствуют ожиданиям пользователя.

Большинство поисковых инструментов предлагают два способа поиска – simple search (простой поиск) и advanced search (расширенный поиск) с использованием специальной формы запроса и без нее.

Используйте возможности разных поисковых систем. Если не нашли на Яndex, попробуйте на Google. Пользуйтесь услугами расширенного поиска.

эффективности и точности поиска, используйте комбинации этих символов.

Поисковые системы не производят самостоятельную информацию. Поисковая система – это лишь посредник между обладателем информации (сайтом) и Вами. Базы данных постоянно обновляются, в них вносятся новые адреса, но отставание от реально существующей в мире информации все равно остается. Просто потому, что поисковые системы не работают со скоростью света.

К наиболее известным машинам веб-поиска относятся Google, Yahoo, Alta Vista, Excite, Hot Bot, Lycos. Среди русскоязычных можно выделить Яndex, Rambler, Апорт.

3.1     Технология поиска информации в ИПС Yandex

Яндекс - На сегодня наиболее популярная поисковая система, ежемесячно к ней обращаются более 35 миллионов пользователей Русскоязычной части Интернета.

Поисковая машина Яндекса отвечает на вопросы пользователей, находя нужные документы в интернете. Яндекс ищет по поисковому индексу — базе данных, где для всех слов, которые есть на известных поиску сайтах, указано их местонахождение — адрес страницы и место на ней. 

Подготовка данных, по которым ищет поисковая машина, называется индексированием. Специальная компьютерная система — поисковый робот регулярно обходит интернет, выкачивает документы и обрабатывает их.

У Яндекса два поисковых робота — основной и быстрый (он называется Orange). Основной робот индексирует интернет в целом, а Orange отвечает за то, чтобы в поиске можно было найти самые свежие документы, которые появились минуты или даже секунды назад.
Обработка запроса  при анализе запроса система решает, по каким словам и словоформам нужно искать анализируя вопрос пользователя, система определяет язык запроса, проводит морфологический разбор каждого слова, выбирает нужные для поиска словоформы и отсекает лишние.

Поисковая система должна расположить найденные страницы в нужном порядке — так, чтобы сверху оказались наиболее подходящие пользователю (наиболее релевантные). Этот процесс — упорядочивание результатов поиска в соответствии с запросом пользователя — называется ранжированием.

Кроме факторов ранжирования поисковой системе необходимы образцы — запросы и страницы, которые люди считают подходящими ответами на эти запросы. Оценкой того, насколько та или иная страница подходит для ответа на тот или иной запрос, занимаются специалисты — асессоры.

Страница результатов поиска — это ответ Яндекса на вопрос, который пользователь задал в поисковой строке. Результаты поиска по интернету — это ссылки на найденные документы с краткой информацией о них. Информация подбирается так, чтобы помочь пользователю понять — какой из ответов подходит ему лучше всего.

Для заголовка результата поиска Яндекс чаще всего использует заголовок самого документа. Если он слишком длинный, Яндекс выбирает фрагмент, который больше всего подходит по смыслу к заданному запросу.
Результат поиска оформляется так, чтобы пользователю было легче его воспринимать. Заголовки выделены синим цветом и подчеркнуты — так на веб-страницах традиционно выделяются ссылки. Узнать знакомый ресурс помогает фавиконка — небольшой фирменный значок сайта — слева от заголовка результата поиска.

Поиск по картинкам нужен в тех случаях, когда лучше увидеть, чем прочитать. Яндекс ищет картинки через так или иначе связанный с ними текст.

 

3.2. Технология поиска информации в ИПС Google

Задолго до того как пользователь вводит запрос в поле поиска, Google просматривает доступные в Интернете веб-сайты, используя для этого программы, называемые поисковыми роботами или роботами Googlebot. Поисковый робот заходит на страницу, копирует ее содержимое и переходит по ссылкам, содержащимся на этой странице. После этого процесс повторяется снова и снова, пока количество страниц, просмотренных поисковыми роботами, не достигает нескольких миллиардов.

Затем Google обрабатывает просмотренные страницы и создает индекс, подобный предметному указателю в конце справочника.. Индекс разбивается на управляемые разделы и хранится в нашей сети, которая состоит из многочисленных компьютеров по всему миру.

Когда пользователь вводит запрос в поле поиска на сайте Google, этот запрос передается на серверы Google, и система сопоставляет его с документами, содержащимися в индексе, чтобы выявить наиболее точные соответствия. За считанные доли секунды она составляет список самых близких по содержанию страниц, а также определяет релевантные разделы и фрагменты текста, изображения, видео и другие данные. В итоге пользователь получает список результатов поиска, под каждым из которых находится короткий фрагмент текста с соответствующей страницы.

3.3. Технология поиска информации в ИПС Aport

Апорт – старейший отечественный поисковик, запущенный в 1997 году компанией «Агама». До 2000-х годов оставался лидирующей поисковой системой, но после попыток модернизации поиска во второй половине 200-х уступил позицию своим конкурентам. 22 августа Апорт перешел на поиск Яндекса. Владелец апорта сообщил, что не видит перспективы развития поисковой системы в дальнейшем и не планирует тратиться на развитие.

 

Глава 4. Сравнительный анализ, использованных при поиске ИПС по различным критериям

В главе 4 мы произвели сравнительный анализ поисковых систем

Yandex, google, yahoo!, aport, Bing.

При повторении одного и того же запроса по ключевым словам в пяти разных поисковых системах, сравнили результаты поиска, которые приведены ниже в таблице (таблица 1) результатов.

Для неформальной оценки результатов, изучили первые 10 ссылок и присвоили оценку каждой ссылке от 0 до 3. (0-не имеет отношение к заданному вопросу, 1- мало полезная, 2- полезная, 3- крайне полезная), а так же сравнили результаты поиска обычным поиском (о) и расширенным (р) Просуммировали результаты.

Yandex

Google

Yahoo!

Aport

Bing

о

р

о

р

о

р

о

р

о

р

1

1

1

1

1

1

1

1

1

2

2

2

1

1

1

1

2

2

2

2

2

2

3

2

3

3

3

1

1

3

3

1

1

4

3

3

3

3

2

2

3

3

2

2

5

3

3

3

3

3

3

3

2

2

2

6

3

3

2

3

3

3

2

3

3

3

7

1

2

3

3

0

2

1

2

0

0

8

2

2

3

3

3

3

3

3

2

2

9

2

2

2

2

1

1

2

2

3

2

10

3

3

2

3

3

3

2

3

3

3

Итог

18

23

23

25

19

21

22

24

17

19

 

Таблица 1. Результаты сравнительного анализа

Наиболее результативной системой по нашим расчетам оказалась Google. Он быстр и прост в использовании и имеет огромную базу данных.

На втором месте по результативности вышла русская ПС Aport. Список результатов содержит сведения об адресе, дате опубликования и последней проверке документа. Положительным моментом является то, что найденные ключевые слова выводятся в окружающем контексте из любой части документа, а не только из его начала, что позволяет точно определить соответствие страницы запросу уже на этапе просмотра ссылок.

Третье место заняла ПС Yahoo! Так же обладает достаточным быстродействием

На четвертом месте Yandex Поиск Яндекса позволяет искать документы на различных языках с учётом морфологии этих языков и близости слов в предложении.

Пятое место заняла ПС Bing. Данная система обладает возможностью просмотра результатов поиска на одной странице.

По результатам использования расширенного поиска:

1 место – Google

2 место – Aport

3 место – Yandex

4 место – Yahoo!

5 место Bing

При проведении сравнительного анализа поиска информации с использованием «грубого» поиска по ключевым словам и утонченного (интеллектуального) поиска с использованием языка запросов ИПС

Первое место заняла ПС Google, второе –Aport, третье – Yandex, четвертое – Yahoo! и последнее Bing.

Yandex

Google

Yahoo!

Aport

Bing

1

1

1

1

1

2

2

1

1

2

2

2

3

3

3

1

3

1

4

3

3

2

3

2

5

3

3

3

2

2

6

3

3

3

3

3

7

2

3

2

2

0

8

2

3

3

3

2

9

2

2

1

2

2

10

3

3

3

3

3

Итог

23

25

21

24

19

 

 

 

 

 

 

При проведении сравнительного анализа поиска информации по пяти поисковым системам мы получили следующие результаты:

 

1)                Google

2)                Aport

3)                Yandex / Yahoo!

4)                Bing

Данный анализ является субъективным и не может являться заключительным. У каждой поисковой системы есть свои положительные и отрицательные стороны. Для поиска необходимой информации лучше пользоваться несколькими поисковыми системами для того что бы  получить более объективные результаты.

 

 

 

 

 

 

 

 

 

 

 

 

Библиографический список
 

1.     http://www.ru/rus/index.php каталог ресурсов о России в Internet

2.     http://www.informika.ru/ - официальный сервер Минобразования России, содержит ссылки на информационные ресурсы системы высшего профессионального образования Российской Федерации

3.     category/shpargalki/meta-search/ ресурс по метопоисковым системам

4.     electronic_manuals/pospd/text/4_5.htm Организация поиска информации в сети Интернет

5.     Крейнек Д. Интенрнет. Энциклопедия. – С-ПБ.: Питер, 2009.

6.     Алифанов Е. Путеводитель по Internet . – Новосибирск: ТЕР, 2009.

7.     Хан Х. Желтые страницы Интерент  (международные ресурсы). - С-ПБ.: Питер, 2008.

8.     Резников Ф. Осваиваем работу в сети Internet. – М.: Лучшие книги, 2010.

 

 

 

 

 

 

 

 

 

 

 

 

 

Информация о работе Метопоисковые системы. Понятие, назначение, обзор и сравнение существующих систем