Автор работы: Пользователь скрыл имя, 13 Сентября 2009 в 14:54, Не определен
В данной работе описана история развития и структура ПС, произведён сравнительный обзор и классификация таких поисковых систем как Google, Yandex, Rambler, Aport, MSN search, Yahoo и многие другие. Выделены преимущества и недостатки, произведён анализ работы и построена модель "идеальной" ПС
Учреждение образования
«Брестский
государственный Университет
математический факультет
кафедра
информатики и прикладной математики
Курсовая работа
Сравнительный
обзор
современных поисковых
систем
Брест, 2008
Первые поисковые системы появились в сети Интернет более десяти лет назад. Тогда они выполняли лишь одну функцию – поиска ссылок к недавно созданным страницам.
На начальном
этапе развития интернета, число
пользователей сети было невелико и
количество информации относительно небольшим.
В подавляющем большинстве
Одной из первых попыток организации доступа к информационным ресурсам сети стало создание тематических каталогов сайтов. Первым, открывшимся в апреле 1994 г, стал Yahoo. Это еще не было поисковой системой, в современном понимании, т.к. возможность поиска информации ограничивалась ресурсами, зарегистрированными в каталоге Yahoo. Каталоги ссылок ранее использовались довольно широко, но в настоящее время практически утратили свою популярность. Объяснение этому очень простое – даже современные, содержащие огромное количество ресурсов каталоги, представляют информацию лишь о довольно незначительной части сети. Для сравнения - самый полный каталог сети интернет - DMOZ содержит информацию примерно о 12.000.000 ресурсов, в то время как база данных самой полной поисковой системы Google состоит более чем из 28.000.000.000 документов.
Первой полноценной поисковой системой в 1994г. стал проект WebCrawler. Далее в 1995 году появились поисковые системы AltaVista и Lycos. В 1997 году в Стэнфордском университете, в рамках исследовательского проекта, была создана Google - самая популярная поисковая система на данный момент в мире. В 1997 году появилась поисковая система - Yandex, лидер в русскоязычной части Интернета. На данный момент основными поисковыми системами являются три международных – Google, Yahoo и MSN Search. Остальные, коих не мало, используют целиком или частично базы и (или) алгоритмы выше приведенных систем. В Рунете основной поисковой системой является Яндекс, далее по популярности идут Rambler, Google.ru, Mail.ru и Aport.
Поисковая система - это сумма следующих компонентов:
Web server (веб-сервер) – сервер поисковой машины, который осуществляет взаимодействие между пользователем и остальными компонентами системы.
Spider (паук)-
программа написанная по
Crawler («путешествующий»
паук) – программа, которая
Indexer (индексатор)
- программа-анализатор
Database (база данных) – хранилище для скачанных и обработанных страниц - общая база данных поисковой машины.
Search
engine results engine (система выдачи результатов)
– извлекает результаты поиска из базы
данных поисковой системы. Именно она
решает, какие страницы более соответствуют
запросу пользователя и отсортировывает
их в нужном порядке. Модуль работает согласно
заданным поисковой
системой алгоритмам
ранжирования.
Доля
каждой поисковой
системе в Рунете
Русскоязычные | Англоязычные |
Яndex | |
MSN search | |
Rambler | Yahoo |
Аport | Aol |
MSN Search | Lucos |
Yahoo | Cuil |
AltaVista | Ask Jeeves |
Mail.ru | LookSmart |
Анализ
трафика – июнь 2008г.
Рейтинг
поисковых систем
в России
Количество переходов с поисковых систем
Общее
соотношение поисковых
систем в англоязычных
странах
Яndex | Rambler | |
1997г.
Служба основана на работе crawler’ов, охватывающей всю Сеть. Приоритетное место занимает релевантность результатов и их соответствие запросу. В отличие от многих поисковиков, роботы Google индексируют все страницы, а не только самые главные. Есть меню, где с легкостью сможете находить в Сети изображения, обсуждения, проходящие в группах новостей, читать новости или проводить поиск товаров. Можно получить доступ к информации из Open Directory (Открытого Каталога, DMOZ). Система долго хранит проиндексированные роботами страницы в своем кэше, что позволяет «оживлять» мертвые, удаленные с серверов страницы, или видеть старые версии только что обновленных страниц. Система предоставляет отличную проверку правописания, легкий доступ к словарным определениям, просмотр биржевых ставок, дорожные атласы, базы номеров телефонов и многое другое. Программа AdWords размещает рекламные объявления на сайтах Google и его партнеров. Также Google является бесплатным поставщиком результатов поисковых запросов некоторых других поисковых систем. |
1997г.
В системе производится поиск с учетом морфологии русского языка, поиск с учетом расстояния, и тщательно разработанный алгоритм оценки релевантности. Реализован естественно-языковой запрос: теперь поисковик можно спрашивать «по-русски», задавая длинные вопросы. Например: «где купить холодильник». Поисковый робот позволяет предоставить возможности поиска по разным зонам текста, ограничение поиска на группу сайтов, поиск по ссылкам и изображениям. Существует «индекс цитирования» - количество сайтов, ссылающихся на данный ресурс. Работает фильтрация результатов поиска от мата и порнографии. Службы: почта, новости, открытки и закладки, автоматическое объединение новостей в сюжеты и выделение главных тем дня. Плюс, стилизованный под Google Toolbar, спартанский поисковик ya.ru. Поиск теперь ведется не только по веб-страницам, но и по специализированным массивам данных – новостям и товарам. Находит документы не только в формате HTML. |
1996г.
Система работает с большой скоростью поиска, обновление поискового индекса происходит несколько раз в день. Поисковик всегда находит самые свежие документы и последние новости. Rambler знаком с русским языком, понимает термины типа «б/у», «у.е.» и «а/я». Услуги: строка поиска, почта и новости. Особенность - механизм ассоциаций. Помимо стандартной ответной страницы, в которой найденные документы расположены в порядке убывания релевантности, появляется строка - «У нас также ищут». В ней приведены слова и словосочетания тематически связанные с запросом. Новый механизм также исправляет ошибки запросов. На введенное gjujlf пользователь получит теперь положительный результат: сведения о погоде (gjujlf – это слово «погода» набранное латиницей). Rambler Mass Media - первый и по-прежнему лидирующий на рынке информационный дайджест. Помимо текстовых материалов и фоторепортажей, ставших визитной карточкой проекта, Rambler Mass Media представляет пользователям аудио и видеосюжеты. |
Aport | MSN Search | Yahoo! |
1996г.
Продолжает работать под управлением OC Windows. К важным свойствам первой версии поисковой системы Апорт можно отнести перевод запроса и ответа на английский язык и обратно. Второе свойство – реконструкция проиндексированных страниц из собственной базы. Это дает возможность просмотра уже несуществующих страниц. Система построена на основе выдачи результатов по отдельно взятым сайтам. Для разделения ресурсов на сайты Апорт использует информацию, которую предоставляет каталог AtRus, или владельцы ресурсов. В поисковой системе Aport впервые была реализована возможность поиска по новостным лентам. |
1994г.
Ранее у MSN никогда не было собственного паука или каталога. С 1997 года для выдачи результатов поиска использовались разные базы данных. Только с начала 2005 года MSN запустил бета-версию собственного поискового алгоритма. Система МSN особенно важна, т.к. именно этот поисковик по умолчанию используется, когда пользователи Internet Explorer'а вводят в адресную строку поисковый запрос. Локализована примерно для 30 стран, таких как: Великобритания, Дания, Бельгия, Новая Зеландия, Япония и др. Также эта система предоставляет пользователям возможность сортировать результаты поиска: по дате, по алфавиту, по релевантности. |
1995г.
На сегодняшний день это самый старый и наиболее полный каталог Интернет-ресурсов. Система зародилась как простая коллекция закладок, которую пополняли всего 2 человека - Дэвид Фило и Джерри Янг. Вдобавок к релевантной выдаче результатов поисковых запросов Yahoo предлагает возможность использовать ярлыки над поисковой формой на своей главной странице для поиска изображений, товаров или перехода на Желтые Страницы Yahoo. Можно производить поиск по каталогу Yahoo. Есть панель для браузера Firefox. Для хранения почты система предлагает 1 гигабайт бесплатного места или 2 по годовому абонементу. Yahoo продает место на сайте для рекламных ссылок; продажа ведется через программу Overture. Система учитывает орфографические ошибки, позволяет искать слово лишь по первым буквам. |
AltaVista | Teoma | LookSmart |
1995г.
Особенность этого
поисковика заключается в Обеспечение поддержки множества языков (Китайский, Японский, Корейский). Содержит услуги по индексации больших объемов информации и возможность мгновенного поиска в огромных базах данных. Есть схема «спонсорских» сайтов. Осуществляет разработку корпоративных поисковых систем внутреннего пользования. Лицензирует технологии поиска предприятиям, в том числе для использования во внутренних сетях. Она пользуется каталогами Yahoo, и ярлыки над поисковой строкой позволяют находить в сети изображения, музыку, видео, а также тематические разделы, наполненные вручную. Если вы хотите получать информацию не менее надежную чем от Yahoo, но поставляемую через более простой интерфейс – AltaVista ваш выбор. |
2001г.
Поисковая система, основанная на работе crawlerов (с англ. пауков" - специальных программных роботов, сканирующих Интернет в поисках информации, которая затем заносится в базу данных), принадлежащих Ask Jeeves. Большая релевантность поиска, встроенная система проверки правописания запросов, динамические описания страниц, появляющиеся рядом с результатами поиска. Запросы можно вводить на десяти европейских языках. В баз данных поисковика проиндексированы свыше миллиарда уникальных страниц. Существует возможность уточнения запроса в тематических топиках, ссылки на которые выдаются на странице с результатами поиска. Раздел «Ресурсы», также находящийся на странице результатов, в свою очередь уникален тем, что перенаправляет пользователя на сайты, которые послужили исходным материалом для приведенных в качестве результатов статей. |
1995г.
LookSmart – это интернет-компания, имеющая свой интернет-каталог и механизм поиска Wisenut. LookSmart - это, в первую очередь, вручную пополняемый перечень сайтов. Он получает списки двумя путями. Во-первых, коммерческие сайты платят за место в торговых топах, уподобляя LookSmart электронным Желтым Страницам. Во-вторых, существуют добровольцы, которые заносят сайты с некоммерческим содержанием в каталог www.zeal.com, принадлежащий LookSmart. Хотя это и отдельный сайт, списки, находящиеся на нем, используются при обработке поисковых запросов LookSmart. Изюминка LookSmart – это возможность доступа к сотням периодических изданий через один из ярлыков над строкой поиска. Содержит службу Furl, предназначенную для архивирования веб-страниц и ссылок на них. Для архива страниц пользователя предоставляется 5 Гб свободного пространства. Запустила систему вертикального поиска из 161 сайта. |
Scirus | GigaBlast | Aol Search |
2001г.
Специализированная поисковая система научной и околонаучной информации. Scirus использует около 200 миллионов страниц научной тематики и отфильтровывает результаты ненаучного содержания, которые по релевантности в какой-то степени соответствуют запросу. Стартовая страница Scirus радует своей непритязательностью – там только Вы и строка запроса. Если Вы не очень сведущи в научных терминах, Scirus помогает ввести корректный запрос для лучшего поиска. Это лучшая из научных специализированных поисковых систем. Она предоставляет информацию конкретного направления, помогает в составлении запросов и использовании терминов, а кроме того Scirus находит информацию, которая может быть недоступна в случае использования других поисковых машин. |
2000г.
Поисковая система
с более чем двух миллиардным
количеством индексированных Система использует обычный прямой поиск - Соответствие результатов довольно высоко, кроме того, GigaBlast проводит проверку правописания. Поддерживает запросы в буквальной форме («Почему трава зеленая?»). Проводит проверку правописания. В расширенном поиске GigaBlast.com можно искать по точной фразе, ставить исключение на слово, искать на определенном адресе и т.д. Все стандартно. В целом GigaBlast является удобной машиной поиска с высоко релевантными результатами. |
1985г.
Огромный портал, на котором можно найти все, начиная с игр и заканчивая форумами самой различной тематики + простота навигации и хорошо запоминающееся название обозначающие America Online. AOLbyPHONE – Сервис позволяет получать заказанную ранее информацию по телефону. AOLSchool – сервис для школьников. DigitalCity – проект виртуального города. AOL Anywhere – сервис позволяет получить доступ с любого мобильного устройства к контенту America Online. AOL Search предоставляет
пользователям страницы с |
Blink TV | Infoseek | Mail.ru |
2004г.
Машина поиска, позволяющая находить в интернете аудио и видео файлы, используя не только ключевые слова и фразы, но и фактическое содержание аудио и видеоклипов. Можно вносить поправки в поиск, например, по дате (если ищете материал за определенный период времени) и по релевантности (если хотите получить результаты, наиболее соответствующие тому, что Вы ищете). Есть Smart папки – это папки, содержимое которых автоматически пополняется из интернет источников без участия пользователя. Они формируются из результатов поиска по вашему запросу. Использование Blinkx TV достаточно просто и удобно (единственное требование – это высокоскоростная связь с Интернетом). |
1994г.
В этой системе индекс создает робот, но он индексирует не весь сайт, а только указанную страницу. Имеется возможность указания ключевых фраз, представляющих собой единое целое, вплоть до порядка слов. Ранжирование при выдаче осуществляется по числу терминов запроса в документе, по числу фраз запроса за вычетом общих слов. Все эти факторы используются как вложенные процедуры. Infoseek относится к традиционным системам с элементом взвешивания терминов при поиске, а так же позволяет проводить то, что называется контекстным поиском. Это значит, что используя специальную форму запроса, можно потребовать последовательной совместной встречаемости слов, обладает довольно развитым информационно-поисковым языком (не просто указывает, какие термины должны встречаться в документах, но и своеобразно взвешивать их). |
1997г.
Не является поисковой системой, это огромный портал со множеством сервисов. Но в сервисы mail.ru входит и поисковая система. Ведет активную борьбу со спамом и вирусами, сотрудничая по этим направлениям с создателями «Dr.Web» и «Антивирус Касперского». В 2004 году присоединилась к инициативе почтовых служб мира и начала использовать стандарт SPF в работе фильтров своих почтовых серверов. В поисковом механизме существует опция морфологии русского языка и возможность ведения истории поисковых запросов. Обзавелась двумя инновационными сервисами: доступом по протоколу IMAP и голосовой почтой - возможностью прослушивания содержимого ящика по сотовому телефону. К порталу Mail.ru добавились такие новые сервисы как «Хостинг» и «Энциклопедии». |
Lucos | NetScape Search | Ask Jeeves |
1945г.
Система предоставляет доступ к результатам, собранным вручную из LookSmart по результатам наиболее частых запросов, а также из Yahoo на основе индексов сайтов, составленных роботами. Система Fast Forward позволяет видеть на одной стороне экрана результаты поиска, а на другой – первые страницы найденных сайтов. Релевантные запросу категории из каталога, собранного вручную, показываются вверху страницы с результатами поиска. |
1994г.
Система пользуется индексной базой Google, как и основной поисковый сайт AOL – AOL Search. Основное отличие Netscape Search от Google в том, что Netscape Search в первую очередь будет производить поиск по собственной базе и выводить эти результаты первыми. Есть разница и в дизайне. |
1998г.
Прославилась как поисковая машина, понимающая «естественную речь» - в поисковую строку вводится предложение в вопросительной форме, и система адекватно отвечает на него. В настоящее время Ask Jeeves работает на основе технологии crawlerов, обрабатывая запросы, поступающие в поисковую систему Teoma. |
Cuil | Alexa Internet | HotBot |
2007г.
Создана выходцами Google. Отличительная черта – большой объем обрабатываемых страниц. Понимает запросы только на английском языке. |
1996г.
Крупнейшая поисковая система, предоставляющая также интернет статистику о трафике web сайтов. Сегодня Alexa – это машина поиска, использующая базы данных двух гигантов мирового интернет поиска: Google и каталог DMOZ. |
1996г.
HotBot предоставляет
простой доступ к трем |
Google (www. google.ru) |
По статистике является самой популярной поисковой системой в мире. Основатели
Google - аспиранты Стэнфордского Каждый запрос возвращал вам около тысячи результатов, отсортированных в случайном порядке". Именно релевантность результатов, их соответствие запросу, была поставлена во главу угла новой системы. Помимо просто поиска, здесь можно сравнивать цены на товары в интернет-магазинах, читать новости и многое другое. Есть и служба блокировки назойливой интернет-рекламы. Google первым
применил новую технологию Лидерство Google никто не может оспорить. Акции компании за 2005 год выросли почти в два с половиной раза. Поисковый трафик за тот же период вырос примерно на 30%. Коммерческое
использование Google запущен в 2000
году и благодаря своему Объем проиндексированных страниц более 10 миллиардов! Справка: ... на сегодняшний день, благодаря дистрибьюторским соглашениям с Yahoo, AOL и Ask Jeeves, Google ежедневно обрабатывает до 80% всех поисковых запросов, сделанных в интернете. Для сравнения. Яндекс в настощее время имеет в день 600 тысяч посетителей в день, количество компьютеров 40 единиц, проиндексировано 15 миллионов страниц. Google - лидер в списке самых популярных поисковиков. В результате исследования, проведенного компанией comScore, выяснилось, что Google - самая популярная из поисковых систем в США. В августе этот поисковик обработал 63% поисковых запросов, что на 1,1% превышает показатели июля. На втором месте оказалась поисковая система Yahoo, обработавшая 19,6% запросов (20,5% в июле), а на третьем - Microsoft (доля обработанных запросов - 8,3%). Замыкают пятерку самых популярных поисковиков Ask.com - 4,8% (доля обработанных запросов возросла на 0,3%) и AOL - 4,3% (рост - 0,1%). Первое место занял Google (41,3 млрд. поисковых запросов; 62,4% рынка), второе — Yahoo! (8,5 млрд. запросов; 12,8% рынка) и китайский поисковик Baidu.com (3,4 млрд. запросов; 5,2% рынка). |
Яndex (www.yandex.ru) |
Поисковик Yandex появился 23 сентября 1997 г. Разработчик, компания CompTek, представила новую поисковую систему на выставке Softool. Ранее эта компания занималась производством информационно-поисковых Основными нововведениями поисковой системы www.yandex.ru были: проверка уникальности документа – этим достигалось исключение копий в различных кодировках. И отличительные свойства поискового алгоритма Yandex. Поиск с учетом морфологии русского языка, поиск с учетом расстояния, и тщательно разработанный алгоритм оценки релевантности. Несколько месяцев спустя, в поисковой системе www.yandex.ruбыл реализован естественно-языковой запрос. Теперь поисковик можно спрашивать «по-русски», задавая длинные вопросы. Например: «где купить холодильник» или «генетически модифицированные продукты». В 1998-99гг. вместе с ростом Рунета выросли и услуги поисковой системы Yandex. Увеличение количества запросов привело к необходимости оптимизации поискового механизма. Новый поисковый робот позволил предоставить возможности поиска по разным зонам текста, ограничение поиска на группу сайтов, поиск по ссылкам и изображениям. Также, впервые в Рунете, было введено понятие «индекс цитирования» - количество сайтов, ссылающихся на данный ресурс. Был открыт «Семейный www.yandex.ru», фильтрация результатов поиска от мата и порнографии. В 2000 году поисковая система Yandex была преобразована в юридическое лицо. Тогда же начинается активное продвижение поисковика в традиционных, оффлайновых СМИ. Агрессивная, но эффективная рекламная кампания принесла свои плоды – слоган «Найдется все», некоторое время спустя, становится нарицательным. Для привлеченных рекламой пользователей поисковая система www.yandex.ru открывает новые службы – почта, новости, открытки и закладки. Плюс, стилизованный под Google Toolbar, спартанский поисковик ya.ru. Поиск теперь ведется не только по веб-страницам, но и по специализированным массивам данных – новостям и товарам. 2003 год - поисковая система Yandex продолжает развиваться. Яндекс научился находить документы не только в формате HTML. Служба Yandex Новости радикально преобразилась: пользователям предложен оригинальный сервис – автоматическое объединение новостей в сюжеты и выделение главных тем дня. На сегодняшний день www.yandex.ru- крупнейший российский портал: его доля среди поисковых машин Рунета составляет около 45%, в то время как идущий следом Rambler может похвастаться лишь 22%. Каждый день более 500 серверов компании отдают 2.7 терабайт трафика двум с половиной миллионам посетителей. “Яндекс” вошел в топ-10 поисковых машин. Согласно отчету, опубликованному компанией comScore, поисковая система Яндекс попала в десятку самых популярных поисковиков в мире по результатам декабря прошлого года. Согласно представленному отчету, в декабре было сделано 66,2 млрд. поисковых запросов. 566 миллионов из них были заданы Яндексу, что позволило сервису занять 9-е место в списке поисковиков. Доля Яндекса на мировом рынке поисковых сервисов составила 0,9%. |
Информация о работе Сравнительный обзор современных поисковых систем