Сравнительный обзор современных поисковых систем

Автор работы: Пользователь скрыл имя, 13 Сентября 2009 в 14:54, Не определен

Описание работы

В данной работе описана история развития и структура ПС, произведён сравнительный обзор и классификация таких поисковых систем как Google, Yandex, Rambler, Aport, MSN search, Yahoo и многие другие. Выделены преимущества и недостатки, произведён анализ работы и построена модель "идеальной" ПС

Файлы: 1 файл

Сравнительный обзор современных поисковых систем.doc

— 1.65 Мб (Скачать файл)
 

 

Rambler (www.rambler.ru)
 
Rambler – первая поисковая система  русского Интернета, появилась  на свет в 1996 году. Ее создатели,  группа «Стек» из подмосковного  Пущино, начинали с создания локальной  городской сети, и подключения  к Интернету. В 1992 году «Стек» запускает собственные ftp- и mail-серверы. Следующим шагом к светлому будущему, стало создание поисковой системы. Дмитрий Крюков и Сергей Лысаков начали с того что дали проекту название «Rambler». Им понравилось значение этого слова «скиталец, бродяга», выражающее саму суть поисковика. К осени 1996 года, окончательный вариант поисковой системы был готов, а 8 октября «Rambler» был запущен.

Еще год  система отлаживалась, к чести  создателей поисковик не работал  всего одни сутки – сгорели жесткие диски. Существовавшие на то время в Рунете две – три поисковых системы не выдержали конкуренции и «канули в Лету».

Весной 1997 года появляется уникальный рейтинг-классификатор Rambler’s Top –100, который не только оценивал популярность российских ресурсов, но и позволял одним кликом попасть на них. Rambler’s Top –100 быстро стал универсальным барометром сети, общим стандартом медиаизмерений.

Следующий шаг в развитии поисковой системы Rambler произошел в июне 2003 года. Компания запустила новую версию поисковой машины, которая отличается от предыдущей по двум основным параметрам. Первое и главное – значительно увеличилась скорость поиска; второе, благодаря новой архитектуре системы, обновление поискового индекса происходит несколько раз в день.

Теперь поисковик всегда находит самые свежие документы и последние новости. Рамблер знаком с русским языком, понимает термины типа «б/у», «у.е.» и «а/я». Как дань моде, открылась лаконичная версия поисковой системы по адресу «r0.ru». Содержание ее стандартно – строка поиска, почта и новости.

Еще одна уникальная особенность поисковика Rambler, это механизм ассоциаций. Помимо стандартной ответной страницы, в  которой найденные документы  расположены в порядке убывания релевантности, появляется строка - «У нас также ищут». В ней приведены слова и словосочетания тематически связанные с запросом. Новый механизм также исправляет ошибки запросов. На введенное gjujlf пользователь получит теперь положительный результат: сведения о погоде (gjujlf – это слово «погода» набранное латиницей).

Необходимо  отметить проекты Rambler-Группы и Rambler-Фото. Оба этих проекта предоставляют  пользователям сети возможность  использования заложенных в проекты  программных алгоритмах в собственных  целях. Проект Rambler-Группы дает людям  возможность начинать обсуждения самых разных тем, которые существуют не только в виде форумов, но также и в виде открытых списков рассылки. Проект Rambler-Фото представляет пользователям сети возможность создания фотоальбомов в объеме до 20 мегабайт, причем это дисковое пространство зарегистрированные пользователи поисковой системы Rambler получают в дополнение к тем мегабайтам почты, на которые они могут претендовать по новым условиям e-mail обслуживания (15 мегабайт).

Rambler Mass Media - первый и по-прежнему лидирующий на рынке информационный дайджест. Помимо текстовых материалов и фоторепортажей, ставших визитной карточкой проекта, Rambler Mass Media представляет пользователям аудио и видеосюжеты. В числе поставщиков - ВГТРК и BBC, Deutsche Welle, радио "Маяк" и др. Заголовки важнейших новостей размещаются на первой странице портала Rambler.ru и в блоке "Главные новости дня" на главной странице Rambler Mass Media. Наиболее актуальные новости могут читать и посетители других сервисов Рамблера - Рамблер Почты, Погоды на Рамблере.

 

 

Aport (www.aport.ru)
 
Поисковая система Апорт впервые была презентована на пресс-конференции компании «Агама»  в феврале 1996 года. Тогда система  работала только по сайту russia.agama.com. К  моменту официальной презентации, 11 ноября 1997 года, в поисковой системе Апорт был проиндексирован первый миллион документов, расположенных на 10 тысячах серверов. Отцом www.aport.ruстала компания «Агама» - разработчик программного обеспечения для Windows. Это отразилось и на создании поисковой системы, в отличие от большинства конкурентов Aport продолжает работать под управлением ОС Windows.

К важным свойствам первой версии поисковой  системы Апорт можно отнести  перевод запроса и ответа на английский язык и обратно. Второе свойство –  реконструкция проиндексированных страниц из собственной базы. Это дает возможность просмотра уже несуществующих страниц.

Ноябрь 1998 года – Aport продан гражданину Израиля  Джозефу Авчуку. Сумма сделки составила 55 тысяч долларов. Торговые марки  «Апорт» и «Агама» сохранились, каталогу Ау! повезло гораздо меньше. В 1999 году Авчук окончательно покупает каталог и переименовывает его в AtRus, а после и вовсе уничтожает при экспорте на сайты «Омен», «Россия он-лайн» и «Апорт».

Конец 1999 года – в поисковую систему  Апорт вложен первый миллион долларов, это позволило, некоторое время спустя, представить на компьютерных выставках «Апорт - 2000». Полностью интегрированный с AtRus; теперь Каталог – Апорт (Catalog - Aport).

Поисковая система Aport 2000 была построена на основе выдачи результатов по отдельно взятым сайтам. Для разделения ресурсов на сайты Апорт использует информацию, которую предоставляет каталог AtRus, или владельцы ресурсов.

www.aport.ru – первым из поисковых систем  Рунета реализовал базовые технологии Google. «Page rank» - характеристика популярности ресурса по формуле «обратных ссылок»: ссылки с других сайтов на данный ресурс. Причем учитывается не только количество, но и важность ссылок. Вес ссылки с популярного сайта больше, а ссылки включающие слова запроса ценятся выше, чем ссылки со словом «здесь». К тому же, при обработке запроса поисковая система Aport 2000 ориентируется на HTML – код страницы, и наличие слов запроса в URL.

Еще одна особенность - приоритет сайтам, вошедшим в высшую и элитную лиги Апорт – Каталог. В поисковой системе Aport впервые была реализована возможность поиска по новостным лентам.

Первым www.aport.ru стал использовать платную нулевую  строку в выдаче. Но на Апорт купить не нулевое, просто более высокое  место в ответной странице.

Масштабируемость в архитектуре Aport 2000 построена таким образом, что его поисковую базу можно дробить на несколько отдельных фрагментов, каждый из которых будет работать на своем компьютере. После поиска по фрагментам для пользователя рассчитывается общий ответ.

31 июля 2000 года Golden Telecom купил семейство  интернет-проектов "Агама", включающее "Апорт" и AtRus, для включения  в "Россию-он-лайн".

Май 2001 - года окончательно завершилась сделка по смене владельца "Апорт" самого "Golden Telecom", новым владельцем стал "Альфа-Банк". NASDAQ к тому времени переживал бурный спад, и шансов перепродать Интернет проекты за приемлемую сумму не было. Это обусловило решение новых хозяев "Golden Telecom" минимизировать расходы на поддержку дорогостоящих Интернет проектов.

 

MSN Search (www.msn.ru)
 
Когда-то MSN Search был одним из лучших поисковиков, но и сегодня он по-прежнему стоит  внимания. MSN Search пользовался каталогами сайтов LookSmart и получал лучшие отзывы пользователей, поскольку за проектом стояла команда редакторов, которая отслеживала наиболее частые запросы, вводимые в поисковую форму, и подбирала сайты, наиболее релевантные тематике запроса. Такая методика давала хорошие результаты.

Сегодня MSN Search ищет новые пути развития. Система  производит поиск по материалам Yahoo, но не отличается той функциональностью и многообразием параметров, которые предлагает сам Yahoo. В то же время, MSN Search разрабатывает собственные роботы и планирует другие перемены, которые должны полностью обновить систему.

(www.msn.com)

У поисковой системы МSN (msn.com) никогда не было собственного паука или каталога. С 1997 года система МSN для выдачи результатов поиска использовала разные базы данных, такие как: Yahoo!, LookSmart, Altavista, DirectHit, Inktomi и RealNames. Сейчас результаты поиска берутся из Inktomi, LookSmart, Direct Hit.

Но, все-таки, MSN.com один из самых популярных порталов Интернета. Там же есть и поисковая  система search.mns.com. Система МSN особенно важна, т.к. именно этот поисковик по умолчанию используется, когда пользователи Internet Explorer'а вводят в адресную строку поисковый запрос. Система МСН также является информационным узлом, и по данным MediaMetrix, является одним из наиболее посещаемых сайтов.

msn.com использует  базу данных Inktomi, но эта база  данных сейчас содержит более более 550 миллионов URL и не известно, какую часть использует поисковая система MSN. Известно, что из базы данных LookSmart используется около 2 миллионов URL.

Поисковая система МСН (msn.com) локализована примерно для 30 стран, таких как: Великобритания, Дания, Бельгия, Новая Зеландия, Япония и др. Также эта система предоставляет пользователям возможность сортировать результаты поиска: по дате, по алфавиту, по релевантности.

Недавно, в конце 2004 года, портал MSN.com объявил  о запуске официальной версии своего поиска, спустя два года после объявления о начале разработки собственного поисковика. Ранее продемонстрированная бета-версия поиска выкачена на всех сайтах портала и потеряла отметку "beta". По сравнению с уже знакомой бета-версией, нынешний поиск приобрел несколько новых возможностей, а в частности:

- Интеграция  с MSN Direct Answers - службы, базирующейся  на электронной Microsoft Encarta и расширенной  теперь до 1,5 миллионов статей.

- Выдача  результатов поиска в RSS-формате  - при этом существует ограничение на использование этих результатов и запрет на их использование в коммерческих целях.

- Поиск  по RSS.

Хотя  при создании поисковика MSN.com использовалось большинство принципов оптимизации, которые и в других поисковых  системах не будут сюрпризом для  большинства профессиональных участников он-лайн рынка.

В связи  с запуском поиска проведен также  редизайн всего сайта MSN.com, а на портале опубликовано обращение Билла Гейтса к пользователям. В ближайшее время MSN планирует запустить также поиск по блокам, несколько специализированных поисков (можно предположить, что это будет поиск по видеофайлам - он уже есть у Yahoo и Google) и собственную программу контекстной и поисковой рекламы. Сейчас основная масса рекламы, демонстрируемой на результатах поиска, является рекламой Overture, которая принадлежит одному из конкурентов новой системы MSN - Yahoo! Inc.

Но, поисковик уже приобрел значительное влияние и, если верить слухам, MSN Search все-таки бросил вызов Google и Yahoo в борьбе за первенство на рынке.

Yahoo! (www.yahoo.ru)
 
В 1994 году, студенты Стэндфордского университета, Джерри Янг и Дэвид Фило, готовились к защите диссертации в области компьютерного проектирования интегральных схем. Для этого им приходилось много времени проводить в сети Интернет, в поисках нужной информации и копить ссылки. Списки со ссылками росли, потом Янг и Фило забросили диссертацию и принялись исключительно коллекционировать ссылки. К середине 1994 года их стало много, они отсортировали ссылки по категориям, потом в категориях ссылок стало тоже много, появились подкатегории. Но список Джерри и Дэвида не был предназначен для всеобщего обозрения - он составлялся исключительно для друзей. Время шло, а посещаемость все росла и росла. Адрес сайта пошел по рукам.

Первым  шагом к успеху стало новое, запоминающееся название – Yahoo! Следуя пожеланиям пользователей, создатели www.Yahoo.com, стали преобразовывать сайт. Появились новые категории, и разделы «What's New» и «What's Cool». К концу 1994 Янг и Фило забросили свои диссертации и полностью отдались работе над поисковиком Яху.

В это  время на дороге появилась компания Netscape, предложившая ресурсы для содержания поисковой системы Yahoo!. В результате у Yahoo! появился свой домен - yahoo.com, и каталог переехал на 10 станций Silicon Graphics Indy. Примерно в это же время Yahoo! получил и первого инвестора - инвестиционный фонд «Seqouia Capital». Джерри и Янг обзавелись офисами и наняли энергичную команду web-серферов. Темп роста составил, в среднем, 1000 страниц в день.

12 апреля 1996 года www.Yahoo.com выпустил свои акции.  При номинальной цене в 12 долларов  за штуку к концу дня они  продавались уже по 33 доллара. Создатели Яху первыми стали применять рекламу своего ресурса в печатных СМИ и на телевидении.

Новый управляющий поисковой системы Yahoo! - Тим Кугл решил развить Яху  из простого перечня упорядоченных  линков до настоящего портала. А из финансовых новостей сделать аукционы, добавляя к ядру Yahoo.com элементы онлайнового доступа.

Следующие вложения в поисковик Yahoo! составили 560 миллионов долларов. Yahoo.com взрослеет  и начинает действовать на рынке  как самостоятельная акула капиталистического мира. Конкуренты, в лице America Online и Microsoft, сбиваются в различные корпоративные альянсы, чтобы укреплять свои позиции в бизнесе. Подсмотрев у "врагов" методы, Yahoo в 1999 году покупают поставщика бесплатной электронной почты rocketmail.com. В то время на просторах Интернета появляются различные сайты, претендующие на звание Портал. С конкурентами расправляются по-разному. Webring.com покупают, с остальными ведут войну на бирже.

В 2000 году поисковая система Yahoo запустили  проект под названием Corporate Yahoo! и купили тайваньский бизнес-сайт Kimo, чем заявили о желании двигаться на обширный китайский Интернет-рынок.

На сегодняшний  день Yahoo.com одна из основных поисковых  систем в Интернет. Предоставляющая  услуги 200 миллионам человек в  месяц.

Нынешнее  развитие Яху можно определить как  движение в он-лайн, интерактивность. Яху быстро осваивает эту область  интернет-услуг, но возникает одна проблема: ядро Yahoo! не было на это рассчитано. Не была в 1994 году заложено в него "он-лайновая" составляющая, ее "приклеил" Тим Кугл несколькими годами позже. Естественно возникает угроза хакерских атак через эту незащищенную область.

Одно  из новшеств поисковой системы Yahoo - панель задач для браузера Firefox,. Этот инструмент помогает пользоваться поиском Яху, не заходя на официальный сайт, а лишь используя функциональные кнопки панели.

1 сентября 2005 года поисковик Yahoo, которому  принадлежит более 200 миллионов  адресов электронной почты по  всему миру, анонсировал запуск  новой системы поиска текстов,  фотографий и других документов, содержащихся в письмах.

Необходимость такого нововведения возникла вслед  за увеличением объёма хранимых данных, ведь некоторые пользователи создают  целые почтовые архивы. Подгоняемый  конкурентом Google и его почтовым сервисом Gmail, Яху для хранения почты предлагает отныне 1 гигабайт бесплатного места, или 2 гигабайта по годовому абонементу. "Как только вы получаете возможность хранить больше информации, вам необходимы и расширенные поисковые возможности", - объясняет Эрик Петерсон, аналитик компании JupiterResearch. "

Пользователи  поисковой системы Yahoo, в свою очередь, смогут теперь использовать возможности  детализированного поиска слов в  названии или непосредственно в  тексте письма, а также в присоединенных документах, не открывая их. Результат поиска отражается в трёх строках с указанием всех атрибутов. На панели справа отображаются все похожие документы. Найденные фотографии выводятся на экран в уменьшенном виде, что значительно облегчает поиск. Система также учитывает орфографические ошибки, позволяя искать слова лишь по первым буквам.

Для начала www.Yahoo.com планирует предложить новую  систему небольшому числу американских пользователей, а затем распространить её по всему миру. Со стороны клиентов это не потребует никаких дополнительных усилий. "Когда услуга станет доступна, в левом верхнем углу страницы вашего почтового ящика появится соответствующий баннер", - обещает компания Yahoo.

По данным comScore Media Metrix на июль этого года, домену Yahoo принадлежит 219 миллионов адресов электронной почты, что составляет 31,5% мирового рынка, уступая лишь Microsoft с 221 миллионом пользователей сервиса Hotmail (35,5% рынка).

11 октября  2005 года, стремясь ни в чем не  отстать от крупнейшего конкурента, компания Yahoo объявила о намерении создать цифровую библиотеку. Причем не слишком успешный опыт Google, погрязшего в судебных разбирательствах с правообладателями, компанию не пугает, а скорее напротив — подстегивает.

Напомним, что Google некоторое время тому назад  заключила договор на оцифровку книг в крупнейших европейских и американских университетах и библиотеках, но попытка создать крупнейшую в мире библиотеку электронных текстов вызвала яростное сопротивление опасающихся за свои доходы издателей и авторов.

Целями  же Яху стали книги из библиотеки Калифорнийского университета, от издательства О`Рейли, прославившегося своими учебниками, и Национального Архива Великобритании. Войдут в «стартовый пакет» и книги из фонда Европейского Архива. Избежать затяжных судов компания намерена путем предложения потребителям получить разрешение на просмотр данных текстов от правообладателей перед переходом на «полновесный» текст. При этом поисковая система Yahoo рассчитывает поделиться с другими поисковыми сервисами возможностью проводить поиск в этой «библиотеке», в то время как Google возможности своей несостоявшейся библиотеки делить ни с кем не планировала.

В середине 2005 года, компания Yahoo, официально объявила о достижении важного преимущества в борьбе со своим главным конкурентом  на рынке сетевого поиска — компанией Google. Менеджеры считают, что поисковик Yahoo позволяет найти в два раза больше документов, чем Google. По их мнению, база данных поисковой системы Yahoo включает в себя 20,5 млрд. объектов — 19 миллиардов текстовых документов и 1,5 миллиардов изображений. Таким образом, ее поисковый индекс (число объектов, которые пользователь может найти в интернете при помощи поисковика), почти в два раза превышает аналогичный показатель поисковой системы интернет-корпорации Google — 11,3 миллиардов объектов, из которых 8,2 миллиардов текстовых документов и 3,1 миллиардов изображений.

Ранее Yahoo никогда не раскрывала значение индекса своей поисковой системы. Отраслевые аналитики не были единодушны в оценках ее базы данных. По мнению различных экспертов, поисковик Yahoo охватывал от 6 до 8 миллиардов объектов в сети. Согласно официальному сообщению, впервые в истории Yahoo, качественный прорыв в конкурентной борьбе с Google обеспечила последняя, весьма успешная модернизация поисковой системы. «У пользователей интернета появилась очень веская причина обратить на нас внимание, — заявляет вице-президент корпорации Yahoo Экхарт Уолтер. — Наша поисковая система охватывает намного больше информации, чем любые другие».

«Yahoo заставила  пользователей усомниться в том, что Google — самая мощная поисковая система. Это дает компании Яху дополнительное преимущество в борьбе за лидерство на рынке. Бренд Google для многих стал синонимом поиска информации в интернете. Задача Yahoo заключается в том, чтобы пошатнуть доверие к этому бренду», — считает аналитик компании Forrester Research Карлин Ли.

Вот чем  живет www.Yahoo.com сегодня, когда стоимость  одной акции уже подкралась к $200. Сейчас поисковая система Yahoo! достигла критического размера - команде серферов с трудом удается поддерживать ее актуальность и добавлять тысячи новых сайтов ежедневно.

Преимущества  и недостатки поисковых  систем

 

                                                                                                                                                                                           Таблица 2

Поисковая система Преимущества Недостатки
Rambler 1) Система  работает с большой скоростью  поиска.

2) Обновление поискового  индекса происходит несколько  раз в день.

3) Поисковик всегда находит самые свежие документы и последние новости.

4) Обладает близким к оптимальному выводом результатов поиска.

5) производит ранжирование  результатов в зависимости от  частоты употребления и местоположения  искомых терминов.

6) Один и тот же документ в различных кодировках показывается только один раз, а его конкретные адреса суммируются в списке, идущим за резюме.

1) На величину индекса релевантности влияет время существования сайта в сети.  Эта особенность позволяет пользователям находить ресурсы, которые давно существуют, успешно развиваются, а не сайты-однодневки. Но такой подход значительно затрудняет попадание в выдачу новых сайтов, информация на которых подчас оказывается актуальной и, возможно, более важной для пользователя.

2) невозможность осуществления поиска по целой фразе указывая в запросах предельное расстояние искомых терминов друг от друга.

 
Яндекс
1)Постоянное развитие системы.

2)Качество выдачи растет, все больше удобных сервисов предлагает компания: каталог, карты, новости, прогноз погоды, почта.

3) глубокий морфологический  анализ обрабатываемых терминов.

4) обладает хорошим  механизмом распознавания одного  документа в нескольких кодировках  или на зеркальных серверах.

5) оригинально сконструированный  механизм выдачи результатов.

6) огромная индексная  база.

1) Разница в выдаче при наборе слова с большой (маленькой) буквы (иногда выдача меняется, иногда нет).

2) Частое выпадение секторов поисковой базы - когда исчезают части сайтов из выдачи и восстанавливаются через 2-5 дней.

3) Обновление индексов поисковой базы происходит недостаточно часто и регулярно.

 
Google
1) Очень  мощная поисковая система, которая  находится в постоянном развитии.

2) База индексов  этой системы обновляется раз  в два дня, качество выдачи  очень высокое, найти необходимый документ или информацию довольно легко.

3) Система ориентирована  в основном на ссылки, причем  учитываются как входящие, так  и исходящие ссылки с ресурса.

4) Способна выдавать результаты на запросы по семантике языка программирования (исходный код поиска).

1) Нередко  встречаются ссылки на сайты с уже устаревшей информацией.

2) Случается, что ссылки, которые находятся в результатах поиска, ведут на сайт, находящийся в стадии разработки.

3) На запрос «фильм» и «фильмы» результаты поиска будут отличаться.

4) отсутствие возможности указать конкретную грамматическую форму слова, либо ударение также значительно усложняет процесс поиска информации.

 
Aport
1)содержит довольно  удобный в пользовании каталог.

2)широкие возможности  составления запроса.

3) автоматический  перевод запроса с русского на английский язык и наоборот.

4) Реконструкция  проиндексированных страниц происходит  из собственной базы. Это дает  возможность просмотра уже несуществующих  страниц.

1)не всегда быстро  находит то, что от него просишь.

2) каталог  не  обновлялся уже очень давно.

3) способен выделять  один и тот же документ в  различных кодировках и выдавать  ссылку на него лишь один  раз, перечисляя конкретные адреса  в списке URL.

4) не всегда корректная  обработка названий страниц, из-за чего в результатах поиска часто указывается “документ без названия”, в то время как метки title на большинстве таких страниц содержат важные данные.

 
MSN
1) Предоставляет пользователям возможность сортировать результаты поиска: по дате, по алфавиту, по релевантности.

2) При осуществлении поиск по ключевому слову, команда специалистов компании отслеживает наиболее релевантные на их взгляд сайты, вручную отбирают и классифицируют их, и вносят в определенные рубрики директории.

3) ранжирования узлов  по популярности и сезонным изменениям.

4) Помощь со стороны человека-редактора.

1) Поисковая система полна спамом.

2) Использует внешние  данные для обработки поисковых  запросов, поэтому на релевантность  влияют: расположение ключевых слов, популярность ресурса и текст ведущих на сайт, и ведущих с сайта ссылок.

 
Yahoo!
1) Содержит ссылки, которые наиболее полно отвечают  указанной в запросе тематике.

2) Имеются интеллектуальные  средства «отсечения» пустых, находящихся  в разработке или чисто рекламных  сайтов, далеких от искомой тематики.

3) всегда легко  определить, в каком разделе находится  нужная информация.

4) В случае если  на Yahoo нет результатов, сразу выводятся результаты с AltaVista.

1) Возможна проблема с отсутствующими страницами, поскольку веб-мастера обычно забывают удалить свои сайты с поисковых систем, а на Yahoo нет механизма автоматического обновления.

2) Чисто русские ресурсы не добавляются, потому что их просто некому смотреть и оценивать содержимое.

2)Нет собственной поисковой машины.

3) Ищет слова, заданные в критерии поиска только в названии и описании страницы

Информация о работе Сравнительный обзор современных поисковых систем