Поисковые системы

Автор работы: Пользователь скрыл имя, 11 Декабря 2014 в 09:44, доклад

Описание работы

На начальном этапе развития интернета, число пользователей сети было невелико и количество информации относительно небольшим. В подавляющем большинстве случаев пользователями Интернет были сотрудники различных университетов или научных организаций. В то время поиск нужной информации в сети был не столь актуален, как теперь. Сегодня же поисковые системы превратились в многофункциональный сервис. Они позволяют пользователям находить в сети Интернет самую разнообразную информацию, благодаря чему пользуются огромным успехом.

Файлы: 1 файл

Поисковые системы.doc

— 263.00 Кб (Скачать файл)

 

 

MSN Search (www.msn.ru)

 
Когда-то MSN Search был одним из лучших поисковиков, но и сегодня он по-прежнему стоит  внимания. MSN Search пользовался каталогами сайтов LookSmart и получал лучшие отзывы пользователей, поскольку за проектом стояла команда редакторов, которая отслеживала наиболее частые запросы, вводимые в поисковую форму, и подбирала сайты, наиболее релевантные тематике запроса. Такая методика давала хорошие результаты.

Сегодня MSN Search ищет новые пути развития. Система  производит поиск по материалам Yahoo, но не отличается той функциональностью и многообразием параметров, которые предлагает сам Yahoo. В то же время, MSN Search разрабатывает собственные роботы и планирует другие перемены, которые должны полностью обновить систему.

(www.msn.com)

У поисковой системы МSN (msn.com) никогда не было собственного паука или каталога. С 1997 года система МSN для выдачи результатов поиска использовала разные базы данных, такие как: Yahoo!, LookSmart, Altavista, DirectHit, Inktomi и RealNames. Сейчас результаты поиска берутся из Inktomi, LookSmart, Direct Hit.

Но, все-таки, MSN.com один из самых популярных порталов Интернета. Там же есть и поисковая  система search.mns.com. Система МSN особенно важна, т.к. именно этот поисковик по умолчанию используется, когда пользователи Internet Explorer'а вводят в адресную строку поисковый запрос. Система МСН также является информационным узлом, и по данным MediaMetrix, является одним из наиболее посещаемых сайтов.

msn.com использует  базу данных Inktomi, но эта база  данных сейчас содержит более более 550 миллионов URL и не известно, какую часть использует поисковая система MSN. Известно, что из базы данных LookSmart используется около 2 миллионов URL.

Поисковая система МСН (msn.com) локализована примерно для 30 стран, таких как: Великобритания, Дания, Бельгия, Новая Зеландия, Япония и др. Также эта система предоставляет пользователям возможность сортировать результаты поиска: по дате, по алфавиту, по релевантности.

Недавно, в конце 2004 года, портал MSN.com объявил  о запуске официальной версии своего поиска, спустя два года после объявления о начале разработки собственного поисковика. Ранее продемонстрированная бета-версия поиска выкачена на всех сайтах портала и потеряла отметку "beta". По сравнению с уже знакомой бета-версией, нынешний поиск приобрел несколько новых возможностей, а в частности:

- Интеграция  с MSN Direct Answers - службы, базирующейся  на электронной Microsoft Encarta и расширенной  теперь до 1,5 миллионов статей.

- Выдача  результатов поиска в RSS-формате  - при этом существует ограничение на использование этих результатов и запрет на их использование в коммерческих целях.

- Поиск  по RSS.

Хотя  при создании поисковика MSN.com использовалось большинство принципов оптимизации, которые и в других поисковых  системах не будут сюрпризом для  большинства профессиональных участников он-лайн рынка.

В связи  с запуском поиска проведен также  редизайн всего сайта MSN.com, а на портале опубликовано обращение Билла Гейтса к пользователям. В ближайшее время MSN планирует запустить также поиск по блокам, несколько специализированных поисков (можно предположить, что это будет поиск по видеофайлам - он уже есть у Yahoo и Google) и собственную программу контекстной и поисковой рекламы. Сейчас основная масса рекламы, демонстрируемой на результатах поиска, является рекламой Overture, которая принадлежит одному из конкурентов новой системы MSN - Yahoo! Inc.

Но, поисковик уже приобрел значительное влияние и, если верить слухам, MSN Search все-таки бросил вызов Google и Yahoo в борьбе за первенство на рынке.


Yahoo! (www.yahoo.ru)

 
В 1994 году, студенты Стэндфордского университета, Джерри Янг и Дэвид Фило, готовились к защите диссертации в области компьютерного проектирования интегральных схем. Для этого им приходилось много времени проводить в сети Интернет, в поисках нужной информации и копить ссылки. Списки со ссылками росли, потом Янг и Фило забросили диссертацию и принялись исключительно коллекционировать ссылки. К середине 1994 года их стало много, они отсортировали ссылки по категориям, потом в категориях ссылок стало тоже много, появились подкатегории. Но список Джерри и Дэвида не был предназначен для всеобщего обозрения - он составлялся исключительно для друзей. Время шло, а посещаемость все росла и росла. Адрес сайта пошел по рукам.

Первым  шагом к успеху стало новое, запоминающееся название – Yahoo! Следуя пожеланиям пользователей, создатели www.Yahoo.com, стали преобразовывать сайт. Появились новые категории, и разделы «What's New» и «What's Cool». К концу 1994 Янг и Фило забросили свои диссертации и полностью отдались работе над поисковиком Яху.

В это  время на дороге появилась компания Netscape, предложившая ресурсы для содержания поисковой системы Yahoo!. В результате у Yahoo! появился свой домен - yahoo.com, и каталог переехал на 10 станций Silicon Graphics Indy. Примерно в это же время Yahoo! получил и первого инвестора - инвестиционный фонд «Seqouia Capital». Джерри и Янг обзавелись офисами и наняли энергичную команду web-серферов. Темп роста составил, в среднем, 1000 страниц в день.

12 апреля 1996 года www.Yahoo.com выпустил свои акции.  При номинальной цене в 12 долларов  за штуку к концу дня они  продавались уже по 33 доллара. Создатели Яху первыми стали применять рекламу своего ресурса в печатных СМИ и на телевидении.

Новый управляющий поисковой системы Yahoo! - Тим Кугл решил развить Яху  из простого перечня упорядоченных  линков до настоящего портала. А из финансовых новостей сделать аукционы, добавляя к ядру Yahoo.com элементы онлайнового доступа.

Следующие вложения в поисковик Yahoo! составили 560 миллионов долларов. Yahoo.com взрослеет  и начинает действовать на рынке  как самостоятельная акула капиталистического мира. Конкуренты, в лице America Online и Microsoft, сбиваются в различные корпоративные альянсы, чтобы укреплять свои позиции в бизнесе. Подсмотрев у "врагов" методы, Yahoo в 1999 году покупают поставщика бесплатной электронной почты rocketmail.com. В то время на просторах Интернета появляются различные сайты, претендующие на звание Портал. С конкурентами расправляются по-разному. Webring.com покупают, с остальными ведут войну на бирже.

В 2000 году поисковая система Yahoo запустили  проект под названием Corporate Yahoo! и купили тайваньский бизнес-сайт Kimo, чем заявили о желании двигаться на обширный китайский Интернет-рынок.

На сегодняшний  день Yahoo.com одна из основных поисковых  систем в Интернет. Предоставляющая  услуги 200 миллионам человек в  месяц.

Нынешнее  развитие Яху можно определить как  движение в он-лайн, интерактивность. Яху быстро осваивает эту область  интернет-услуг, но возникает одна проблема: ядро Yahoo! не было на это рассчитано. Не была в 1994 году заложено в него "он-лайновая" составляющая, ее "приклеил" Тим Кугл несколькими годами позже. Естественно возникает угроза хакерских атак через эту незащищенную область.

Одно  из новшеств поисковой системы Yahoo - панель задач для браузера Firefox,. Этот инструмент помогает пользоваться поиском Яху, не заходя на официальный сайт, а лишь используя функциональные кнопки панели.

1 сентября 2005 года поисковик Yahoo, которому  принадлежит более 200 миллионов  адресов электронной почты по  всему миру, анонсировал запуск  новой системы поиска текстов,  фотографий и других документов, содержащихся в письмах.

Необходимость такого нововведения возникла вслед  за увеличением объёма хранимых данных, ведь некоторые пользователи создают  целые почтовые архивы. Подгоняемый  конкурентом Google и его почтовым сервисом Gmail, Яху для хранения почты предлагает отныне 1 гигабайт бесплатного места, или 2 гигабайта по годовому абонементу. "Как только вы получаете возможность хранить больше информации, вам необходимы и расширенные поисковые возможности", - объясняет Эрик Петерсон, аналитик компании JupiterResearch. "

Пользователи  поисковой системы Yahoo, в свою очередь, смогут теперь использовать возможности  детализированного поиска слов в  названии или непосредственно в  тексте письма, а также в присоединенных документах, не открывая их. Результат поиска отражается в трёх строках с указанием всех атрибутов. На панели справа отображаются все похожие документы. Найденные фотографии выводятся на экран в уменьшенном виде, что значительно облегчает поиск. Система также учитывает орфографические ошибки, позволяя искать слова лишь по первым буквам.

Для начала www.Yahoo.com планирует предложить новую  систему небольшому числу американских пользователей, а затем распространить её по всему миру. Со стороны клиентов это не потребует никаких дополнительных усилий. "Когда услуга станет доступна, в левом верхнем углу страницы вашего почтового ящика появится соответствующий баннер", - обещает компания Yahoo.

По данным comScore Media Metrix на июль этого года, домену Yahoo принадлежит 219 миллионов адресов электронной почты, что составляет 31,5% мирового рынка, уступая лишь Microsoft с 221 миллионом пользователей сервиса Hotmail (35,5% рынка).

11 октября  2005 года, стремясь ни в чем не  отстать от крупнейшего конкурента, компания Yahoo объявила о намерении создать цифровую библиотеку. Причем не слишком успешный опыт Google, погрязшего в судебных разбирательствах с правообладателями, компанию не пугает, а скорее напротив — подстегивает.

Напомним, что Google некоторое время тому назад  заключила договор на оцифровку книг в крупнейших европейских и американских университетах и библиотеках, но попытка создать крупнейшую в мире библиотеку электронных текстов вызвала яростное сопротивление опасающихся за свои доходы издателей и авторов.

Целями  же Яху стали книги из библиотеки Калифорнийского университета, от издательства О`Рейли, прославившегося своими учебниками, и Национального Архива Великобритании. Войдут в «стартовый пакет» и книги из фонда Европейского Архива. Избежать затяжных судов компания намерена путем предложения потребителям получить разрешение на просмотр данных текстов от правообладателей перед переходом на «полновесный» текст. При этом поисковая система Yahoo рассчитывает поделиться с другими поисковыми сервисами возможностью проводить поиск в этой «библиотеке», в то время как Google возможности своей несостоявшейся библиотеки делить ни с кем не планировала.

В середине 2005 года, компания Yahoo, официально объявила о достижении важного преимущества в борьбе со своим главным конкурентом  на рынке сетевого поиска — компанией Google. Менеджеры считают, что поисковик Yahoo позволяет найти в два раза больше документов, чем Google. По их мнению, база данных поисковой системы Yahoo включает в себя 20,5 млрд. объектов — 19 миллиардов текстовых документов и 1,5 миллиардов изображений. Таким образом, ее поисковый индекс (число объектов, которые пользователь может найти в интернете при помощи поисковика), почти в два раза превышает аналогичный показатель поисковой системы интернет-корпорации Google — 11,3 миллиардов объектов, из которых 8,2 миллиардов текстовых документов и 3,1 миллиардов изображений.

Ранее Yahoo никогда не раскрывала значение индекса своей поисковой системы. Отраслевые аналитики не были единодушны в оценках ее базы данных. По мнению различных экспертов, поисковик Yahoo охватывал от 6 до 8 миллиардов объектов в сети. Согласно официальному сообщению, впервые в истории Yahoo, качественный прорыв в конкурентной борьбе с Google обеспечила последняя, весьма успешная модернизация поисковой системы. «У пользователей интернета появилась очень веская причина обратить на нас внимание, — заявляет вице-президент корпорации Yahoo Экхарт Уолтер. — Наша поисковая система охватывает намного больше информации, чем любые другие».

«Yahoo заставила  пользователей усомниться в том, что Google — самая мощная поисковая система. Это дает компании Яху дополнительное преимущество в борьбе за лидерство на рынке. Бренд Google для многих стал синонимом поиска информации в интернете. Задача Yahoo заключается в том, чтобы пошатнуть доверие к этому бренду», — считает аналитик компании Forrester Research Карлин Ли.

Вот чем  живет www.Yahoo.com сегодня, когда стоимость  одной акции уже подкралась к $200. Сейчас поисковая система Yahoo! достигла критического размера - команде серферов с трудом удается поддерживать ее актуальность и добавлять тысячи новых сайтов ежедневно.


 

Преимущества  и недостатки поисковых  систем

 

                                                                                                                        

                                                                    Таблица 2

Поисковая система

Преимущества

Недостатки

Rambler

1) Система  работает с большой скоростью  поиска.

2) Обновление поискового  индекса происходит несколько  раз в день.

3) Поисковик всегда находит самые свежие документы и последние новости.

4) Обладает близким к оптимальному  выводом результатов поиска.

5) производит ранжирование  результатов в зависимости от  частоты употребления и местоположения  искомых терминов.

6) Один и тот же документ в различных кодировках показывается только один раз, а его конкретные адреса суммируются в списке, идущим за резюме.

1) На величину индекса релевантности  влияет время существования сайта  в сети.  Эта особенность позволяет пользователям находить ресурсы, которые давно существуют, успешно развиваются, а не сайты-однодневки. Но такой подход значительно затрудняет попадание в выдачу новых сайтов, информация на которых подчас оказывается актуальной и, возможно, более важной для пользователя.

2) невозможность осуществления поиска по целой фразе указывая в запросах предельное расстояние искомых терминов друг от друга.

 
Яндекс

1)Постоянное развитие системы.

2)Качество выдачи растет, все  больше удобных сервисов предлагает  компания: каталог, карты, новости, прогноз погоды, почта.

3) глубокий морфологический  анализ обрабатываемых терминов.

4) обладает хорошим  механизмом распознавания одного  документа в нескольких кодировках  или на зеркальных серверах.

5) оригинально сконструированный  механизм выдачи результатов.

6) огромная индексная  база.

1) Разница в выдаче при наборе  слова с большой (маленькой) буквы (иногда выдача меняется, иногда  нет).

2) Частое выпадение секторов  поисковой базы - когда исчезают  части сайтов из выдачи и  восстанавливаются через 2-5 дней.

3) Обновление индексов поисковой  базы происходит недостаточно  часто и регулярно.

 
Google

1) Очень  мощная поисковая система, которая  находится в постоянном развитии.

2) База индексов  этой системы обновляется раз  в два дня, качество выдачи  очень высокое, найти необходимый документ или информацию довольно легко.

3) Система ориентирована  в основном на ссылки, причем  учитываются как входящие, так  и исходящие ссылки с ресурса.

4) Способна выдавать результаты  на запросы по семантике языка  программирования (исходный код поиска).

1) Нередко  встречаются ссылки на сайты с уже устаревшей информацией.

2) Случается, что ссылки, которые  находятся в результатах поиска, ведут на сайт, находящийся в  стадии разработки.

3) На запрос «фильм» и «фильмы»  результаты поиска будут отличаться.

4) отсутствие возможности указать  конкретную грамматическую форму  слова, либо ударение также значительно  усложняет процесс поиска информации.

 
Aport

1)содержит довольно  удобный в пользовании каталог.

2)широкие возможности  составления запроса.

3) автоматический  перевод запроса с русского на английский язык и наоборот.

4) Реконструкция  проиндексированных страниц происходит  из собственной базы. Это дает  возможность просмотра уже несуществующих  страниц.

1)не всегда быстро  находит то, что от него просишь.

2) каталог  не  обновлялся уже очень давно.

3) способен выделять  один и тот же документ в  различных кодировках и выдавать  ссылку на него лишь один  раз, перечисляя конкретные адреса  в списке URL.

4) не всегда корректная  обработка названий страниц, из-за чего в результатах поиска часто указывается “документ без названия”, в то время как метки title на большинстве таких страниц содержат важные данные.

 
MSN

1) Предоставляет пользователям  возможность сортировать результаты поиска: по дате, по алфавиту, по релевантности.

2) При осуществлении поиск по ключевому слову, команда специалистов компании отслеживает наиболее релевантные на их взгляд сайты, вручную отбирают и классифицируют их, и вносят в определенные рубрики директории.

3) ранжирования узлов  по популярности и сезонным изменениям.

4) Помощь со стороны человека-редактора.

1) Поисковая система полна спамом.

2) Использует внешние  данные для обработки поисковых  запросов, поэтому на релевантность  влияют: расположение ключевых слов, популярность ресурса и текст ведущих на сайт, и ведущих с сайта ссылок.

 
Yahoo!

1) Содержит ссылки, которые наиболее полно отвечают  указанной в запросе тематике.

2) Имеются интеллектуальные  средства «отсечения» пустых, находящихся  в разработке или чисто рекламных  сайтов, далеких от искомой тематики.

3) всегда легко  определить, в каком разделе находится  нужная информация.

4) В случае если  на Yahoo нет результатов, сразу выводятся результаты с AltaVista.

1) Возможна проблема с отсутствующими страницами, поскольку веб-мастера обычно забывают удалить свои сайты с поисковых систем, а на Yahoo нет механизма автоматического обновления.

2) Чисто русские ресурсы не  добавляются, потому что их просто  некому смотреть и оценивать  содержимое.

2)Нет собственной поисковой  машины.

3) Ищет слова, заданные в критерии поиска только в названии и описании страницы


 

Сравнительный анализ работы различных  поисковых систем: 

  1. Сформулировала  тему поиска.
  2. Создала  поисковый запрос (одинаковый для всех поисковых систем).
  3. Результаты поиска (количество ссылок) поместила в таблицу.
  4. По результатам поиска создала  уточняющие поисковые запросы (с учетом правил работы в конкретной поисковой системе), чтобы уменьшить количество нерелевантных ссылок. Уточняющие запросы создавала  до тех пор, пока результаты поиска станет возможно проанализировать – 10 ссылок.
  5. Результаты уточняющего поиска (количество ссылок) поместила в таблицу.
  6. Проанализировала 10 первых найденных ссылок на предмет релевантности.
  7. Сделала  вывод о качестве поиска каждой поисковой системой и поставила оценки по пятибалльной шкале.

 

  
   

 Таблица 3

Что такое тезаурус и  каковы правила его  создания?

Поисковые системы

Яndex  
(стр.)

Rambler  
(док-ов)

Google  
(сайтов)

Aport  
(сайтов)

MSN  
(сайтов)

Yahoo!  
(сайтов)

Поисковый Запрос

75.000

2.676

24.600

1.946

9.770

16.800

Уточняющий  
Запрос

7.453

189

20.400

443

543

417

Анализ  первых 10 найденных ссылок

Нет ничего  

 
Нужная ссылка оказалась на 2 странице под номером 13

Ничего нет 

Нужная ссылка оказалась на 5 странице

Ничего нет  

 
После просмотра 10 страниц = 100 ссылкам – ничего не найдено

Нужная ссылка на первой странице под номером 10

Ничего нет  

 
Нужная ссылка оказалась на 3 странице

Ничего нет 

Нужная ссылка оказалась на 2 странице под номером 16

Кол-во релевантных ссылок

 
0

 
0

 
0

 
1

 
0

 
0

Вывод-Оценка по пятибалльной шкале

 
5

 
4

 
2

 
5

 
4

 
4


 

Модель "идеальной" поисковой системы

Поисковые системы являются инструментом, которым  сегодня пользуется большинство  посетителей Интернета. Современные  поисковые системы начинают тяготеть к порталам, расширяя предлагаемые возможности и не ограничивая  пользователей только поиском.

Поисковики – это своего рода монополисты. Они ведут скрытую политику, диктуют свои правила, не разглашая их при этом. А подчас, даже просто беспредельничают и показывают поразительную необъективность по отношению к сайтам. Возникает ситуация, что оптимизаторы не могут ясно понять, каким он должен быть, «хороший» сайт в понимании поисковика. Как сделать его таким, чтобы поисковик считал его наиболее релевантным по запросам. И именно из-за этой неопределённости и возникают у вэб-мастеров желание обхитрить систем.

Выход из этой проблемы – создание полностью  ОТКРЫТОЙ поисковой системы, в которой  бы ранжированием занимался не только поисковик но и сами веб-мастера. Чтобы в ней возможно было открыть все механизмы и алгоритмы ранжирования и при этом объективно оценивать сайты между собой.

Главный недостаток современных поисковых систем – это их централизация. А централизация означает, что вся информация хранится в одном месте, все работы и расчёты производятся в одном месте, все решения (результаты выдачи) принимаются в одном месте.

Итак, почему это недостаток, здесь несколько  причин:

1) Полная  централизация требует колоссальных  ресурсов – это огромные базы  данных, множество компьютеров и  т.д. Учитывая темпы роста Интернета  в ближайшем будущем придется применять просто невероятные мощности.

2) Только  при управлении в одном центре  можно достичь полной конфидициальности.  А так как по нашей концепции  поисковая система должна быть  открытой, то и необходимость в централизации отпадает полностью.

3) Поисковая  система не всегда может правильно  оценить конкретный ресурс. Правильнее самому обладателю сайта поручить выполнение ранжирования документов внутри сайта. И теперь, самое главное как уйти от централизации и устранить все эти минусы - это внедрение в каждый сайт своей минипоисковой системы. Эта минипоисковая система будет индексировать содержимое сайта по правилам самого обладателя сайта. Только вэбмастер будет решать, какие страницы его сайта по каким запросам более релевантны. А потом свои индексы уже будет отправлять на сервер поисковой системы.

Ещё одной  из основных проблем при создании новой поисковой системы является учет мнения пользователей.

Попытка непосредственного выявления представлений  пользователей об идеальной поисковой  системе обычно не приводит к нужному результату: пользователи перечисляют все, что когда-либо видели или использовали в существующих системах. Не стоит ждать от пользователей навыков проектирования – они вряд ли смогут быстро описать, как должна выглядеть идеальная поисковая система.

Информация о работе Поисковые системы