Поиск информации в интернете

Автор работы: Пользователь скрыл имя, 13 Декабря 2015 в 21:08, курсовая работа

Описание работы

Цель работы – изучить работу поисковых систем
Задачи:
- разобрать основные понятия;
- изучить принцип работы поисковых машин;
- познакомиться с классификацией поисковых систем;
- сравнить основные поисковые системы;
- разобрать процедуру поисковой оптимизации сайтов.

Файлы: 1 файл

Poisk_informatsii_v_Internet.doc

— 486.00 Кб (Скачать файл)

SearchKing - поисковая система с упором на повышение достоверности информации (релевантности документов). При построении рейтинга поисковая машина учитывает количество "кликов" (щелчков) на ссылках, посещаемых в результате поиска. Поэтому каждый пользователь невольно "голосует" за самый популярный сайт.

WebCrawler - С 1996 года проект принадлежит компании Excite, поэтому на его заглавной странице находится логотип этой фирмы, а поисковая машина WebCrawler является составной частью Excite Network. Ее создатели обращают внимание на то, что многие более поздние технологии, включая Lycos и InfoSeek, были разработаны уже после появления WebCrawler. База данных проекта продолжает регулярно пополняться, но использовать эту систему рекомендуется в случаях, если нужен поиск по одному или двум ключевым словам.

Веб-каталоги и поисковые порталы.

LookSmart - каталог ссылок, который редактируется вручную, усилен одной из самых мощных поисковых машин AltaVista - это позволило создать один из самых информативных порталов. гигантская база данных AltaVista поможет отыскать нужный сайт по ключевым словам, а рубрики LookSmart позволят точнее определиться с предметом поиска.

Lycos - Поисковая система специализируется в сфере Интернет-торговли. База данных регулярно пополняется. этот портал обладает мощнейшим специализированным каталогом WhoWhere, содержащим персональную информацию о зарегистрированных пользователях Интернета, а также развитыми средствами по предоставлению услуг электронной почты с ведением адресных книг и возможностью создания иерархической структуры подкаталогов для хранения персональной корреспонденции. Всем посетителям в качестве ответов на запрос вначале предлогаются сайты Open Directory Project, а затем ссылки из базы данных поискового механизма Lycos.

PlanetSearch Networks - портала нового типа, основанный на онлайновых сообществах, в которые люди смогли бы объединяться по интересам и увлечениям, а затем пользоваться не только механизмом поиска, но и тематическими досками объявлений, а также чатами. В результате прекрасный набор тематических сайтов и соответствующих поисковых систем.

Yahoo - один из самых известных порталов Сети. Каталог содержит ссылки, которые наиболее полно отвечают указанной в запросе тематике. Имеются интеллектуальные средства "отсечения" пустых, находящихся в разработке или чисто рекламных сайтов, далеких от искомой тематики. При поиске на Yahoo! большое внимание уделяется предварительному предложению отсортированной информации в каталогах, и только если найденная там информация не удовлетворяет пользователя, то запрос передается метапоисковым машинам.

Метапоисковые системы.

All4One (все-в-одном) - предоставляет посетителям возможность получать результаты поиска непосредственно из поддерживаемых поисковых систем, то есть с привычным интерфейсом. После ввода запроса окно браузера разбивается на несколько фреймов. В каждом из них выводится список ссылок, найденных конкретной поисковой машиной, в число которых входят и AltaVista, и Lycos, и Excite. Надо сказать, что такой интерфейс имеет и свои недостатки: страницы со ссылками в узких фреймах очень неудобно просматривать. Однако тем, кому нужен быстрый и широкомасштабный поиск с использованием известных поисковых машин, All4One предоставит весь спектр необходимых услуг.

Debriefing - эта метапоисковая система имеет две различные версии пользовательского интерфейса: интернациональный - на английском языке и национальный - на французском. При работе с ключевыми словами на английском языке сервер использует стандартный набор популярных поисковых систем, а вот запросы на французском языке обслуживают пять поисковых систем и каталогов Франции.

Dogpile - Мощная метапоисковая система Dogpile использует для поиска не только поисковые машины, но и FTP-серверы, а также сайты, на которых собираются последние новости, фондовые котировки и "желтые страницы" Интернета. Среди дополнительных услуг, предоставляемых этим сервером, возможность получения подробных прогнозов погоды и географических карт интересующей пользователя местности.

Google - одна из самых популярных метапоисковых машин в Cети. Корректное отображение запрашиваемой информации. Представление информации согласно рейтинга в основу которого положен индекс цитируемости страниц. Рейтинг страницы определяется по количеству ссылок на нее с популярных внешних сайтов и по упоминанию данного адреса в авторитетных источниках информации.

Принципиальным отличием метапоисковой системы Google, от себе подобных систем, является отсутствие собственной базы данных адресов и ссылок, ведется учет только адресов (URL ресурса) - отсюда и система рейтинга.

Mamma Systems - Канадская метапоисковая система предоставляет стандартный комплекс услуг, принятый в таких случаях: используя базы данных популярных поисковых машин, она делает свою работу весьма качественно.

MetaCrawler - метапоисковая система принадлежит американской компании Go2Net. MetaCrawler вначале производит поиск необходимой информации по базам данных других систем, а затем, используя собственный алгоритм, анализирует и сортирует полученные ссылки, ищет похожие, определяет рейтинг и выдает результат клиенту. Среди других услуг, предоставляемых MetaCrawler, следует отметить возможность расширенного поиска, довольно интересное приложение MiniCrawler для поиска информации в Сети в обход сайта компании и программу MetaSpy, позволяющую вести наблюдение за ключевыми словами в системе MetaCrawler. По данным различных информационных агентств, MetaCrawler в последнее время входит в десятку лучших метапоисковых систем в Сети.

OneSeek - метапоисковая система предназначена для тех, кто знает, что именно ищет. При использовании OneSeek требуется предварительно выбрать необходимую категорию, поскольку поиск интересующей информации будет производиться именно по этой тематике. Для того чтобы определиться с целями, предлагается довольно удобный интерфейс, который позволит оптимизировать поиск, сэкономит время и позволит избежать ненужных результатов.

ProFusion - Метапоисковую систему ProFusion отличает от других подобных систем наличие функции автоматического выбора трех наиболее подходящих для данного запроса поисковых машин. Это означает, что после ввода ключевого слова ProFusion пытается сузить область поиска, определить тематику, к которой относится запрос, и выбрать три оптимальные для данного случая поисковые машины.

Кроме того, ProFusion предоставляет персональный сервис по сохранению ключевых слов запроса, а затем регулярно автоматически сканирует выбранные поисковые машины, а если находит новую информацию по интересующей теме, то сообщает об этом пользователю (или создает для него "теневую" базу данных). Разрабатываются и другие вспомогательные функции системы.

Proteus - представляет собой скорее даже не метапоисковую систему, а средство переадресации запросов на другие поисковые машины. Здесь нет никакого алгоритма сортировки полученных ссылок - просто на одной странице находится окошко для ввода ключевых слов и множество кнопок для поиска во внешних поисковых системах.

SavvySearch - система предоставляет услуги расширенного поиска в Сети с 1998 года. При запросе клиента исследуются 200 внешних баз данных, сборники прайс-листов и целый ряд специальных электронных справочников и библиотек. SavvySearch имеет простой и продуманный интерфейс, удобные функции поиска. Кроме того, система предоставляет множество дополнительных услуг, количество которых постоянно растет.

Русскоязычные поисковые системы.

Так как у многих читателей этой статьи русскоязычные поисковые системы вызывают повышенный интерес мы решили рассмотреть их подробнее. Мощных поисковых систем не так много: Яndex, Rambler, Russian FTP Search, Апорт!. О этих крупных порталах и поговорим.

ЯНДЕКС - Сайт Яndex, принадлежащий компании CompNet, является одним из самых динамично развивающихся порталов в русской части Интернета. В нем проиндексировано более двух миллионов документов, и этот показатель постоянно растет. Основным достоинством системы Яndex является способность находить заданные слова независимо от формы, в которой они употребляются в документах. Интересно, что система способна "склонять" или "спрягать" даже те слова, которых нет в словаре, причем поиск может вестись как по всем формам ключевых слов, так и по конкретно заданной словоформе. Поисковая машина Яndex позволяет устанавливать расстояние между фрагментами ключевой фразы с учетом их порядка, усиливать значимость того или иного слова, использовать уточняющие слова. Поиск можно также вести по заголовкам документов и по встречающимся на страницах ссылкам. Кроме того, в Яndex легко найти документы, похожие по смыслу на те, что заинтересовали вас по предыдущему запросу. К тому же можно ограничивать поиск уже в найденных документах, то есть производить своеобразную "чистку" результатов запроса. При упорядочивании списка ссылок, получаемого пользователем, учитывается число встретившихся в документе ключевых слов, их положение и расстояние между ними, кроме того, каждый из адресов URL содержит краткую аннотацию найденного документа.

RAMBLER - Сервер Rambler компании Stack является одной из самых больших и наиболее известных поисковых систем в русской части Интернета. Ее база данных содержат миллионы документов, а над поддержкой всего этого проекта трудятся более сотни специалистов. Недостатком данной поисковой системы является то, что спайдер индексирует главным образом сайты, расположенные в доменах СНГ, и если даже ваша страница русскоязычная, но ее доменное имя заканчивается не на .ru, а на .com, то ее индексирование в базе данных Rambler весьма проблематично (для этого надо по меньшей мере уведомить разработчиков). На многих российских сайтах можно встретить характерную пиктограмму счетчика Rambler. Рейтинг Rambler Top 100 весьма популярен в русской части Интернета и часто используется многими компаниями как показатель авторитетности тех или иных ресурсов. Кроме того, Rambler предоставляет посетителям множество услуг: позволяет, например, увеличивать или уменьшать значимость отдельных слов в ключевой фразе с помощью символов "+" и "?", облегчает поиск в адресах URL, заголовках страниц и даже в нескольких абзацах в начале документа. С помощью данной системы можно легко находить "похожие" по тематике страницы и осуществлять повторный поиск адресов среди уже найденных. В ответ на запрос Rambler выдает пользователям список ссылок, снабжая каждую из них небольшой аннотацией, из которой можно узнать кодировку документа, его размер, дату создания/обновления, а также увидеть фрагмент предложения с искомой ключевой фразой.

RUSSIAN FTP SEARCH - Система Filez осуществляет поиск файлов на российских FTP-серверах. Русский FTP Search содержит информацию о 2 тыс. серверов в России, где представлено свыше 7 млн. файлов.

АПОРТ - Поисковая система "Апорт!" компании "Агама" разрабатывается при поддержке Intel (эти компании принимают участие также в создании русскоязычного каталога (Ау?!). Поиск в "Апорт!" ведется по базе данных, содержащей свыше 2 млн. документов. Система может искать необходимую информацию по различным словоформам введенных слов, исправлять в них ошибки, поддерживает поиск по фразам, в ней легко ограничить расстояние между фрагментами текста, заданное нужным количеством слов или фраз, а также указать допустимый временной период создания документов. Возможен поиск по адресам URL, заголовкам документов, подписям к картинкам, ссылкам и комментариям. Более того, система может осуществлять автоматический перевод с русского на английский и с английского на русский, причем не только ключевой фразы при запросе, но и полученной в результате информации. Итоги поиска упорядочиваются по частоте использования искомых терминов в документе. Вместе со ссылкой отображается фрагмент текста, где встречаются ключевые слова, а также дата и время последней модификации файла. Это позволяет определить, насколько документ по смыслу соответствует заданной ключевой фразе. Среди других возможностей этого сайта можно отметить индикатор загрузки, рейтинги самых употребимых ключевых слов и наиболее популярных серверов.

Кроме вышеперечисленных поисковых систем к собственно поиску косвенное отношение имеют русскоязычные поисковые каталоги: Aktivist, Download.ru, Hi!, List.ru, Russia on the Net, Shareware.ru, Stars, WebList, Автокаталог, Ау!, "Весь Русский Интернет", Виртуальная библиотека, "Желтые страницы Internet", Иван Сусанин, "Культура России", Мета, "Путь к себе", "Русский язык", "Суперскидки", "Улитка" и многие другие4.

 

2 Сравнение поисковых систем

 

На сегодняшний день основными поисковыми системами в Рунете являются Яндекс, Google, Go.mail.ru и Rambler. В мае была запущена государственная альтернатива - поисковая система «Спутник», отличительной особенностью которой является ориентация на социальные сервисы. Bing и Yahoo также представлены в России, но их популярность не высока, а совокупная доля поискового трафика - менее 1%.

Согласно статистике, Яндекс – бесспорный лидер рынка и имеет порядка 53% поискового трафика, у мирового лидера Google – 37%, Go.mail.ru – 8 %, а Рамблеру досталось 0,8%

 

 

Рис. 1. Доля поискового трафика

 

Поговорим о каждой из представленных систем подробнее.

Рис. 2. Стартовая страница Yandex.ru

 

Яндекс действительно одна из самых технологичных и инновационных российских интернет-компаний. Она постоянно работает над обновлением и расширением своих сервисов, буквально на прошлой неделе произошла сделка по приобретению сервиса auto.ru, также был запущен сервис поиска и выбора организации Город.

За последний год отечественный поисковик, являющийся безоговорочным лидером, также претерпел различные изменения, в июне дизайн выдачи был приближен к островной версии, начал шифровать рефералы на все 100% потока запросов, были попытки отказаться от ссылочного ранжирования по коммерческим запросам (пока реализовано для 50% тематик).

С чего же все начиналось? Первая версия системы появилась еще в 90-х годах. В конце 1997 года Яндекс выпустил свою поисковую машину. И сегодня именно эта система выдает наибольший процент поискового трафика. Согласно статистике в феврале 2013 годаЯндекс занял 4-ю строку по числу поисковых запросов в рейтинге мировых поисковых систем (после Google, Baidu и Yahoo), обогнав Microsoft, и уже не первый год является лидером в России (согласно статистике Liveinternet). В 2011 году Яндекс вышел на международную арену, открыв поисковик в Турции с локализацией для турецкоязычного пользователя, также у компании есть поиск по мировому интернету yandex.com.

Технология поиска в Яндексе – это сложная система. Выдача формируется на основе формулы ранжирования, построенной на нескольких сотнях факторов, с помощью которых определяется релевантность каждого сайта. За построение этой формулы отвечаетMatrixNet – метод машинного обучения, входными данными для которого являются факторы и обучающие данные, подготовленные экспертными сотрудниками – асессорами. Для ускорения процессов поиска используется индекс – база поисковой системы, сформированная поисковым роботом, анализирующим сайты и собирающим информацию с заданной периодичностью. Для работы индекса используются тысячи серверов.

Информация о работе Поиск информации в интернете