Автор работы: Пользователь скрыл имя, 30 Ноября 2014 в 11:29, реферат
Каждый пользователь в Интернете может найти массу разнообразной и интереснейшей информации, а также использовать все богатейшие возможности сети. Выбранная тема реферата очень актуальна на сегодняшний день, т.к. поисковые системы не заменимы на сегодняшний день, в силу чрезвычайно частого посещения всемирной сети. Ресурсы Интернета превратившись в инструмент для повседневной работы людей многих профессий. Быстрый рост информации в сети сделали его океаном разнообразнейших данных, важность которых растет пропорционально их объему.
Введение
Каждый пользователь в Интернете может найти массу разнообразной и интереснейшей информации, а также использовать все богатейшие возможности сети. Выбранная тема реферата очень актуальна на сегодняшний день, т.к. поисковые системы не заменимы на сегодняшний день, в силу чрезвычайно частого посещения всемирной сети. Ресурсы Интернета превратившись в инструмент для повседневной работы людей многих профессий. Быстрый рост информации в сети сделали его океаном разнообразнейших данных, важность которых растет пропорционально их объему. По оценке экспертов объем информации, передаваемой по каналам Интернет, удваивается каждые полгода. Ежедневно в сети появляются миллионы новых документов, и естественно, что без систем поиска они в подавляющем своем большинстве остались бы не востребованными, вообще не были бы не кем найдены, и все то огромное количество информации оказалось бы никому не нужным. Возникла необходимость создания таких средств, которые позволили бы легко ориентироваться в информационных ресурсах глобальных сетей, быстро и надежно находить нужные сведения. В интернете появились специальные поисковые средства. Еще несколько лет назад бытовало такое мнение: в Интернете есть все, но найти там ничего невозможно. Однако с появлением и быстрым развитием поисковых каталогов, поисковых машин, и всевозможных поисковых программ ситуация изменилась, и теперь в Сети срочно понадобившуюся информацию иногда можно найти быстрее, чем в книге, лежащей на столе.
К сожалению, поисковые системы часто не способны точно и справедливо интерпретировать ресурсы. Как результат, на первых позициях поиска зачастую оказываются сайты "далекие" от решаемого вопроса. При этом ресурсы представляющие реальную пользу оказываются "за бортом" поиска.
Причина такого положения проста и кроется в технологии получения и представления результатов поисковыми системами. Как это не парадоксально, но это вина не поисковых систем, поскольку они обязаны скрывать правила построения поисковых индексов. Это вина самой технологии при организации поиска
Поисковая система - это программное обеспечение, предоставляющее доступ к коллекции слабоструктурированной информации. Ориентация на слабоструктурированные данные, т.е. данные, которые нельзя представить в виде реляционной таблицы, отличает поисковую систему от СУБД.
В данном определении поисковой системы подразумевается информация различного рода, т.е. текст, аудио, видео, изображения и т.п. Однако следует отметить, что именно текстовые данные идеально подходят для описания полной функциональности поисковой системы, т.к. алгоритмы поиска мультимедийной информации, прежде всего, основываются на алгоритмах поиска текста.
Основная задача поисковой системы - минимизировать время, затрачиваемое пользователем на поиск нужной информации [2]. Вопрос заключается в том, какую информацию пользователь посчитает нужной? В некоторых обстоятельствах релевантную информацию можно определить как всю информацию из базы, имеющую отношение к запросу. Традиционно к поисковой системе применяют две основные характеристики: точность и полнота, а точнее, их зависимость. Каждый раз, когда пользователь задает системе запрос, тем самым инициализируя поиск, все документы в коллекции поисковой системы делятся на четыре части. Точность определяет один аспект поиска, а именно, насколько хорошо поисковая система способна минимизировать время, затрачиваемое пользователем на поиск релевантной данному запросу информации. В то время как полнота определяет другой аспект - насколько хорошо система способна найти релевантную данному запросу информацию. Можно подобрать оптимальный запрос (ы), когда каждый найденный документ будет релевантным, и каждый релевантный документ будет найден.
Поисковые системы при использовании Интернет играют очень важную роль. В Интернете сосредоточено такое количество информации, что ее поиск уже превращается в отдельную задачу и отнимает очень много времени. Поисковые серверы выдают на запрос тысячи ссылок вместо нескольких страниц, где действительно имеется нужная информация. Пользователи всемирной сети Интернет, осознав преимущества, предоставляемые возможностью анализа пространственных данных, нуждаются в инструменте, позволяющем осуществлять быстрый и удобный поиск и доступ к цифровым снимкам местности и другой пространственной информации, сосредоточенной во многих правительственных, коммерческих и академических организациях.
Глава 1. Краткая история развития
поисковых систем.
В начальный период развития
Интернет, число его пользователей было
невелико, а объем доступной информации
сравнительно небольшим. В большинстве
своем, доступ к сети Интернет имели лишь
сотрудники научно-исследовательской
сферы. В это время задача поиска информации
в Интернете не была столь актуальной,
как в настоящее время.
Одним из первых способов организации
доступа к информационным ресурсам сети
стало создание открытых каталогов сайтов,
ссылки на ресурсы в которых группировались
согласно тематике. Первым таким проектом
стал сайт Yahoo.com, открывшийся весной 1994
года.
После того, как количество сайтов
в каталоге Yahoo значительно увеличилось,
была добавлена возможность поиска нужной
информации по каталогу. В полном смысле
это еще не было поисковой системой, так
как поисковая область была ограничена
только ресурсами, присутствующими в каталоге,
а не всеми Интернет ресурсами.
Каталоги ссылок широко использовались
ранее, однако практически полностью утратили
свою популярность в настоящее время.
Так как даже современные, огромные по
своему объему каталоги, содержат информацию
лишь о ничтожно малой части сети Интернет.
Самый большой каталог сети DMOZ (его еще
называют Open Directory Project) содержит информацию
о 5 миллионах ресурсов, тогда как база
поисковой системы Google состоит из более
чем 8 миллиардов документов.
Первой полноценной поисковой
системой стал проект WebCrawler, вышедший
в свет в 1994 году.
В 1995 году появились поисковые системы
Lycos и AltaVista. Последняя долгие годы была
лидером в области поиска информации в
сети Интернет.
В 1997 году Сергей Брин и Ларри Пейдж создали
поисковую машину Google в рамках исследовательского
проекта в Стэндфордском университете.
В настоящий момент Google - самая популярная
поисковая система в мире!
В сентябре 1997 года была официально
анонсирована поисковая система Yandex, являющаяся
самой популярной в русскоязычном Интернете.
В настоящее время существуют три основные
международные поисковые системы – Google,
Yahoo и MSN, имеющих собственные базы и алгоритмы
поиска. Большинство остальных поисковых
систем (коих насчитывается большое количество)
использует в том или ином виде результаты
трех перечисленных. Например, поиск AOL
(search.aol.com) использует базу Google, а AltaVista,
Lycos и AllTheWeb – базу Yahoo.
В России основной поисковой системой
является «Яндекс», далее - Rambler.ru, Google.ru,
Aport.ru, Mail.ru. Причем, на данный момент, Mail.ru
использует механизм и базу поиска «Яндекса».
Глава 2. Понятие и функции поисковой системы.
Поисковая система - это программно-аппаратный
комплекс, предназначенный для осуществления
поиска в сети Интернет и реагирующий
на запрос пользователя, задаваемый в
виде текстовой фразы (поискового запроса),
выдачей списка ссылок на источники информации,
в порядке релевантности (в соответствии
запросу). Наиболее крупные международные
поисковые системы: «Google», «Yahoo», «MSN». В
русском Интернете это – «Яндекс», «Рамблер»,
«Апорт».
Рассмотрим подробнее понятие поискового
запроса на примере поисковой системы
«Яндекс». Поисковый запрос должен быть
сформулирован пользователем в соответствии
с тем, что он хочет найти, максимально
кратко и просто. Допустим, мы хотим найти
информацию в «Яндексе» о том, как выбрать
автомобиль. Для этого, открываем главную
страницу «Яндекса», и вводим текст поискового
запроса «как выбрать автомобиль». Далее,
наша задача сводится к тому, чтобы открыть
предоставленные по нашему запросу ссылки
на источники информации в Интернет. Однако,
вполне можно и не найти нужную нам информацию.
Если таковое произошло, то либо нужно
перефразировать свой запрос, либо в базе
поисковой системе действительно нет
никакой актуальной информации по нашему
запросу (такое может быть при задании
очень «узких» запросов, как, например
«как выбрать автомобиль в Архангельске»)
Первоочередная задача
любой поисковой системы – доставлять
людям именно ту информацию, которую они
ищут. А научить пользователей делать
«правильные» запросы к системе, т.е. запросы,
соответствующие принципам работы поисковых
систем, невозможно. Поэтому разработчики
создают такие алгоритмы и принципы работы
поисковых систем, которые бы позволяли
находить пользователям искомую ими информацию.
Это означает, поисковая система должна
«думать» так же, как думает пользователь
при поиске информации. Когда пользователь
обращается с запросом к поисковой машине,
он хочет найти то, что ему нужно, максимально
быстро и просто. Получая результат, он
оценивает работу системы, руководствуясь
несколькими основными параметрами. Нашел
ли он то, что искал? Если не нашел, то сколько
раз ему пришлось перефразировать запрос,
чтобы найти искомое? Насколько актуальную
информацию он смог найти? Насколько быстро
обрабатывала запрос поисковая машина?
Насколько удобно были представлены результаты
поиска? Был ли искомый результат первым
или же сотым? Как много ненужного мусора
было найдено наравне с полезной информацией?
Найдется ли нужная информация, при обращении
к поисковой системе, скажем, через неделю,
или через месяц?
Для того, чтобы удовлетворить ответами
все эти вопросы, разработчики поисковых
машин постоянно совершенствуют алгоритмы
и принципы поиска, добавляют новые функции
и возможности, всячески пытаются ускорить
работу системы.
2.1 Основные характеристики
поисковой системы
•Полнота - одна из основных характеристик
поисковой системы, представляющая собой
отношение количества найденных по запросу
документов к общему числу документов
в сети Интернет, удовлетворяющих данному
запросу. К примеру, если в Интернете имеется
100 страниц, содержащих словосочетание
«как выбрать автомобиль», а по соответствующему
запросу было найдено всего 60 из них, то
полнота поиска будет 0,6. Очевидно, что
чем полнее поиск, тем меньше вероятность
того, что пользователь не найдет нужный
ему документ, при условии, что он вообще
существует в Интернете.
• Точность - еще одна основная характеристика
поисковой машины, которая определяется
степенью соответствия найденных документов
запросу пользователя. Например, если
по запросу «как выбрать автомобиль» находится
100 документов, в 50 из них содержится словосочетание
«как выбрать автомобиль», а в остальных
просто наличествуют эти слова («как правильно
выбрать магнитолу и установить в автомобиль»),
то точность поиска считается равной 50/100
(=5). Чем точнее поиск, тем быстрее пользователь
найдет нужные ему документы, тем меньше
различного рода «мусора» среди них будет
встречаться, тем реже найденные документы
не будут соответствовать запросу.
• Актуальность - не менее важная составляющая
поиска, которая характеризуется временем,
проходящим с момента публикации документов
в сети Интернет, до занесения их в индексную
базу поисковой системы. Например, на следующий
день после появления интересной новости,
большое количество пользователей обратились
к поисковым системам с соответствующими
запросами. Объективно с момента публикации
новостной информации на эту тему прошло
меньше суток, однако основные документы
уже были проиндексированы и доступны
для поиска, благодаря существованию у
крупных поисковых систем так называемой
«быстрой базы», которая обновляется несколько
раз в день.
•Скорость поиска тесно связана с его
устойчивостью к нагрузкам. Например,
по данным ООО «Рамблер Интернет Холдинг»,
на сегодняшний день в рабочие часы к поисковой
машине Рамблер приходит около 60 запросов
в секунду. Такая загруженность требует
сокращения времени обработки отдельного
запроса. Здесь интересы пользователя
и поисковой системы совпадают:
посетитель желает получить результаты
как можно быстрее, а поисковая машина
должна отрабатывать запрос максимально
оперативно, чтобы не тормозить вычисление
следующих запросов.
• Наглядность представления результатов
является важным компонентом удобного
поиска. По большинству запросов поисковая
машина находит сотни, а то и тысячи документов.
Вследствие нечеткости составления запросов
или неточности поиска, даже первые страницы
выдачи не всегда содержат только нужную
информацию. Это означает, что пользователю
зачастую приходится производить свой
собственный поиск внутри найденного
списка. Различные элементы страницы выдачи
поисковой системы помогают ориентироваться
в результатах поиска.
Список литературы
Информация о работе Принципы эффективной работы с поисковыми системами