Автор работы: Пользователь скрыл имя, 08 Февраля 2011 в 20:18, контрольная работа
Поисковые системы уже давно стали неотъемлемой частью российского Интернета. В силу того, что они, хотя и различными средствами, самостоятельно обеспечивают все этапы обработки информации от ее получения с узлов-первоисточников до предоставления пользователю возможности поиска, их часто называют автономными поисковыми системами.
Введение………………………………………………………………………….2
1 Поисковые машины: состав, функции, принцип работы
1.1 Состав поисковых систем………………………………….………………3
1.2 Особенности поисковых машин…………………………………………..4
1.3 Принципы работы поисковых систем……………………………………..4
2 Обзор функционирования поисковых систем
2.1 Зарубежные поисковые системы: состав и принципы работы…………12
2.2 Русскоязычные поисковые системы: состав и принципы работы….…..14
Вывод………………………………………………………………..……………16
Список используемой литературы…………………………………..………….17
Содержание
Введение…………………………………………………………
1 Поисковые машины: состав, функции, принцип работы
1.1 Состав
поисковых систем………………………………….
1.2 Особенности
поисковых машин………………………………………
1.3 Принципы работы поисковых систем……………………………………..4
2 Обзор
функционирования поисковых
2.1 Зарубежные поисковые системы: состав и принципы работы…………12
2.2 Русскоязычные поисковые
Вывод……………………………………………………………….
Список
используемой литературы…………………………………..………….
Введение
Поисковые
системы уже давно стали
Поисковые
системы сейчас – это огромные
и сложные механизмы,
Большинство
пользователей поисковых систем
никогда не задумывались (либо задумывались,
но не нашли ответа) о принципе работы
поисковых систем, о схеме обработки запросов
пользователей, о том, из чего эти системы
состоят и как функционируют… Поисковые
системы можно сравнить со справочной
службой, агенты которой обходят предприятия,
собирая информацию в базу данных. При
обращении в службу информация выдается
из этой базы. Данные в базе устаревают,
поэтому агенты их периодически обновляют.
Некоторые предприятия сами присылают
данные о себе, и к ним агентам приезжать
не приходится. Иными словами, справочная
служба имеет две функции: создание и постоянное
обновление данных в базе и поиск информации
в базе по запросу клиента.
1 Поисковые машины: состав, функции, принцип работы
1.1 Состав
поисковых систем
Поисковая система - это программно-аппаратный комплекс, предназначенный для осуществления поиска в сети Интернет и реагирующий на запрос пользователя, задаваемый в виде текстовой фразы (поискового запроса), выдачей списка ссылок на источники информации, в порядке релевантности (в соответствии запросу). Наиболее крупные международные поисковые системы: «Google», «Yahoo», «MSN». В русском Интернете это – «Яндекс», «Рамблер», «Апорт».
Аналогично, поисковая машина состоит из двух частей: так называемого робота (или паука), который обходит серверы Сети и формирует базу данных поискового механизма.
База робота в основном формируется им самим (робот сам находит ссылки на новые ресурсы) и в гораздо меньшей степени - владельцами ресурсов, которые регистрируют свои сайты в поисковой машине. Помимо робота (сетевого агента, паука, червяка), формирующего базу данных, существует программа, определяющая рейтинг найденных ссылок.
Принцип работы поисковой машины сводится к тому, что она опрашивает свой внутренний каталог (базу данных) по ключевым словам, которые пользователь указывает в поле запроса, и выдает список ссылок, ранжированный по релевантности.
Следует
отметить, что, отрабатывая конкретный
запрос пользователя, поисковая система
оперирует именно внутренними ресурсами
(а не пускается в путешествие
по Сети, как часто полагают неискушенные
пользователи), а внутренние ресурсы,
естественно, ограниченны. Несмотря на
то что база данных поисковой машины постоянно
обновляется, поисковая машина не может
проиндексировать все Web-документы: их
число слишком велико. Поэтому всегда
существует вероятность, что искомый ресурс
просто неизвестен конкретной поисковой
системе.
1.2 Особенности поисковых систем
В работе поисковый процесс представлен четырьмя стадиями: формулировка (происходит до начала поиска); действие (начинающийся поиск); обзор результатов (результат, который пользователь видит после поиска); и усовершенствование (после обзора результатов и перед возвращением к поиску с иной формулировкой той же потребности). Более удобная нелинейная схема поиска информации состоит из следующих этапов:
- фиксация информационной потребности на естественном языке;
- выбор нужных
поисковых сервисов сети и
точная формализация записи
- выполнение созданных запросов;
- предварительная обработка и выборка полученных списков ссылок на документы;
- обращение по выбранным адресам за искомыми документами;
- предварительный
просмотр содержимого
- сохранение
релевантных документов для
- извлечение из релевантных документов ссылок для расширения запроса;
- изучение всего
массива сохраненных
- если информационная
потребность не полностью
1.3 Принципы работы поисковых систем
Задача любой поисковой системы – доставлять людям ту информацию, которую они ищут. Научить людей делать “правильные” запросы, т.е. запросы, соответствующие принципам работы поисковых систем невозможно. Поэтому разработчики создают такие алгоритмы и принципы работы поисковых систем, которые бы позволяли находить пользователям именно ту информацию, которую они ищут. Это означает, поисковая система должна “думать” также как думает пользователь при поиске информации.
Поисковые системы в большинстве своем работает по принципу предварительного индексирования. По такому же принципу работают база данных большинства поисковых систем.
Есть и другой принцип построения. Прямой поиск. Он заключается в том, что вы в поиске ключевого слова перелистываете книгу страницу за страницей. Конечно, этот способ гораздо мене эффективен.
В варианте с инвертированным индексом поисковые системы сталкиваются с проблемой величины файлов. Как правило, они значительно велики. Эту проблему обычно решают двумя методами. Первый заключается в том, что из файлов удаляется все лишнее, а остается лишь то, что действительно нужно для поиска. Второй метод заключается в том, что для каждой позиции запоминается не абсолютный адрес, а относительный т.е. разница адресов между текущей и предыдущей позициями.
Таким образом, два главных процесса, выполняемых поисковой системой – это индексирование сайтов, страниц и поиск. В общем, процесс индексирования для поисковиков проблем не вызывает. Проблемой является обработка миллиона запросов в сутки. Это связано с большими объемами информации, которая подвергается обработке больших компьютерных комплексов. Главный фактор, определяющий количество участвующих в поиске серверов, - поисковая нагрузка. Это объясняет некоторые странности возникающие при поиске информации.
Поисковые системы состоят из пяти отдельных программных компонент:
spider (паук): браузероподобная программа, которая скачивает веб-страницы.
crawler : «путешествующий» паук, который автоматически идет по всем ссылкам, найденным на странице.
indexer (индексатор): «слепая» программа, которая анализирует веб-страницы, скаченные пауками.
the database (база данных): хранилище скаченных и обработанных страниц.
search engine results engine (система выдачи результатов): извлекает результаты поиска из базы данных.
Spider: Паук – это программа, которая скачивает веб-страницы. Он работает точно как ваш браузер, когда вы соединяетесь с веб-сайтом и загружаете страницу. Паук не имеет никаких визуальных компонент. То же действие (скачивание) вы можете наблюдать, когда просматриваете некоторую страницу и когда выбираете «просмотр HTML-кода» в своем браузере.
Crawler: Как и паук скачивает страницы, он может «раздеть» страницу и найти все ссылки. Это его задача – определять, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов.
Indexer: Индексатор разбирает страницу на различные ее части и анализирует их. Элементы типа заголовков страниц, заголовков, ссылок, текста, структурных элементов, элементов BOLD, ITALIC и других стилевых частей страницы вычленяются и анализируются.
Database: База данных – это хранилище всех данных, которые поисковая система скачивает и анализирует. Это часто требует огромных ресурсов.
Search Engine Results: Система выдачи результатов занимается ранжированием страниц. Она решает, какие страницы удовлетворяют запросу пользователя, и в каком порядке они должны быть отсортированы. Это происходит согласно алгоритмам ранжирования поисковой системы. Эта информация является наиболее ценной и интересной для нас – именно с этим компонентом поисковой системы взаимодействует оптимизатор, пытаясь улучшить позиции сайта в выдаче, поэтому в дальнейшем мы подробно рассмотрим все факторы, влияющие на ранжирование результатов.
Работа поискового указателя происходит в три этапа, из которых два первых являются подготовительными и незаметны для пользователя. Сначала поисковый указатель собирает информацию из World Wide Web. Для этого используют специальные программы, аналогичные браузеры. Они способны скопировать заданную Web-страницу на сервер поискового указателя, просмотреть ее, найти все гипетэссылки, которые на ней имеютте ресурсы, которые найдены там, снова разыскать имеющиеся в них гиперссылки и т. д. Подобные программы называют червяками, пауками, гусеницами, краулерами, спайдерами и другими подобными именами. Каждый поисковый указатель эксплуатирует для этой цели свою уникальную программу, которую нередко сам и разрабатывает. Многие современные поисковые системы родились из экспериментальных проектов, связанных с разработкой и внедрением автоматических программ, занимающихся мониторингом Сети. Теоретически, при удачном входе спайдер способен прочесать все Web-пространство за одно погружение, но на это надо очень много времени, а ему еще необходимо периодически возвращаться к ранее посещенным ресурсам, чтобы контролировать происходящие там изменения и выявлять «мертвые» ссылки, т. е. потерявшие актуальность.
После
копирования разысканных Web-
Технически модуль скачивания бывает либо мультимедийным (Altavista Merkator), либо используется асинхронный ввод-вывод (GoogleBot). Также разработчикам постоянно приходится решать задачу многопоточного DNS-сервера.
В мультитредовой схеме скачивающие треды называются червями (worms), а их менеджер – погоняльщиком червей (wormboy).
Не многие серверы выдержат нагрузки нескольких сотен червей, поэтому менеджер следит затем, чтобы не перегружать серверы.
Для скачивания страниц роботы используют протоколы HTTP. Работает он следующим образом. Робот на сервер передает запрос “get/path/document” и другие полезные строки, относящиеся в HTTP запросу. В ответ робот получает текстовый поток, содержащий служебную информацию и непосредственно сам документ.
Целью скачивания является уменьшение сетевого трафика при максимальной полноте.
Абсолютно все поисковые роботы подчиняются файлу robots.txt, где web мастер может ограничить индексацию страниц роботом.Также у роботов есть и свои фильтры.
Например, некоторые роботы опасаются индексировать динамические страницы. Хотя сейчас web мастеры без проблем обходят эти места. Да и таких роботов остается все меньше.
Также у каждого бота есть список ресурсов, отнесенных к спаму. Соответственно, эти ресурсы посещаются ботами значительно меньше, либо вообще игнорируются в течение определенного времени, при этом поисковые системы не фильтруют информацию
У моделей скачивания в поддержке есть другие модули, выполняющие вспомогательные функции. Они помогают уменьшать трафик, увеличивать глубину поиска, обрабатывают часто обновляемые ресурсы, хранят URL и ссылки, чтобы повторно не скачивать ресурсы.
Существуют модули отслеживания дубликатов. Они помогают отсеивать страницы с повторной информацией. Т.е. если робот находит дубликат уже существующей страницы или со слегка измененной информацией, то он просто не идет дальше по ссылкам страницы.Есть отдельный модуль определения кодировки и языка документа.