Автоматизированная система поиска информации

Автор работы: Пользователь скрыл имя, 12 Марта 2011 в 15:40, курсовая работа

Описание работы

Для поиска информации в миллионах существующих сайтов, поисковики используют специальную программу-паук (движок, бот, робот). Эта программа составляет списки слов, найденных на страницах. Поисковых пауков часто называют - ботами. Каждый поисковый бот имеет свое название, чтобы можно было отличать ботов именно данной поисковой системы.

Содержание работы

Введение 3
1 Автоматизированная система поиска информации 6
2 Принцип работы поисковых систем 8
2.1 Виды поиска 12
2.2 Методы поиска 14
3 Индексирование информации 16
4 Кластеризация 19
5 Выдача результата запроса 21
Заключение 24
Глоссарий 26
Список использованных источников. 27

Файлы: 1 файл

курсоваяиз.doc

— 118.00 Кб (Скачать файл)

     Содержание 

 

     Введение 

     В современном Интернете очень  многое зависит от автоматизированных поисковых систем. Существуют миллионы web-ресурсов, которые, даже имея нужную для нас информацию, так и не попадут в поле нашего зрения из-за того, что мы не смогли их найти. Как можно найти то, что нужно в интернете? Прошло то время, когда люди общались в конференциях, на форумах и давали друг другу ссылки на интересные сайты. Разумеется, такой обмен все еще существует, но его трудно назвать эффективным для поиска конкретной информации. Для этого, чаще всего, пользуются системами автоматизированного поиска информации (поисковыми машинами или системами). Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на ftp-серверах, товары в интернет-магазинах. По данным аналитической компании comScore все поисковые сайты в декабре 2007 года обработали 66 миллиардов 221 миллионов поисковых запросов.

     Поисковые системы представляют собой специальные сайты в сети, которые устроены так, чтобы людям могли отыскать нужную им информацию в интернете. Для того чтобы показать где находится нужный документ или файл, этот файл или документ должен быть уже когда то найден.

     Для поиска информации в миллионах существующих сайтов, поисковики используют специальную программу-паук (движок, бот, робот). Эта программа составляет списки слов, найденных на страницах. Поисковых пауков часто называют - ботами. Каждый поисковый бот имеет свое название, чтобы можно было отличать ботов именно данной поисковой системы. Это имя отображается обычно в поле User-Agent запроса к серверу. Например, бот Google имеет имя - Googlebot, а Яндекса - Yandex. Эти названия вебпрограммист может использовать, например, в файле robots.txt , чтобы запретить определенному поисковику индексировать некоторые страницы1. Лучшие поисковые системы обрабатывают миллионы запросов и индексируют миллионы страниц в день.

     Достоинства и недостатки поисковых машин  определяются различными характеристиками. Принципиальным является то, насколько полно система обследует документы: все ли слова заносятся в индексные файлы или же только термины из названий, заголовков, первых нескольких строк или страниц  текста,  и т. д. Важна также периодичность обновления данных и критерии оценки понятий при определении степени их соответствия запросу.

     Не  последнюю роль играют простота и  удобство интерфейса, возможность использовать булевы операторы и операторы  расстояния между словами в тексте документа, а также дополнительные сервисные функции, например, поиск новостей, музыкальных файлов, товаров, и т. д.

     В обслуживание, осуществляемое информационно-поисковой  системой, входит предварительная обработка  текста, в том числе составление  индекса, по которому затем происходит поиск. Такая поисковая система  может быть организована как база данных с текстовыми полями.

     Другой  вариант организации - работа с внешними текстами. В этом случае тексты сохраняют  первоначальный вид, то есть остаются файлами в файловой системе, страницами на сервере или полями какой-то другой базы данных, а индекс снабжается лишь ссылками на соответствующие источники.

     Основные  функции поисковых машин:

     - по заданным ключевым словам  они осуществляют поиск в интернете; 

     - поисковики индексируют слова,  которые они ищут и места,  в которых их нашли 

     - поисковики дают возможность  искать по своим базам, в  которые уже занесены проиндексированные  ключевые слова или их комбинации.

     Центральная задача информационного поиска — помочь пользователю удовлетворить его информационную потребность. Так как описать информационные потребности пользователя технически непросто, они формулируются как некоторый запрос, представляющий из себя набор ключевых слов, характеризующий то, что ищет пользователь2.

     Задать  правильный вопрос поисковой системе  очень важно, так как система может понять не правильно запрос и выдать не те ссылки, которые нужны. Можно задать запрос по одному слову, несколько слов. Но надо знать, когда идет запрос нескольких слов, процесс поиска идет не как словосочетания, а слов по отдельности на всем сайте, то есть, если надо найти именно словосочетание надо задать запрос на точную фразу.

     У поисковых систем есть расширенный  поиск, в котором можно указать, на каком языке нужна информация, какой регион (страна, город и т.д.), какой формат искомого файла, в каком месте web-страницы должны быть искомые слова или словосочетания.

     Так же, не давно, появилась возможность  поиска картинок (изображения), в котором  тоже предусмотрен расширенный вариант  поиска. В расширенном поиске изображения  можно задать тип картинок (любые, из новостей,  с лицами, фото, клипарт, черно-белые), размер, формат картинок.

 

  1. Автоматизированная  система поиска информации
 

     В Интернет сотни миллионов страниц  с информацией. Проблема в том, как  найти именно ту информацию, которая  вам нужна. Именно потребность быстро найти необходимую информацию (желательно не один, а несколько источников) и породила сервисы поисковых систем. Поисковые системы - это сетевые сервисы в Интернет, созданные чтобы помочь пользователю в поиске информации хранящейся на различных сайтах.

     Работа  поисковых систем, к которым часто  и при этом ошибочно относят и  каталоги, полностью автоматизирована и ведется по следующей схеме: сканирование ресурсов с помощью  программы-робота, формирование индексной  базы данных и, наконец, обслуживание запросов по ключевым словам  (Приложение А). Как бы ни были популярны каталоги, должно быть понятно, что реальную доступность информации в Интернете во всем ее объеме могут обеспечить только автоматические индексы.

     Не  последнюю роль играют простота и удобство интерфейса, возможность использовать булевы операторы и операторы расстояния между словами в тексте документа, а также дополнительные сервисные функции, например, поиск новостей, музыкальных файлов, товаров, и т. д.

     В обслуживание, осуществляемое информационно-поисковой системой, входит предварительная обработка текста, в том числе составление индекса, по которому затем происходит поиск. Такая поисковая система может быть организована как база данных с текстовыми полями.

     Другой  вариант организации - работа с внешними текстами. В этом случае тексты сохраняют первоначальный вид, то есть остаются файлами в файловой системе, страницами на сервере или полями какой-то другой базы данных, а индекс снабжается лишь ссылками на соответствующие источники.

     Файлы, с которыми может работать поисковая  машина, могут быть как текстового формата (.html, .htm, .txt, .doc, .rtf, и т.д.), так и графического (.gif, .png, .svg, и т.д.) или мультимедийного (видео, звука и другой информации)3.

     Разные  поисковые системы работают по-разному, однако есть основные задачи, которые решают все поисковики:

     - Сканируют множество сайтов в сети и составляют индекс содержащейся на них информации (индексируют сайты)

     - Позволяют пользователям искать слова и комбинации слов в своем индексе.

     Достоинства и недостатки поисковых машин  определяются различными характеристиками. Принципиальным является то, насколько  полно система обследует документы: все ли слова заносятся в индексные  файлы или же только термины из названий, заголовков, первых нескольких   строк   или страниц текста,  и т. д. Важна также периодичность обновления данных и критерии оценки понятий при определении степени их соответствия запросу.

 

  1. Принцип работы поисковых  систем
 

     Перед тем как поисковые системы  выдадут вам информацию по вашему запросу, они должны сначала найти эту информацию. Разумеется, они не сканируют весь интернет при вводе каждого запроса. Это было бы слишком расточительно и очень долго.

     Вместо  этого поисковики создают некую  базу данных по всем страницам, содержащимся в сети, и производят поиск в этой базе данных. Разумеется, это намного быстрее, чем множество раз проводить поиск по всем сайтам. Как же поисковики заполняют эту свою базу данных (обычно, базу данных называют индексом поисковой системы, а включение определенного сайта в этот индекс называют индексированием сайта).

     Каждый  поисковик имеет специальную  программу - робота, которая и индексирует  сайты. Эта программа называется пауком, а процесс индексирования - ползание паука. И, действительно, если подумать, то процесс напоминает ползание паука по различным сайтам и собирание информации с них (индексация).

     Обычно, поисковые боты начинают свое путешествие  с самых популярных и посещаемых сайтов и страниц в сети. Они  индексируют слова на данной странице, а затем следуют по всем ссылкам с текущей страницы и с других страниц того же сайта. Таким образом поисковый бот довольно быстро сканирует наиболее широко используемые ресурсы сети.

     Рассмотрим, что происходит, когда поисковый  бот пришел на некую страницу и начал ее сканирование. Поисковик составляет список слов, присутствующих на странице и заносит эти слова в свою базу с некоторыми весовыми коэффициентами. Эти коэффициенты затем будут влиять на позиции данной страницы в выдаче поисковика по данному слову или словосочетанию, включающему данное слово4.

     Поисковые системы ищут информацию не в интернете, а в обратных индексах обработанных ими документов сети.

       Разные поисковики используют  разные системы "весов" для  слов на странице. К тому же, обычно поисковики не раскрывают принцип начисления "весов", для того, чтобы веб-мастера искусственно не завышали рейтинг сайта.

     Однако  можно выделить несколько общих  моментов, которые, скорее всего, присутствуют во всех поисковых системах при начислении "веса" слова:

     - Слово, присутствующее в заголовке  страницы (тег title), получит больший  вес, чем то же слово внутри  текста на странице.

     - Слово, присутствующее в тегах  meta, добавит веса странице. Однако  так как содержимое этих тегов  не отображается пользователю, то  возникает соблазн "запихать" в них как можно больше различных слов. Поэтому, есть мнение, что в настоящее время поисковики уделяют содержимому этих тегов все меньше и меньше внимания.

     - Слово в заголовках и подзаголовках  (теги H1, H2, и т.д.) имеет повышенный вес.

     - Слово, выделенное тем или иным  способом (например, жирным (тег B) или  курсивом (тег I)), скорее всего более "ценное" для поисковика.

     - Раньше бытовало мнение, что если  слово расположено в первых 20 строках на странице, то оно  более "ценно" для поисковика. Не думаю, что сейчас это имеет какое-либо значение.

     - Слово, у которого форма точно  соответствует введенному в строке  запроса, явно имеет больший  вес, чем другая форма этого  слова. Например, если пользователь  ввел "Слон", то слово "слон" на странице будет цениться больше, чем слово "слону".

     - Есть понятие "вес слова  на странице". Это отношение  количества повторений данного  слова на странице к общему  количеству слов на странице. Раньше это был существенный  фактор для поисковиков. Однако  сегодня поисковики уделяют ему все меньше внимания, так как можно создать страницу заполненную одним и тем же словом, которая, очевидно, будет иметь "вес" близкий к 1. Другими словами, этот параметр может быть легко поднят нечестным на руку веб-мастером.

     Существует  еще множество различных приемов, как можно поднять "вес" слова на странице, однако, насколько поисковики учитывают тот или иной параметр, точно не знает никто.

Информация о работе Автоматизированная система поиска информации