Автор работы: Пользователь скрыл имя, 12 Марта 2011 в 15:40, курсовая работа
Для поиска информации в миллионах существующих сайтов, поисковики используют специальную программу-паук (движок, бот, робот). Эта программа составляет списки слов, найденных на страницах. Поисковых пауков часто называют - ботами. Каждый поисковый бот имеет свое название, чтобы можно было отличать ботов именно данной поисковой системы.
Введение 3
1 Автоматизированная система поиска информации 6
2 Принцип работы поисковых систем 8
2.1 Виды поиска 12
2.2 Методы поиска 14
3 Индексирование информации 16
4 Кластеризация 19
5 Выдача результата запроса 21
Заключение 24
Глоссарий 26
Список использованных источников. 27
Скорее всего, каждый поисковик создал свою собственную систему расчета "весов" слов на странице, которая базируется как на параметрах перечисленных выше, так и на других, уникальных для каждого поисковика значениях. Как я уже говорил, система расчета "весов" держится в строжайшей тайне. Разумеется, эти системы у поисковиков подвержены изменениям. Периодически стратегии подсчета корректируются, вводятся новые параметры, изменяются старые.
Поисковик проводит поиск в своей базе. Находит страницы, подходящие под запрос пользователя и выводит их в порядке убывания соответствия запросу. Соответствие запросу называется - релевантностью страницы. Соответствие запросу определяется по определенным алгоритмам. Именно здесь и применяются все "веса" и коэффициенты определенные поисковым ботом при индексировании страницы.
Все становится сложнее, если пользователь ввел не одно, а два или больше слов. Здесь в игру вступают другие факторы. Например, как близко расположены слова на странице друг относительно друга. Очевидно, что чем ближе в тексте искомые слова, тем страница релевантнее.
Что описано выше называется внутренними факторами, влияющими на положение страницы в выдаче поисковика. Существует так же и внешние факторы, причем они не менее (а зачастую даже и более) важны, чем внутренние.
Каждая поисковая система имеет свой параметр, который определяет популярность страницы среди других участников сети Интернет. У разных поисковиков он называется и определяется по-разному, но его назначение остается достаточно простым. Чем популярнее сайт у других участников сети, тем выше его шансы появиться в выдаче поисковой системы.
Это действительно логично. Если на сайт ссылается множество других сайтов, то, скорее всего, там размещен качественный и нужный пользователю контент. Хотя это не всегда так. Именно на этом часто выигрывают проекты, имеющие хороший бюджет. При раскрутке сайта, покупается множество ссылок с других сайтов, поднимая популярность до очень хороших значений5.
2.1
Виды поиска
Систему поиска можно разделить на три вида:
- полнотекстовый поиск
- поиск по метаданным
- поиск изображений
Полнотекстовый поиск — поиск документа в базе данных текстов на основании содержимого этих документов. Первые версии программ полнотекстового поиска предполагали сканирование всего содержимого всех документов в поиске заданного слова или фразы. При использовании такой технологии поиск занимал очень много времени (в зависимости от размера базы), а в интернете был бы невыполним. Современные алгоритмы заранее формируют для поиска так называемый полнотекстовый индекс — словарь, в котором перечислены все слова и указано, в каких местах они встречаются. При наличии такого индекса достаточно осуществить поиск нужных слов в нём и тогда сразу же будет получен список документов, в которых они встречаются.
Поиск по метаданным — это поиск по неким атрибутам документа, поддерживаемым системой — название документа, дата создания, размер, автор и т. д. Метаданные — это информация об используемых данных. Информация об информации. Пример: Имя автора правки в тексте. Этот термин в широком смысле слова используется для любой информации о данных: именах таблиц, колонок в таблице в реляционных базах данных, номер версии в файле программы (то есть как информативная часть в бинарном файле) и т. п.
Метатеги служат для того, чтобы задавать ключевые слова и фразы для web-страницы, и определяют ее основное содержание. Когда ключевые слова повторяются на странице несколько раз, то мета-теги указывают поисковику правильный выбор ключевых слов для индексации страницы. Поисковые пауки умеют выявлять попытки накрутки страницы с помощью популярных поисковых слов, которые при этом не соответствуют содержимому страницы. Для этого они анализируют смысловую связь мета-тегов с содержимым web-страницы.
Структурированные данные, представляющие собой характеристики описываемых сущностей для целей их идентификации, поиска, оценки, управления ими.
Для этого поиска веб-программисты чаще всего используют облако тегов, облако меток, или облако ключевых слов. Облако тегов – это — визуальное представление списка ярлыков (или категорий). Частота упоминаний, поисков, ссылок в интернете с определённого сайта неких слов, терминов, имён отображается в специальной области в виде изображения этих слов в формате гиперссылок. Размер изображения тем больше, чем чаще использовался данный тег (слово, термин или имя).
Поиск изображений — поиск по содержанию изображения. Поисковая система распознает содержание фотографии (загружена пользователем или добавлен URL изображения). В результатах поиска пользователь получает похожие изображения.
Алгоритм поиска должен анализировать содержание изображения, например, цвет представленных на нём объектов, их форму, текстуру, композицию сцены. При отсутствии возможности проанализировать сцену при поиске рассматриваются метаданные: ключевые слова, метки.
2.2
Методы поиска
У
системы автоматизированного
- адресный поиск
- семантический поиск
- документальный поиск
- фактографический поиск
Адресный поиск - процесс поиска документов по чисто формальным признакам, указанным в запросе. Для осуществления нужны следующие условия:
- наличие у документа точного адреса
- обеспечение строгого порядка расположения документов в запоминающем устройстве или в хранилище системы.
Адресами документов могут выступать адреса веб-серверов и веб-страниц и элементы библиографической записи, и адреса хранения документов в хранилище.
Семантический поиск - процесс поиска документов по их содержанию. Для осуществления нужны следующие условия:
- перевод содержания документов и запросов с естественного языка на информационно-поисковый язык и составление поисковых образов документа и запроса.
- составление поискового описания, в котором указывается дополнительное условие поиска.
Принципиальная разница между адресным и семантическим поисками состоит в том, что при адресном поиске документ рассматривается как объект с точки зрения формы, а при семантическом поиске — с точки зрения содержания.
При семантическом поиске находится множество документов без указания адресов. В этом принципиальное отличие каталогов и картотек. Библиотека — собрание библиографических записей без указания адресов.
Документальный поиск - процесс поиска в хранилище информационно-поисковой системы первичных документов или в базе данных вторичных документов, соответствующих запросу пользователя.
Можно выделить два вида документального поиска:
- библиотечный, направленный на нахождение первичных документов.
- библиографический, направленный на нахождение сведений о документах, представленных в виде библиографических записей.
Фактографический поиск - процесс поиска фактов, соответствующих информационному запросу. К фактографическим данным относятся сведения, извлеченные из документов, как первичных, так и вторичных и получаемые непосредственно из источников их возникновения.
Различают два вида фактографического поиска:
-
документально-
- фактологический (описание фактов), предполагающий создание новых фактографических описаний в процессе поиска путем логической переработки найденной фактографической информации6.
Поисковик мог бы просто разместить слово и URL адрес, где оно находится, но тогда не было бы информации о том, где конкретно на странице найдено это слово, сколько раз используется это слово, содержится ли оно в ссылке на другую страницу. Такой способ не позволил бы ранжировать сайты, и обеспечивать выдачу пользователям релевантных результатов. Поэтому поисковик сохраняет данные о количестве ключевых слов на странице и присваивает этому слову весовой коэффициент. В дальнейшем это позволяет выдавать результаты поиска, опираясь на вес данного слова и с учетом его положения на странице. У каждой поисковой системы существует свой алгоритм подсчета весового коэффициента ключевых слов при индексации. Вот почему, по одному и тому же запросу поисковые системы выдают разные результаты.
Для уменьшения объема дискового пространства, вся информация при сохранении кодируется. Например, Google для хранения весовых коэффициентов слов использует 2 байта, это позволяет учитывать большими или прописными буквами написано слово, размер букв и другую необходимую для ранжирования информацию. После того, как информация сжата, начинается ее индексация, это нужно для того, чтобы обеспечивать быстрый поиск нужной информации. Самый эффективный способ для индексации - это построение хеш-таблиц. При хешировании каждому слову присваивается числовое значение, для этого используется определенная формула.
С некоторых букв, в любом языке, начинается гораздо больше слов, чем с остальных букв. Поэтому на поиск слова, начинающегося с более популярной буквы уходит больше времени. Хешинг позволяет уравнять эту разницу, тем самым уменьшить среднее время поиска, кроме того, хешинг отделяет индекс от реальных данных. В хеш-таблице находятся хеш-значения и соответствующие им указатели на данные. Эффективное размещение и индексация совместно обеспечивают максимальную скорость поиска, даже при сложных поисковых запросах7.
Очевидно, что метод простого перебора всех страниц (документов), хранящихся в базе данных поисковиков, не будет являться оптимальным. Этот метод называется алгоритмом прямого поиска и при том, что этот метод позволяет наверняка найти нужную информацию не пропустив ничего важного, он совершенно не подходит для работы с большими объемами данных, ибо поиск будет занимать слишком много времени.
Поэтому для эффективного поиска в больших объемах данных был разработан алгоритм обратных (инвертированных) индексов. И что примечательно, именно этот алгоритм используется всеми крупными поисковыми системами в мире. Поэтому на нем мы остановимся подробнее и рассмотрим принципы его работы.
При
использовании алгоритма
Алгоритм обратных индексов документов используется всеми поисковыми системами, т.к. он позволяет ускорить процесс поиска, но при этом будут неизбежны потери информации за счет искажений внесенных преобразованием документа в индекс-файл. Для удобства хранения файлы обратных индексов обычно хитрым способом сжимаются.
Для того, чтобы осуществлять поиск по обратным индексам документов, содержащимся в базе данных поисковых систем, используется математическая модель, позволяющая упростить процесс обнаружения нужных документов (по введенному пользователем поисковому запросу) и процесс определения релевантности всех найденных документов этому запросу. Чем больше документ соответствует данному запросу (чем он релевантнее), тем выше он должен стоять в поисковой выдаче.
Информация о работе Автоматизированная система поиска информации