Автоматизированная система поиска информации

Автор работы: Пользователь скрыл имя, 12 Марта 2011 в 15:40, курсовая работа

Описание работы

Для поиска информации в миллионах существующих сайтов, поисковики используют специальную программу-паук (движок, бот, робот). Эта программа составляет списки слов, найденных на страницах. Поисковых пауков часто называют - ботами. Каждый поисковый бот имеет свое название, чтобы можно было отличать ботов именно данной поисковой системы.

Содержание работы

Введение 3
1 Автоматизированная система поиска информации 6
2 Принцип работы поисковых систем 8
2.1 Виды поиска 12
2.2 Методы поиска 14
3 Индексирование информации 16
4 Кластеризация 19
5 Выдача результата запроса 21
Заключение 24
Глоссарий 26
Список использованных источников. 27

Файлы: 1 файл

курсоваяиз.doc

— 118.00 Кб (Скачать файл)

     Значит  основная задача выполняемая математической моделью любой поисковой системы - это поиск документов (страниц) в своей базе обратных индексов соответствующих данному поисковому запросу и сортировка этих найденных документов в порядке убывания их релевантности поисковому запросу. Использование простой логической математической модели, когда документ будет являться найденным, если в нем встречается искомая фраза, нам не подойдет, в силу огромного количества таких документов, выдаваемых на рассмотрение пользователю.

     Поисковая система должна не только предоставить список всех документов (веб-страниц), на которых встречаются слова из поискового запроса. Она должна предоставить этот список документов в такой форме, когда в самом начале этого списка будут находиться наиболее соответствующие запросу пользователя документы (осуществить сортировку найденных страниц по релевантности). Эта задача не тривиальна и по умолчанию не может быть выполнена идеально.

 

  1. Кластеризация
 

     Кластеризация документов — одна из задач информационного  поиска. Целью кластеризации документов является автоматическое выявление  групп семантически похожих документов среди заданного фиксированного множества документов. Следует отметить, что группы формируются только на основе попарной схожести описаний документов, и никакие характеристики этих групп не задаются заранее, в отличие от классификации документов, где категории задаются заранее.

     Кластерный  анализ — задача разбиения заданной выборки объектов (ситуаций) на подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно  отличались. Задача кластеризации относится к статистической обработке, а также к широкому классу задач обучения без учителя.

     Кластерный  анализ — это многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке  объектов, и затем упорядочивающая объекты в сравнительно однородные группы (кластеры)(Q-кластеризация, или Q-техника, собственно кластерный анализ). Кластер — группа элементов, характеризуемых общим свойством, главная цель кластерного анализа — нахождение групп схожих объектов в выборке. Спектр применений кластерного анализа очень широк: его используют в археологии, медицине, психологии, химии, биологии, государственном управлении, филологии, антропологии, маркетинге, социологии и других дисциплинах. Однако универсальность применения привела к появлению большого количества несовместимых терминов, методов и подходов, затрудняющих однозначное использование и непротиворечивую интерпретацию кластерного анализа.

     Кластерный  анализ выполняет следующие основные задачи:

     - разработка типологии или классификации.

     - исследование полезных концептуальных схем группирования объектов.

     - порождение гипотез на основе исследования данных.

     - проверка гипотез или исследования для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных.

     Независимо  от предмета изучения применение кластерного  анализа предполагает следующие  этапы:

     — Отбор выборки для кластеризации.

     — Определение множества переменных, по которым будут оцениваться  объекты в выборке.

     — Вычисление значений той или иной меры сходства между объектами.

     — Применение метода кластерного анализа  для создания групп сходных объектов.

     — Проверка достоверности результатов  кластерного решения.

     Кластерный  анализ предъявляет следующие требования к данным: во-первых, показатели не должны коррелировать между собой; во-вторых, показатели должны быть безразмерными; в-третьих, их распределение должно быть близко к нормальному; в-четвёртых, показатели должны отвечать требованию «устойчивости», под которой понимается отсутствие влияния на их значения случайных факторов; в-пятых, выборка должна быть однородна, не содержать «выбросов». Если кластерному анализу предшествует факторный анализ, то выборка не нуждается в «ремонте» — изложенные требования выполняются автоматически самой процедурой факторного моделирования. В противном случае выборку нужно корректировать8.

 

     Глоссарий

п/п

Понятия

Содержание

 1

FTP

протокол, предназначенный для передачи файлов

 2

RSS

семейство XML-форматов, предназначенных для  описания лент новостей

 3

бот

программа, выполняющая автоматически и/или  по заданному расписанию какие-либо действия.

 4

булевы  операторы

операторы математической логики.

 5

дорвей

вид веб-страницы, специально оптимизированная под один или несколько поисковых  запросов

 6

клипарт

набор графических элементов дизайна  для составления целостного графического дизайна.

 7

контент

любое информационно значимое наполнение информационного ресурс.

 8

корреляция

статистическая  взаимосвязь двух или нескольких случайных величин

 9

релевантность

семантическое соответствие поискового запроса и  поискового образа документа.

 10

хеш-таблиц

это структура данных, она позволяет хранить пары (ключ, значение) и выполнять три операции: операцию добавления новой пары, поиска и удаления пары

 

     Список  использованных источников

 
 
     
  1. Ашманов И. С., Иванов А. А. «Продвижение сайта в поисковых системах» — М.: «Вильямс», 2007. — 304 с.
  2. Байков В. Д.  «Интернет. Поиск информации. Продвижение сайтов» — СПб.: БХВ-Петербург, 2000. — 288 с.
  3. Галкин В.А., Григорьев Ю.А. «Телекоммуникации и сети»  —  М.:  МГТУ им. Н.Э. Баумана, 2003. - 607 с.
  4. Гусев В. С. «Аналитика Web-сайтов. Использование аналитических инструментов для продвижения в Интернет» — М.: «Диалектика», 2007. – 176 с.
  5. Колисниченко Д. Н. «Поисковые системы и продвижение сайтов в Интернете» — М.: Диалектика, 2007. — 272 с.

     6 Ландэ Д. В. «Поиск знаний в Internet» — М.: Диалектика, 2005. — 272 с.

     7 Ландэ Д. В., Снарский А. А., Безсуднов И. В. «Интернетика: Навигация в сложных сетях: модели и алгоритмы» — M.: Либроком , 2009. — 264 с.

     8 Мандель И. Д. «Кластерный анализ» — М.: Финансы и статистика, 1988. – 176 с.

     9 Маннинг К., Рагхаван П., Шютце Х. «Введение в информационный поиск» — М.: Вильямс, 2010. – 528 с.

     10  Севостьянов И. О. «Поисковая оптимизация. Практическое руководство по продвижению сайта в Интернете» — СПб.: «Питер», 2010. — 240 с. 

 

     Приложение А 

     Схема работы автоматизированной системы  поиска информации

     

Информация о работе Автоматизированная система поиска информации