Поиск информации в Интернет

Автор работы: Пользователь скрыл имя, 04 Ноября 2010 в 16:26, Не определен

Описание работы

Методическое пособие

Скачать архив (62.88 Кб) Сколько стоит заказать работу?

Файлы: 1 файл

Информ.doc

— 251.50 Кб (Скачать файл)

Основные принципы формирования и обработки запросов в поисковых системах

Информационные основы поиска информации в Интернет

Рассмотрим некоторые понятия теории информационного поиска. Итак, у вас возникает потребность найти информацию по определенной теме — ИНФОРМАЦИОННАЯ ПОТРЕБНОСТЬ. Эта информационная потребность часто (как правило) даже не может быть точно выражена словами, и выражается только в оценке просматриваемых документов -подходит или не подходит. В теории информационного поиска вместо слова «подходит» используют термин «пертинентный документ», а вместо «не подходит» - «не пертинентный». Слово «пертинентный» происходит от английского «pertinent», что значит «относящийся к делу, подходящий по сути». Субъективно понимаемая цель информационного поиска - найти все пертинентные и только пертинентные документы (мы хотим найти «только то, что хотим, и ничего больше»).

Эта цель недостижима. Мы часто в состоянии оценить пертинентность документа только в сравнении с другими документами. Для того, чтобы было с чем сравнивать, необходимо некоторое количество непертинентных документов. Эти документы называются «шумом». Слишком большой шум затрудняет выделение пертинентных документов, слишком малый - не дает уверенности в том, что найдено достаточное количество пертинентных документов (раз мы видим только пертинентные документы, нет никакой уверенности в том, что и среди тех документов, которые не попались нам на глаза, тоже не окажутся пертинентные). Практика показывает, что когда количество непертинентных документов лежит в интервале от 10% до 30%, ищущий ощущает себя комфортно, не теряясь в море шума и считая, что количество найденных документов - удовлетворительно. Когда документов

много, используется информационно-поисковая система (ИПС). В этом случае информационная потребность должна быть выражена средствами, которые «понимает» ИПС - должен быть сформулирован ЗАПРОС. Запрос редко может точно выразить информационную потребность. Однако многие ИПС по разным причинам не могут определить, соответствует ли тот или иной документ запросу. Степень соответствия документа запросу называется релевантностью. Релевантный документ может оказаться непертинентным и наоборот. Известна американская ИПС, которая на запрос, состоящий из единственного слова «Russia» (Россия), выдает список документов, в первом из которых этого слова нет вообще, но зато есть слово «Gagarin». Этот документ нерелевантен, но пертинентен для массовой американской аудитории. В случае, когда ищется информация о шлюпочных якорях (кошках), запрос, состоящий из слова «кошка», почти в любой ИПС дает массу релевантных, но непертинентных документов.

Логические основы поиска информации в Интернет

Логика — наука, изучающая законы и формы человеческих рассуждений - была создана еще в античные времена известным мыслителем Аристотелем, идеи которого оказались столь конструктивными, что на протяжении более двух тысячелетий не претерпели существенных изменений. Формальные методы, предложенные Аристотелем, позволяли с успехом решать задачу анализа при проверке корректности рассуждений, однако оказались слабыми для исчисления высказываний, поскольку основывались только на языковых (вербальных) средствах. Подлинно революционным явилось изобретение в середине прошлого столетия английскими логиками Джорджем Булем (1815-1864) и Огюстом де Морганом (1806-1871) алгебры логики - математического аппарата, позволяющего применять вычисления в рассуждениях, — функции НЕ, И, ИЛИ и др.

Под высказыванием в логике понимается грамматическая конструкция, в которой выражается законченная мысль (смысл высказывания) о связи объектов, обозначаемых входящими в него терминами. Логическое значение высказывания может быть определено только как ИСТИНА (истинное высказывание) или ЛОЖЬ (ложное высказывание).

В контексте интересующей нас предметной области, а именно — поиск информации в Интернет по ключевым словам, мы будем моделировать работу поисковых машин, реагирующих на наши запросы. В простейшем случае (поиск по одному ключевому слову) запрос выражается требованием найти среди всех доступных данному поисковому серверу документов -имена (и, собственно, URL-адреса) документов, в которых содержится интересующий нас термин. Такой запрос обычно называют критерием поиска. Используя определенную систему индексации, поисковый сервер для каждого документа определяет логическое значение высказывания: «В данном документе содержится запрашиваемое ключевое слово». Имена документов, для которых установлено истинное значение этого высказывания, заносятся в результирующий список. Другими словами, результатом поиска будет являться список документов, удовлетворяющих заданному критерию поиска. В начале списка выводится общее количество найденных документов, а затем - сам список с необходимыми комментариями. Можно задать ограничение на количество документов расположенных на одной странице списка (не путайте страницу с экраном), а специальные средства в виде переключателей позволяют проводить быструю навигацию по страницам.

Основная проблема, с которой сталкиваются пользователи при поиске информации в Интернет по ключевым словам, сводится к двум крайним случаям:

количество документов, удовлетворяющих заданному критерию поискаравно нулю. Это возникает в тех случаях, когда в запросе используются«экзотические» термины или же когда критерий запроса слишком сложен.Сложен не для компьютера, обрабатывающего запрос, а в том смысле, чтони один из проанализированных документов не удовлетворяет данномузапросу.
количество найденных документов превышает несколько сотен или дажетысяч (нередко эта цифра достигает десятков тысяч). Поисковый серверформирует этот список на удивление быстро, однако пользы извлечь изнего невозможно. В этом случае, не теряя надежды, что среди найденныхдокументов могут оказаться действительно нужные, надопереформулировать критерий поиска с целью получить реальнообозримый список (обычно не более 100-200 документов), с которымивпоследствии несложно будет справиться.

Если количество найденных документов насчитывает несколько десятков, то это свидетельствует или о том, что вам крупно повезло, или что вы уже стали настоящим асом, который с Интернет на «ты». В первом случае критерий поиска может быть «хороший», а ни один из документов не представляет для вас никакого интереса — такое тоже бывает.

Для того, чтобы синтаксически (с точки зрения правильности написания) и семантически (с точки зрения корректности вложенного смысла) грамотно составить расширенный критерий поиска необходимо обладать начальными знаниями в области алгебры логики, элементы которой мы, сами до того не догадываясь, используем в повседневном общении на интуитивном уровне. Все развитые языки имеют союзы, которые являются аналогами основных логических операций. В некоторых случаях прямое отождествление языковых союзов и логических операций таит в себе определенную опасность, и об этом не следует забывать при формировании критерия расширенного поиска информации. Здесь же заметим, что различные поисковые сервера могут использовать различные символы для обозначения идентичных логических операций. Это без труда может быть установлено в обязательно присутствующих справочных системах помощи (help). Мы же постараемся применять те основные обозначения, которые являются не только традиционными в классической литературе по логике, но и наиболее употребимыми при составлении запросов для поисковых серверов.

А теперь обратимся к основным операциям алгебры логики.

Операция отрицания НЕ (NOT,~,~)

Это одноместная, т.е. применяемая только к одному аргументу, операция. Обычно она записывается перед операндом, но в некоторых случаях может изображаться как черта, написанная над операндом.

Словесно она описывается следующим образом: результатом проведения операции НЕ является функция, имеющая значение, логически противоположное значению аргумента, т.е. если аргумент принимает значение ЛОЖЬ, то функция принимает значение ИСТИНА и наоборот. Графически эту операцию можно отобразить следующим образом:

Множество всех документов, допустимых поисковому серверу

A Множество документов,содержащих термин "A"

HE–A Множество документов, НЕ содержащих термин "А"

Операция конъюнкции «И» (AND, &, +)

Эта операция может иметь несколько (но не менее двух) операндов. Результатом операции конъюнкции является функция, принимающая значение ИСТИНА тогда и только тогда когда истинны одновременно оба аргумента (в общем случае - все).

Графическая интерпретация операции И имеет следующий вид:

Как видно из диаграммы, использование операции «И» позволяет ограничить количество найденных документов, поскольку требует, чтобы интересующие нас термины содержались в них одновременно.

Операция дизъюнкции «ИЛИ» (OR, I, !)

Результатом операции дизъюнкции является функция, принимающая значение ИСТИНА, когда хотя бы один из аргументов истинен. Графическая интерпретация операций ИЛИ:

Как видно из диаграммы, применение функции ИЛИ приводит к увеличению количества документов, удовлетворяющих критерию поиска. Использование этой функции применительно к трем и более ключевым словам может привести к взрывоопасному увеличению количества найденных документов и, что главное, мало поможет в поиске необходимых - будьте внимательны!

Функция «AND NOT-»

При формировании критерия расширенного поиска весьма полезной может оказаться функция «a AND NOT-b», которая дает запрос на поиск документов, содержащих термин «а» и одновременно не содержащих термин «b». Некоторые поисковые серверы имеют зарегистрированное обозначение для этой функции.

Графически диаграмма для функции «a AND NOT-b» представлена ниже.

В инструментах поиска современных серверов кроме функций, позволяющих установить логические отношения между документами, содержащими интересующие вас термины, могут также присутствовать операции для определения семантической близости определенных терминов «NEAR» — рядом. Накопив определенный опыт в работе с относительно простыми запросами, вы без труда освоите самостоятельно более сложные элементы поиска. Главное здесь - последовательно накапливать индивидуальный опыт, не стесняться спрашивать у коллег и, естественно, обращаться к литературе и справочным системам поисковых машин.

Основные поисковые системы

Поиск документов на русском языке

Еще несколько лет назад о появлении мощных поисковых систем, помогающих в нахождении документов на русском языке, можно было лишь мечтать. Достаточно сложная морфология русского языка затрудняла эту задачу, не позволяя напрямую применить проверенные западные алгоритмы. Еще одна проблема русскоязычного Интернета — это наличие нескольких национальных сетевых кодировок. Для обычного англоязычного Web-сервера эта проблема решается просто. К русскоязычной поисковой машине предъявляются более жесткие требования. Дело в том, что далеко не все серверы поддерживают все или по крайней мере основные кодировки. Часть из них поддерживает или только KOI-8, или только Windows 1251, и только примерно треть поддерживает все или 2-3 основные кодировки. Если вы вводите запрос в окне поискового сервера в определенной кодовой странице, то не сможете найти ту информацию, которая существует в другой кодировке на серверах, поддерживающих какую-либо одну кодировку, если ваши кодовые страницы не совпадают. Для получения полной информации вам придется воспользоваться всеми кодировками, поддерживаемыми поисковыми серверами.

Информация о работе Поиск информации в Интернет