Информационно-поисковые языки сети Интернет

Автор работы: Пользователь скрыл имя, 14 Марта 2011 в 18:37, курсовая работа

Описание работы

Предметом являются информационно-поисковые языки сети Интернет.

Для достижения поставленной цели необходимо решить следующие задачи:

•провести анализ теоретической и научно-методической литературы по данной теме;
•описать основные типы информационно-поисковых языков;
•рассмотреть различные ИПС и провести сравнительный анализ применения в них информационно-поисковых языков.

Файлы: 1 файл

Курсовая.doc

— 119.50 Кб (Скачать файл)

     Введение 

     Современный этап развития цивилизации характеризуется  переходом наиболее развитой части  человечества от индустриального общества к информационному. Одним из наиболее ярких явлений этого процесса является возникновение и развития глобальной информационной компьютерной сети.

     В 90-е гг. ХХ в. человечество получило доступ к огромному массиву информации в самых разных предметных областях – миллионам связанных документов, которые расположены на компьютерах  по всему миру. Интернет сегодня  – это неструктурированное распределенное хранилище динамичной информации громадного объёма, в котором постоянно добавляются новые документы, а устаревшие редактируются или удаляются. Колоссальное и непрерывно растущее количество информации приводит к тому, что обеспечение поиска в Интернете становится критически важной задачей. Однако без соответствующих поисковых средств проблема поиска в сети необходимой информации становится в настоящее время практически неразрешимой. Появление поисковых систем сети Интернет стало новым этапом в развитии информационного поиска. Сегодня информационно-поисковые системы(ИПС) сети Интернет эффективно применяют разработанные за много лет методы поиска информации. И важнейшей структурной составляющей ИПС является информационно поисковый язык.[5]

     Быстрый рост и динамическое развитие информационных ресурсов обязывает каждого иметь  разнообразные навыки сложного поиска. Уметь быстро и правильно искать в Интернете значит экономить  время, владеть достоверной и  актуальной информацией, а значит делать верные выводы и принимать правильные решения.

     Все это свидетельствует об актуальности более глубокого изучения   информационно-поисковых языков в сети Интернет, что и определило выбор темы нашего исследования.

     В этой связи целью исследования является рассмотрение в теории и практике возможности использования информационно-поисковых языков в различных поисковых системах сети

     Объектом исследования является интернет как единая информационная среда.

     Предметом являются информационно-поисковые языки сети Интернет.

     Для достижения поставленной цели необходимо решить следующие задачи:

  • провести анализ теоретической и научно-методической литературы по данной теме;
  • описать основные типы информационно-поисковых языков;
  • рассмотреть различные ИПС и провести сравнительный анализ применения в них информационно-поисковых языков.
 

     Глава I. Обзор информационно-поисковых языков сети Интернет

     §1.Информационно-поисковые  языки: классификация 

     Главная задача информационно-поисковой системы - это поиск информации релевантной  информационным потребностям пользователя. Слово релевантность означает соответствие между желаемой и действительно получаемой информацией. Релевантность можно еще представить как меру близости между реально полученными документами и тем, что следовало бы получить из системы. Естественно, что здесь возникает две задачи, которые следует решить: представление информации в системе и формулирование информационных потребностей пользователя. Эти две проблемы тесно связаны друг с другом.

     Наиболее  распространенными моделями представления документов в информационно-поисковой системе являются различные вариации на тему векторной модели, когда документ представляется как набор терминов. Но это не весь текст документа, а только небольшой набор терминов, который отражает его содержание. Базируясь на таком представлении о документе и рассмотрим различные информационно-поисковые языки (ИПЯ). [4]

     Информационно поисковый язык — искусственный  язык, предназначенный для формализованного описания смыслового содержания документов, данных, отдельных понятий или терминов и обеспечения последующего их поиска в информационно-поисковых массивах.

     Формализация  лексики и создание различных  ИПЯ вызвано необходимостью устранения "избыточности" и "недостаточности" естественного языка для целей  информационного поиска.

     Как и в естественных языках, в информационно-поисковых  языках используется некая лексика, то есть свой словарный состав. Лексические  единицы (слова) ИПЯ могут быть простыми (элементарными) или сложными, то есть ИПЯ может иметь или не иметь свои средства  «словообразования» – формирования более сложных лексических единиц из простых.

     Основными элементами ИПЯ являются алфавит, лексика  и грамматика. Алфавит ИПЯ система  знаков, используемых для записи слов и выражений ИПЯ. Лексика, или  словарный состав, ИПЯ совокупность слов, словосочетаний и выражений, используемых для построения текстов ИПЯ.[1]

     По  области или по сфере применения информационно-поисковых языков можно  выделить:

  1. Коммуникативные (общесистемные) ИПЯ - предназначенные для обеспечения взаимодействия между различными (информационными, библиотечными и др.) системами (в том числе распределенными по государственной, ведомственной или территориальной принадлежности);
  2. Локальные (внутренние) ИПЯ - предназначенные для использования в рамках отдельной системы;
  3. Внешние ИПЯ - используемые в других системах и предназначенные для взаимодействия только с ними.

     Различают языки описания (декларативные языки), которые в свою очередь подразделяются на языки предкоординатные (классификационные) и  посткоординатные (дескрипторные), а также процедурные языки -  языки запросов и манипулирования данными .

     Классификационные информационно-поисковые  языки

     Информационно-поисковые  каталоги, основанные на классификации  сведений по определенной предметной области, были первыми системами информационного поиска документов.

     Первоначальные  подходы к классификации тематики документов основывались на формировании списка предметных аналогов, располагаемых  в алфавитном порядке. Каждая предметная рубрика получала определенный цифровой или буквенно-цифровой код. Содержание документа индексировалось перечислением кодов тех рубрик, которые отражали темы документа. Это перечислительная классификация.

     Особенностью  систем перечислительной классификации  является возможность индексирования документов любым количеством рубрик, отражающих содержание документ. Для осуществления поиска необходимых документов по классификатору определяются коды интересующих пользователя рубрик и далее отбираются из хранилища те документы, которые проиндексированы соответствующими кодами. Отсутствие систематизированных связей и отношений между предметными рубриками является основным недостатком перечислительной классификации.

     При систематизированной классификации  список предметных рубрик строится как  иерархическая структура, в виде перевернутого дерева. Вся предметная область разбивается на ряд взаимоисключающих (не пересекающихся) рубрик. Каждая рубрика, в свою очередь, может включать несколько подрубрик. Таким образом, при систематизированной классификации учитываются уже некоторые семантические основы предметной области, выражаемые в родовидовых отношениях основных категорий, понятий и классов.

     Содержание  документа индексируется кодами соответствующих рубрик, однако при  этом отпадает необходимость в явном  указании более общих рубрик, к которым относятся выделенные полрубрики. В результате индексирование и поиск документов на основе иерархической классификации позволяют более адекватно отражать содержание документов и обеспечивают большую точность поиска.

     Перечислительный и иерархический подходы к классификации используются в алфавитно-предметных каталогах библиотек. Недостатком как перечислительной, так и иерархической классификации является принципиальная невозможность заранее перечислить все возможные темы документов. 
 

     Дескрипторные информационно-поисковые  языки(ДИПЯ)

     В основе построения дескрипторных информационно-поисковых  языков лежит принцип координатного  индексирования, который предполагает, что основное смысловое содержание документа может быть выражено списком ключевых слов. К ключевым словам относятся так называемые полнозначные слова — существительные, прилагательные, глаголы, наречия, числительные, местоимения. Ключевыми словами не могут быть предлоги, союзы, связки, частицы.

     Основными элементами ДИПЯ являются:

  • словарь лексических единиц;
  • правила применения ИПЯ (грамматика), определяющие процедуру перевода текстов документов и запросов с естественного языка на ИПЯ;
  • правила построения ИПЯ.

     Словари лексических единиц делятся на две  группы:

  • основные лексические словари, составляющие лексику ИПЯ;
  • морфологические словари, обеспечивающие морфологический анализ и нормализацию слов.

     В качестве лексических единиц основных словарей используются ключевые слова, словосочетания и дескрипторы.

     Дескриптор  — понятие, обозначающее группу эквивалентных или близких по смыслу ключевых слов. Дескриптор - это имя класса синонимов. В качестве дескрипторов могут быть использованы код, слово или словосочетание.

     Разработка  дескрипторного языка фактически сводится к разработке информационно-поискового тезауруса (ИПТ).

     Тезаурус (от греч. «хранилище», «сокровищница») в узком смысле представляет собой  специальный словарь-справочник, в  котором перечислены ключевые слова  — дескрипторы определенной предметной области, указаны их синонимы, установлены способы устранения синонимии, омонимии, полисемии, определены родовидовые и ассоциативные связи дескрипторов.

     Наиболее  важными парадигматическими отношениями  ИПТ являются:

  • соподчинение;
  • род-вид;
  • часть—целое;
  • причина-следствие;
  • функциональное сходство.

     Обобщенная  структура ИПТ включает как минимум  три составляющих: словарную часть, семантическую карту, руководство  по использованию. Словарная часть  — алфавитный список дескрипторов с их словарными статьями. Семантическая  карта — система тематических классов дескрипторов, представленная в виде графической схемы или таблицы. Руководство по использованию ИПТ содержит правила перевода ключевых слов и словосочетаний на ИПЯ, правила лексикографического контроля и редактирования поискового образа документа и поискового образа запроса, а также правила ведения ИПТ.

     Отличием  информационно-поисковых тезаурусов от информационно-поисковых каталогов  на основе предметной иерархической  рубрикации является то, что в тезаурусах, помимо классификационной схемы, присутствуют сами ключевые слова и дескрипторы, объединяемые под названием классов, рубрик и т. д. В каталогах же присутствуют только лишь обозначения (названия) классов.

     Главная идея информационно-поисковых тезаурусов заключается в повышении эффективности  индексирования документов в рамках дескриптивного подхода. Однако в процессе индексирования учитываются семантические отношения между дескрипторами, что, в конечном счете, обеспечивает более адекватный содержанию документа поисковый образ и повышает эффективность поиска документов.

     В настоящее время происходит расширение сфер применения автоматических тезаурусов. При этом тезаурусы выступают  составной частью современных систем подготовки текстов, осуществляя лингвистическую  поддержку процесса подготовки и  обработки текстов на естественном языке.

     Среди наиболее перспективных направлений  развития автоматических тезаурусов можно  указать следующие:

  1. Получение справки по используемому слову. Указав слово, в качестве ключа для запроса, пользователь в ответ получает соответствующий фрагмент словаря, содержащий лингвистическую информацию о данном слове. Например, автоматический тезаурус получает от пользователя некоторое существительное и в ответ выдает совокупность устойчиво сочетающихся с ним глаголов или все наиболее часто сопровождающие его определения. При этом автоматически выполняется процедура нормализации входного слова (т.е. приведение существительного к именительному падежу).
  2. Контекстные замены по требованию пользователей. В данном случае тезаурус не только подбирает вместо одного словосочетания другое, которое пользователь счел более соответствующим контексту по смысловым или стилистическим соображениям, но и автоматически переоформляет параметры слов (например, род прилагательного) в соответствии с контекстом. Это означает, что синтаксические операции, производимые тезаурусом, существенно усложняются.
  3. Автоматическая оценка стиля. Если слова и словосочетания в тезаурусе снабдить стилистическими пометками, то он может использоваться для стилистической оценки текста с выделением слов и словосочетаний, выпадающих, из общего стиля документа.[6,1]

Информация о работе Информационно-поисковые языки сети Интернет