Лингвистическое обеспечение автоматизированных систем библиотек сельскохозяйственного профиля

Автор работы: Пользователь скрыл имя, 06 Сентября 2011 в 11:27, дипломная работа

Описание работы

Целью исследования является обоснование структуры лингвистического обеспечения научных сельскохозяйственных библиотек, способствующей максимально полному удовлетворению информационных потребностей ученых и практиков в релевантной информации по вопросам АПК.

Содержание работы

Введение - 3 -
Глава 1. Теоретические аспекты лингвистического обеспечения автоматизированных библиотечно-информационных систем. - 9 -
1.1. Понятие, состав и требования к современному лингвистическому обеспечению - 9 -
1. 2. Обзор лингвистического обеспечения сельскохозяйственных библиотек России и Украины - 17 -
1.2.2. Средства лингвистического обеспечения Государственной научной сельскохозяйственной библиотеки Украинской академии сельскохозяйственных наук - 22 -
Глава 2. Структура лингвистических средств Белорусской сельскохозяйственной библиотеки им. И. С. Лупиновича Национальной академии наук Беларуси - 28 -
2.1. База данных УДК и ее применение в качестве информационно-поискового языка - 30 -
2.2. Тезаурус по сельскому хозяйству и продовольствию - 39 -
2.2.1. Назначение и структура тезауруса - 39 -
2.2.2. Парадигматические отношения - 45 -
2.2.3. Использование тезаурусов - 54 -
2.3. Проблема выбора средств лингвистического обеспечения и их интеграции в библиотеках АПК. - 58 -
Заключение - 62 -
Приложение №1…………………………………………

Файлы: 1 файл

DIPLOM.doc

— 855.00 Кб (Скачать файл)

      Наличие в ИПС функции автоматизированного расширения ПОД имеет важное значения для методических принципов индексирования, стратегии поиска и оказывает существенное влияние на выбор логики тезауруса. Расширение ПОД - это включение в него более широких (вышестоящих) терминов тезауруса по отношению к использованным индексатором. Такое избыточное индексирование поисковая система осуществляет посредством реализации иерархических отношений, установленных между дескрипторами тезауруса. 

    В документе БД в поле ТЕР (термины тезауруса) находятся дескрипторы, используемые индексатором, а в ноле РТЗ (расширение по тезаурусу) - их вышестоящие дескрипторы, приписанные документу поисковой системой. При поиске но запросу <торговля зерном всех зерновых культур странами мира> документ об экспорте зерна пшеницы Канадой будет найден и выдан пользователю как релевантный запросу, благодаря процедуре избыточного индексирования за счет иерархических связей тезауруса: 
 
 
 
 
 
 
 
 
 
 
 
 
 

            зерновые культуры                                           

Н1 гречиха

Н1 ежовник

Н1 кукуруза

Н1 овес

Н1 просо

Н1 пшеница

Н1 овес

Н1 просо

Н1 рис

Н1 рожь 

              Н1 ячмень 

торговля 

Н1 внешняя торговля

Н1 импорт

Н1 экспорт

страны мира

Н1 австрия

Н1 албания

Н1 алжир

Н1 канада

 
 
 

      Установление иерархических связей между терминами тезауруса устраняет необходимость вручную индексировать документы всеми широкими понятиями, необходимыми для обеспечения полноты поиска., Например, по запросу <зерновые культуры> этот прием обеспечивает поиск в БД как документов, заиндексированных дескриптором ЗЕРНОВЫЕ КУЛЬТУРЫ, так и дескрипторами ПШЕНИЦА, РОЖЬ, ЯЧМЕНЬ и др., благодаря тому, что поисковая система расширяет ПОД последних термином ЗЕРНОВЫЕ КУЛЬТУРЫ. Поиск по общим терминам, стоящим над заданными в запросе, задается формулой запроса и выполняется, если между терминами в тезаурусе действительно установлены иерархические отношения.

      При индексировании документов и формулировании темы запроса иерархическое построение словарных статей позволяет легко найти наиболее применимый специфический дескриптор. Поиск в тезаурусе нужного термина нужно проводить в следующей последовательности:

  • обращение к известному дескриптору (одному или нескольким), отражающему более широкое понятие, к классу которого может относиться индексируемое понятие;
  • обязательный просмотр статей выбранных дескрипторов, анализ их семантического «обрамления», т. е. примечания, синонимов, ассоциативных дескрипторов и, конечно, иерархически связанных с ними дескрипторов;
  • выбор одного или нескольких дескрипторов, позволяющих точно отразить индексируемое понятие.

    Иерархическая классификация позволяет быстро подбирать дескрипторы, необходимые для индексирования таких понятий, смысл которых в тезаурусе еще не отражен конкретными терминами.

     Из-за определенной противоречивости концепций построения тезауруса, реализованных на разных этапах его развития, широкого тематического диапазона лексики, большого объема работ не все иерархические связи между дескрипторами существующей версии ИПТ установлены достаточно полно и корректно с точки зрения смысловых отношений между понятиями и задач поиска. Перечисленные недостатки устраняются в процессе отладки тезауруса.

      При построении тезауруса необходимо стремиться к максимальному отражению семантических связей, однако, как показывает опыт, усложнение структуры ИПТ затрудняет его использование в самой ИПС и поэтому естественно искать разумный компромисс между объективностью ИПТ как структуры знаний и его практичностью - как информационно-поискового средства конкретной ИПС.

      Многие дескрипторы тезауруса могут быть связаны отношениями подчинения более чем с одним дескриптором. Вслучае множественной иолииерархии, при

автоматизированном расширении ПОД в него включаются дескрипторы, отвечающие смысловым требованиям разных запросов, что порождает нежелательный информационный шум при поиске по конкретному запросу. Для ограничения поиска и получения релевантных документов пользователь должен средствами поисковой системы устранить нежелательные последствия полииерархии, поэтому можно сказать, что «нагрузка» на пользователя по корректировке запроса обратно пропорциональна «нагрузке» на индексатора. Напомним, что иерархические связи освобождают индексатора от необходимости вручную приписывать документу наряду со специфическими терминами и широкие (вышестоящие) дескрипторы.

     Примером разного подхода к реализации иерархических отношений между понятиями являются два англоязычных тезауруса международных систем по сельскому хозяйству - тезаурус CABI* и тезаурус AGRIS (AGROVOC)**.

     Некоторые иерархические связи, будучи правильными с точки зрения классификации знаний, могут быть маловажными или избыточными с точки зрения поиска. В таких случаях логично понятие подчинить наиболее важному термину (и с точки зрения поиска и с точки зрения естественности, органичности такой связи), а отношения с остальными выразить с помощью ассоциативных ссылок, которые индексатор примет во внимание при отражении того или другого аспекта. Этот подход и реализован в структуре отношений дескриптора LUPINUS LUTEUS в тезаурусе БД АГРОС: иерархически он подчиняется термину LUPINUS (истинная родовидовая связь), другие возможные аспекты его рассмотрения представлены ассоциативно связанными терминами, которые индексатор обязан использовать, если растение рассматривается в документе именно с этих точек зрения.

     Кроме того, в силу принятой логики индексирования документов по растениеводству, ПОД должен содержать и общеупотребительное название с.-х. культуры, и научное (латинское) название конкретного вида используемого растения, например, ЛЮПИН и LUPINUS LUTEUS. Расширение ПОД в таком случае происходит за счет иерархических связей дескриптора ЛЮПИН как с.-х. культуры.

     

* САВI - Международное бюро по с.-х. информации стран британского содружества

**AGRIS – Международная информационная система по сельскому хозяйству при ФАО 
 

     Современные поисковые системы располагают большим набором средств, используя которые грамотный пользователь добьется высокой релевантности поиска. Однако при разработке тезауруса следует предусматривать простые и эффективные стратегии поиска, учитывая, что пользователь, как правило, недостаточно осведомлен о возможностях ИПС. Индексатор должен знать все об особенностях ИПЯ, как инструментах индексирования документов и запросов, а также об особенностях поиска в данной ИПС.

      Частичная замена иерархических отношений ассоциативными дает возможность заметно упростить структуру тезауруса, уменьшает риск информационного шума при поиске, упрощает его стратегию. Следует отметить также, что построение строго «научного» тезауруса требует неоправданно больших интеллектуальных и временных ресурсов, что неприемлемо в реальных условиях. 

      Отношения предпочтения устанавливаются между дескриптором и другими ЛЕ класса условной эквивалентности, т. е. его синонимами, омонимами или ЛЕ, которые обладают многозначностью. В целях единообразия индексирования документов и формулирования запросов, из множества ЛЕ класса условной эквивалентности только одной ЛЕ придается статус дескриптора, другие ЛЕ класса условной эквивалентности запрещены для использования в ПОД.

Среди них:

- синонимы - ЛЕ, абсолютно или относительно совпадающие по значению и употреблению, но отличающиеся друг от друга по звуковому составу и написанию;

- омонимы - ЛЕ, значение которых не связано друг с другом ни по смыслу, ни ассоциативно, но совпадающие по звуковому составу и написанию, например, бор - химический элемент и бор – хвойный лес;

- ЛЕ, обладающие свойством обозначать разные понятия (предметы, явления и т. п.), т. е. обладающие многозначностью  -  лексической   полисемией.   В отличие    от   омонимов,    между    ними    может существовать  определенная  семантическая  связь.

Например, сыворотка в зависимости от контекста может обозначать сыворотку  молока,  сыворотку крови или препарат - сыворотка жеребой кобылы. Разграничение значений омонимов и многозначных ЛЕ достигается вводом в тезаурус в качестве дескрипторов более специфических   терминов   или   присоединением   к   ЛЕ реляторов, уточняющих их значение. Сами же омонимы и многозначные ЛЕ, как и синонимы, имеют в ИПТ статус аскрипторов.

      Аскрипторы размещаются в тезаурусе в общем порядке алфавита, они выделяются знаком «-» (черточка) и шрифтом «курсив». Синонимы имеют ссылку «см», омонимы и многозначные ЛЕ - «исп» к дескрипторам, которые следует использовать вместо них при индексировании.

      В словарной статье дескриптора его синоним(ы), омоним или частично совпадающий по значению аскриптор (условный синоним) размещаются по алфавиту после дескриптора или лексическою латыни (научные наименования растений, животных, микроорганизмов и т. п.). Омонимы выделяются меткой <о>.

    В тезаурусе взаимность ссылок между дескрипторами и аскрипторами контролируется программными средствами.

    Аскрипторы составляют семантическое окружение дескриптора, уточняя понятие, которое он отражает в тезаурусе.

      При отладке тезауруса для разграничения значений омонимов в случае наименований организмов в дальнейшем будут использоваться в качестве реляторов их таксономическая принадлежность, для других омонимов - уточнения в круглых скобках. 

      Просматривая статью многозначного аскриптора, индексатор должен сделать альтернативный выбор специфического термина (терминов).

      Установлением отношений синонимии, омонимии, полисемии обеспечивается единообразная замена терминов, встречающихся в индексируемых документах, нормализованными ЛЕ тезауруса - дескрипторами. В результате согласованного отражения содержания документов индексаторами закладывается основа для эффективного поиска нужной информации пользователями БД, т. к. при составлении поисковых предписаний они также будут руководствоваться связями терминов тезауруса.

      Все термины словарной статьи дескриптора так или иначе уточняют значение и объем понятия, отражаемого данным дескриптором. Так, например, в него включаются и аспекты, передаваемые некоторыми синонимами. В связи с этим, прорабатывая тот или другой дескриптор, следует обращать внимание не только на иерархические и ассоциативно связанные с ним дескрипторы, но и на ЛЕ, по отношению к которым использование данного дескриптора является предпочтительным. Только анализируя все связи дескриптора, можно быть уверенным в правильности выбора термина индексирования.

      Наличие у каждого дескриптора большого количества синонимов, встречающихся в литературе, имеет ряд преимуществ. Зафиксированные отношения синонимии обеспечивают:

  • поиск нужных дескрипторов в тезаурусе;
  • автоматизированную замену ошибочно использованных индексатором аскрипторов соответствующим и дескрипторами;

    поиск информации в БД по известным пользователю синонимам (конечно, если они есть в тезаурусе): в запросах также происходит автоматизированная замена их дескрипторами;

Информация о работе Лингвистическое обеспечение автоматизированных систем библиотек сельскохозяйственного профиля