Лингвистическое обеспечение автоматизированных систем библиотек сельскохозяйственного профиля

Автор работы: Пользователь скрыл имя, 06 Сентября 2011 в 11:27, дипломная работа

Описание работы

Целью исследования является обоснование структуры лингвистического обеспечения научных сельскохозяйственных библиотек, способствующей максимально полному удовлетворению информационных потребностей ученых и практиков в релевантной информации по вопросам АПК.

Содержание работы

Введение - 3 -
Глава 1. Теоретические аспекты лингвистического обеспечения автоматизированных библиотечно-информационных систем. - 9 -
1.1. Понятие, состав и требования к современному лингвистическому обеспечению - 9 -
1. 2. Обзор лингвистического обеспечения сельскохозяйственных библиотек России и Украины - 17 -
1.2.2. Средства лингвистического обеспечения Государственной научной сельскохозяйственной библиотеки Украинской академии сельскохозяйственных наук - 22 -
Глава 2. Структура лингвистических средств Белорусской сельскохозяйственной библиотеки им. И. С. Лупиновича Национальной академии наук Беларуси - 28 -
2.1. База данных УДК и ее применение в качестве информационно-поискового языка - 30 -
2.2. Тезаурус по сельскому хозяйству и продовольствию - 39 -
2.2.1. Назначение и структура тезауруса - 39 -
2.2.2. Парадигматические отношения - 45 -
2.2.3. Использование тезаурусов - 54 -
2.3. Проблема выбора средств лингвистического обеспечения и их интеграции в библиотеках АПК. - 58 -
Заключение - 62 -
Приложение №1…………………………………………

Файлы: 1 файл

DIPLOM.doc

— 855.00 Кб (Скачать файл)

Принимая то или другое решение в отношении построения тезауруса и, следовательно, логики индексирования, следует учитывать все возможности поисковой системы, в том числе, поиск по текстовым полям и по ключевым словам. Термины, отвечающие задачам узкого детального поиска, индексатор может ввести в ПОД в качестве ключевых слов (КАЧЕСТВО ЯИЦ, КАЧЕСТВО МЕХА и т. п.), кроме того, они могут присутствовать в тексте заглавия, аннотации, реферата. В тезаурус же вводятся частотные термины-словосочетания     -     КАЧЕСТВО     ПРОДУКТОВ ПИТАНИЯ; КАЧЕСТВО ЗЕРНА; КАЧЕСТВО СЕМЯН; КАЧЕСТВО С-Х ПРОДУКЦИИ и общий термин КАЧЕСТВО для индексирования других понятий.

      Системный подход к построению ИНГ предъявляет определенные требования к составу и квалификации группы разработчиков тезауруса, действия которых должны быть четко координированными. В идеале, каждый разработчик должен быть не только специалистом в данной области, но и как создатель информационного языка специалистом по документальному поиску. Другими словами, разработчик тезауруса должен уметь не только отразить в ПОД содержание документа, но и сформулировать поисковое предписание, чтобы найти этот документ в БД.

    ИПТ создается для повышения качества поиска в ИПС 11,11СХБ. В его функции входит:

  • обеспечение индексирования документов и запросов средствами дескрипториого языка;
  • отражение парадигматических отношений (отношения общности или противопоставления значений и использования), существующих между ЛЕ;
  • контроль и нормализация лексики по сельскому хозяйству и продовольствию;
  • обеспечение единого и формализованного представления информации в ИПС;
  • функция терминологического справочного пособия в области сельского хозяйства и продовольствия;
  • формально-логический контроль терминов индексирования;
  • автоматизированное расширение ПОД (избыточное индексирование).

      Разработка исходной версии ИПТ в соответствии с ГОСТ 7.25-80 складывается из следующих основных этапов:

- определение тематического охвата ИПТ;

    • сбор массива лексических единиц:
    • формирование словника ИПТ;
    • построение словарных статей:
    • оформление ИПТ;
    • экспертиза и регистрация ИПТ.

      После создания исходной версии осуществляется развитие, ведение и отладка ИПТ. 
 

      Состав лексики ИПТ определяется тематическим диапазоном Рубрикатора но сельскому хозяйству и продовольствию, на основе рубрик которою осуществляется отбор и формирование основного входного потока документов БД АГРОС. Для более полного охвата каждой тематической области и описания фондов ЦНСХБ используются также рубрики Рубрикатора ГРНТИ. 

      Отбор лексики для тезауруса осуществляется в процессе индексирования документов. Термины, выделенные из текста документа, значимые для данной предметной области заносятся в картотеку терминов, предлагаемых для включения в тезаурус*. Основным поводом для включения термина в тезаурус является отсутствие в нем дескриптора, отражающего данное понятие, или возможности точно отразить его комбинацией дескрипторов. Чтобы убедиться в этом, индексатор должен ознакомиться со статьями дескрипторов, близкими но смыслу к предлагаемому. Окончательная экспертиза термина на предмет включения его в ИПТ проводится службой ведения тезауруса. До включения термина в состав тезауруса он имеет статус ключевого слова и по результатам ФЛК выделяется в поле КЛС. Критерии отбора ЛЕ:

  • частота появления в индексируемых документах и запросах;
  • полезность для поиска информации;
  • наличие в авторитетных справочниках, терминологических стандартах и т. п.;
  • наличие в тезаурусах международных систем по сельскому хозяйству и продовольствию.

      При выборе лексической формы записи термина-кандидата в дескрипторы предпочтение следует отдавать форме, наиболее часто встречающейся в отечественной литературе и отвечающей требованиям краткости, точности, однозначности, удобству запоминания и записи. Другие лексические формы, отражающие данное понятие, следует использовать для формирования класса условной эквивалентности, т. е. предлагать для включения в тезаурус в качестве аскрипторов.

      В качестве ЛЕ тезауруса используются одиночные слова (имена существительные), словосочетания, аббревиатуры и сокращения. Ввод в тезаурус одиночных прилагательных, причастий и т. п. не допускается.

    ЛЕ могут быть представлены на кириллице, латинице, включать химические символы, цифры, отдельные знаки пунктуации. Знак «точка» не допускается.

      Ввод ЛЕ, обозначающих общие понятия (вопросы, задачи, проблемы, описание, условия и т. п.), нежелателен вследствие их неинформативности.

     Имена существительные приводятся в форме именительного падежа: исчисляемые существительные, предпочтительно, во множественном числе, неисчисляемые (процесс, действие, состояние) - в единственном.

Например:

Исчисляемые существительные:                                                                      Неисчисляемые существительные: 
 
 
 

       телята

ткани растений

родентициды 
 

      устойчивость

      вспашка

      эрозия почвы 
       

     Для преодоления языковой неоднозначности (полисемия, омонимия) в тезаурусе используются релятор краткое уточнение термина, заключенное в круглые скобки. Дескриптор с релятором следует рассматривать и использовать как словосочетание. Реляторы могут быть у дескрипторов и аскрипторов.

    Например:

1. бычки (рыбы) бычки

В1 рыбы В1 телята 

      Кроме релятора, для устранения языковой неоднозначности используются разные формы грамматического числа и лексические примечания методического характера. 

    Лексическое примечание - это свободный текст, размещенный в словарной статье непосредственно под заглавным дескриптором или аскриптором и заключенный в круглые скобки. Основное назначение примечания - уточнение каким-либо способом понятия, отражаемого дескриптором, в целях облегчения правильного выбора индексатором термина индексирования в затруднительных случаях.

    Лексическое примечание может содержать:

- определение понятия: 

    разнотравье

      (Группа кормовых растений из разных бот. семейств, кроме    злаковых, бобовых, осоковых)

- разграничение значений термина, который может использоваться для отражения разных понятий:

    кофе (зерна)

      (Кофе-продукт; для растения исп.  кофейное дерево)

- определение области использования дескриптора:

баланс (В экономике)

- раскрытие аббревиатуры или иного сокращения:

    фао

      (Международная организация по сельскому хозяйству и продовольствию при ООН)

- другие уточнения, отсылки, характеристики:

Lolium hybridum (L.Perenne x L. multiflorum ) 

      Словосочетания вводятся в тезаурус, если они отвечают следующим условиям:

- словосочетание является лексически нерасторжимым, при разбиении его на отдельные компоненты теряется первоначальный смысл:

запуск коров носовая раковина

- словосочетание является географическим названием:

восточная сибирь алтайский край

- в словосочетание входит имя собственное:

метод кьельдаля болезнь тиззера

- значение словосочетания не выводится из значения его компонентов:

альтернативные источники энергии зеленая революция

- словосочетание является устойчивым, часто встречается и необходимо для разграничения предметных категорий:

болезни растений болезни животных

- отдельные компоненты словосочетания имеют слишком широкий смысл:

    нарушения обмена веществ

- словосочетание обозначает наименование химического вещества:

    сульфат натрия

    нафталанская нефть

- словосочетание является наименованием с.-х. культур, животных, пород т. п.:

технические культуры пьемонтская порода

- словосочетание  является  частотным  для  какой-либо области знаний или практики: выращивание молодняка трансплантация эмбрионов 

      В словосочетаниях используется естественный (прямой) порядок слов. Словосочетания, содержащие прилагательное, как правило, начинаются с прилагательного:

    лекарственные растения

 свеклоуборочные комбайны В названиях ботанических видов на первое место ставится существительное в форме именительного падежа, на второе место - прилагательное:

    овсяница луговая

       пырей ползучий Это    правило    не    распространяется    на    устойчивые словосочетания:

    конский каштан

 водный гиацинт Использование аббревиатур1 в качестве дескрипторов допускается:

- для наименований организаций и стран

    РФ

    юнеско

- для длинных и сложных названий методов, явлений, процессов и т.п.

пдрф

пдк

            После отбора ЛЕ и формирования словника (в виде картотеки) осуществляется построение тезаурусных (словарных статей) посредством установления между терминами отношений синонимии (подчинения, условной эквивалентности), выбора дескрипторов из класса условной эквивалентности, установления иерархических ассоциативных отношений.  

      Тезаурус представляет собой сложную терминологическую систему, между элементами которой – Тезаурус представляет собой сложную терминологическую систему, между элементами которой - лексическими единицами - существуют различные виды связи - отношения. ЛЕ тезауруса разбиваются на два основные множества:

    - дескрипторы - термины, используемые при индексировании;

    -   аскрипторы - термины, которые в данной ИПС запрещены для использования при индексировании, хотя они встречаются в текстах документов, включены в какие-либо словари, справочники и т. п. Другие названия аскрипторов: синонимы, омонимы, недескрипторы, запрещенные термины. 

      Смысловые (парадигматические отношения) между дескрипторами и между дескрипторами и аскрипторами определяют структуру тезауруса. Основными методологическими принципами формирования парадигматической структуры дескрипториого тезауруса являются:

Информация о работе Лингвистическое обеспечение автоматизированных систем библиотек сельскохозяйственного профиля