Лингвистическое обеспечение автоматизированных систем библиотек сельскохозяйственного профиля

Автор работы: Пользователь скрыл имя, 06 Сентября 2011 в 11:27, дипломная работа

Описание работы

Целью исследования является обоснование структуры лингвистического обеспечения научных сельскохозяйственных библиотек, способствующей максимально полному удовлетворению информационных потребностей ученых и практиков в релевантной информации по вопросам АПК.

Содержание работы

Введение - 3 -
Глава 1. Теоретические аспекты лингвистического обеспечения автоматизированных библиотечно-информационных систем. - 9 -
1.1. Понятие, состав и требования к современному лингвистическому обеспечению - 9 -
1. 2. Обзор лингвистического обеспечения сельскохозяйственных библиотек России и Украины - 17 -
1.2.2. Средства лингвистического обеспечения Государственной научной сельскохозяйственной библиотеки Украинской академии сельскохозяйственных наук - 22 -
Глава 2. Структура лингвистических средств Белорусской сельскохозяйственной библиотеки им. И. С. Лупиновича Национальной академии наук Беларуси - 28 -
2.1. База данных УДК и ее применение в качестве информационно-поискового языка - 30 -
2.2. Тезаурус по сельскому хозяйству и продовольствию - 39 -
2.2.1. Назначение и структура тезауруса - 39 -
2.2.2. Парадигматические отношения - 45 -
2.2.3. Использование тезаурусов - 54 -
2.3. Проблема выбора средств лингвистического обеспечения и их интеграции в библиотеках АПК. - 58 -
Заключение - 62 -
Приложение №1…………………………………………

Файлы: 1 файл

DIPLOM.doc

— 855.00 Кб (Скачать файл)

в зависимости от его знания какого-либо из ИПЯ и от того, какого рода информация ему нужна и для каких целей. Все это относится к решению проблемы узкой совместимости в рамках одной ИПС. [51, C. 58]

 Проблема совместимости средств ЛО различных ИПС стала особенно актуальна с развитием информационных сетей. Поскольку каждая ИПС использует свои ИПЯ, то обмен информацией между информационно-поисковыми системами затруднен из-за несовместимости этих ИПЯ. Различают средства и методы достижения лингвистической совместимости. К средствам ее обеспечения относятся рубрикаторы, классификаторы, библиотечные форматы записи, тезаурусы и нормативные словари, конверторы, необходимые для перевода информации из одной формы ее предоставления в другую. К основным методам совместимости лингвистических средств относят: методологическую совместимость; стандартизацию и унификацию языковых средств; создание общесетевых универсальных ИПЯ; сопряжение языковых средств; методы конверсии языковых средств; сосуществование разных ИПЯ в сети.

 Методическая совместимость - это разработка единых принципов создания и ведения ЛО отдельных ИПС, входящих в одну информационную сеть; разработка нормативных документов, определяющих структуру и состав ЛО участников сети. Стандартизация - это разработка единых стандартов, позволяющих произвести унификацию отдельных элементов БО, ИПЯ, терминологии.

Универсальные (общесистемные) языки должны обеспечить единообразие формирования информационных массивов. Примером создания универсальных языковых средств является разработка Государственного рубрикатора научно-технической информации (ГРНТИ).

  Метод конверсии, то есть преобразование записей на одном информационно-поисковом языке в записи на другом ИПЯ автоматизированными средствами, реализуется созданием таблиц соответствия. Например, в отраслевом рубрикаторе Центральной научной сельскохозяйственной библиотеки (ЦНСХБ) каждой рубрике Рубрикатора приписан индекс УДК.

  Сосуществование языковых средств предполагает параллельное использование нескольких ИПЯ в одной ИПС. Анализ 10 важнейших библиотечных процессов (комплектование, учет библиотечных фондов; библиографическое описание произведений печати, систематизация (или предметизация), организация библиотечного каталога, техническая обработка документов, работа с фондом, обслуживание читателей, работа МБА, справочно-библиографическая и информационная работа) показывает, что ИПЯ в той или иной степени используются в каждом из перечисленных процессов, кроме того, существует прямая зависимость между качеством лингвистических средств и эффективностью используемой библиотечно-библиографической технологии. Следовательно, изменение или расширение функций автоматизированной библиотечной системы связано в первую очередь с реальным выбором комплекса ИПЯ, усилением семантической силы используемых информационно-поисковых языков. Исследователи отмечают, что, несмотря на существенные достижения в области интерактивных систем (генерация БД, возрастание скорости передачи информации), совершенствование и упрощение поисковой процедуры достигнуто лишь в части автоматизации механических, рутинных процессов интерактивного поиска. Что касается связанных с ним интеллектуальных процессов, то они автоматизацией охвачены слабо или фактически не охвачены. Другими словами, интерактивный поиск дает быстрые результаты по поиску по простейшим элементам базы обслуживания (БО): автору, названию, но тематический поиск, который является интеллектуальным, остается слабым звеном. В исследованиях по анализу эффективности работы интерактивных систем отмечено, что наибольшее влияние на результаты поиска оказывают именно интеллектуальные операции: определение предмета, области поиска, выбор базы данных, выбор стратегии поиска и оценка его результатов. Причем основная сложность заключается в

выборе стратегии поиска, что напрямую связано с использованием лингвистических средств. В интерактивном режиме существует задача оптимизации методов поиска, его полноты, релевантности и скорости создания поискового предписания.

 Это гарантирует формализованное описание содержания документов в ЭК и информационных запросов, что достигается при помощи комплекса ИПЯ. Классификационные и дескрипторные языки служат инструментом более тонкого анализа для проведения тематического поиска. Сочетание нескольких ИПЯ дает возможность проведения поиска по тематическим признакам, что обеспечивает его полноту и точность.

 В Центральной научной сельскохозяйственной библиотеке Российской Академии наук используются для автоматизированного поиска:

  • язык библиографического описания (ЯБО);
  • язык ключевых слов (ЯКЛ);
  • информационно-поисковый тезаурус (ИПТ);
  • отраслевой рубрикатор, разработанный на основе ГРНТИ (ОР).
 

Результативность поиска в ЭК во многом зависит от выбора стратегии поиска; от лингвистических средств, используемых в данном ЭК; от качества индексирования документов на используемых в электронных каталогах ИПЯ. Семантическая обработка документа подразумевает полноту и точность перевода с естественного языка на ИПЯ, которые зависят от структуры, лексической наполненности и других возможностей информационно-поискового языка, разработанности правил этого перевода, от соответствия единиц естественного языка лексическим единицам ИПЯ. Именно от точности и единообразия описания исходной информации языковыми средствами зависит релевантность (степень соответствия содержания документа, найденного при поиске, содержанию информационного запроса) и полнота поиска. Если известны источники и реквизиты документа, то поиск ведется по языку библиографического описания, если нужен тематический поиск, то используются отраслевой рубрикатор, информационно-поисковый тезаурус, язык ключевых слов. В ИПС данной библиотеки используется, коммуникативный формат К118МАКС, Структура языка библиографического описания богата поисковыми возможностями, заложенными в этом формате на БО, состоящем из 229 элементов данных. Эти данные позволяют идентифицировать и разыскать документ по каждому из этих -элементов. Чём полнее используются возможности коммуникативного формата, тем шире возможности поиска по формальным признакам документа.

Установлено, что поиск только по БО может быть достаточно эффективен, так как заглавия пригодны для автоматизированного поиска. Эффективность поиска возрастает, когда к БО добавляются рубрики или индексы ИПЯ. Точность поиска в этом случае составляет 70 процентов, а полнота - 50 процентов. Точность поиска возрастает еще на 3-5 процентов, если к этому добавляются ключевые слова и дескрипторы. БД с рефератами и/или аннотациями дает максимально эффективный поиск в автоматизированном режиме, поскольку возможен поиск по всем полям, то есть по всему тексту документа. Использование всех текстов документа (БО, аннотаций, рефератов) в качестве ПОД расширяет возможности поиска, так как в них выражены синтаксические связи между ключевыми словами.

Результативность тематических запросов зависит от ИПЯ, на котором они сформулированы. Запрос может быть сделан на естественном языке, то есть выражен известными пользователю терминами - научными или общеупотребительными, и какое-то количество нужных пользователю документов может быть найдено. Однако, как показал опыт, это будут не все документы по заданной теме и, возможно, в выборку не войдут самые ценные из них, о чем пользователь может и не подозревать. Может показаться, что поисковые возможности естественного языка и ключевых слов одинаковы, но это не так.

К примеру:

  • в документе № 1 препарат А упоминается в качестве стандарта при оценке свойств препарата Б;
  • в документе № 2 описаны свойства, формы, назначения, способы применения и т. п. препарата. На запрос «препарат А» и при поиске по текстовым полям (естественней язык) пользователь получит оба документа, так как в их текстовых полях, например, в аннотации, в реферате, поисковая система найдет термин «препарат А». Однако документ № 1 не релевантен запросу и не нужен пользователю (это «информационный шум»). Документ № 1 релевантен только запросу о «препарате Б». На запрос «препарат А» и при поиске по терминам поля «ключевые слова» поисковая система выдаст только релевантный запросу документ № 2, поскольку индексатор заиндексировал документ ключевым словом «препарат А», так как в нем содержится существенная информация об этом препарате, в отличие от документа № 1.

Но следует иметь в виду, что поиск по терминам текста и ключевым словам не может обеспечить удовлетворительной полноты нахождения нужных источников информации. К примеру, если «препарат А» в документах № 1 и № 2 имеет разные наименования, что очень распространено в научных текстах. При этом версии написания термина, использованные в документе и, следовательно, индексатором в качестве текста ключевых слов могут отличаться от версии термина, использованной пользователем в запросе. Очевидно, что в таких случаях поисковая система не найдет значительное количество документов. В числе недополученных пользователем могут быть особенно ценные и релевантные его запросу документы.

 В качестве ключевых слов (КС) могут выступать отобранные из текста документа слова или словосочетания естественного языка, раскрывающие наиболее важные смысловые аспекты документа. Для пользователя поиск будет наиболее эффективным, если формулировка его запроса совпадет с дескрипторами ИПТ.

 ИПТ представляет собой алфавитный перечень отраслевой терминологии, где отражены иерархические, синонимические и ассоциативные отношения между терминами (дескрипторами).

Использование дескрипторов ИПТ позволяет систематизатору преодолеть такую особенность естественного языка, как неоднозначность (одно и то же понятие может быть сформулировано по-разному), а всем специалистам в данной области — единообразно переводить слова естественного языка на ИПЯ. Это повышает вероятность того, что пользователь сможет найти данный документ. Благодаря тезаурусу, при поиске пользователь может использовать в запросе синонимы, в то же время в тезаурусе есть отсылка от синонима к основному термину, то есть документ все равно будет найден по основному термину.

При индексировании документов КС индексатор в целях обеспечения полноты отражения понятий и релевантности поиска выбирает именно дескрипторы ИПТ, однако бывает, что используемый автором исходного документа термин является очень узким и специфичным либо редко встречающимся в специальной литературе, и поэтому, естественно, что он еще не нашел отражения в ИПТ. В этом случае индексатор может отразить понятие в виде ключевого слова, которое считает оптимальным. Понятно, что термины ИПТ все индексаторы напишут одинаково, а формулировки прочих ключевых слов теоретически могут оказаться не совпадающими, и тогда пользователь не сможет найти часть документов. Для предотвращения подобных ситуаций в ЦНСХБ Россельхозакадемии например, постоянно ведется работа по унификации написания ключевых слов, составляется картотека ключевых слов, фиксирующая согласованные формулировки, принимаются методические решения, которые заносятся в специальные рекомендации по индексированию на языке ключевых слов. Данную работу выполняет так называемый Лингвистический отдел ЦНСХБ. Тезаурус и ключевые слова дают эффективный узкотематический поиск. Важное значение имеет использование методик индексирования на ИПЯ, используемых в ИПС. Методики способствуют унификации индексирования документов, препятствуют проявлению субъективизма индексатора в определении места документа, обеспечивают точность, полноту и однозначность отображения информации в БД. Индексирование — это основное средство раскрытия содержания документа и соответственно всего текущего документного потока, который составляет фонд библиотеки. От качества индексирования зависит не только эффективность тематического поиска в информационных ресурсах, но и эффективность использования ее фондов.

 Независимо от типа ИПЯ основными требованиями, которые предъявляются к процессу индексирования документа, являются: а) полнота и точность раскрытия содержания; б) объективность его раскрытия; в) единообразие отображения средствами данного ИПЯ сходных по содержанию документов (другими словами все документы по одному вопросу должны получить одинаковые индексы, рубрики, дескрипторы и т. д. и попасть в одно место в информационно-поисковой системе).

 Процесс индексирования включает несколько этапов: анализ содержания документа; выявление и отбор понятий, тем, отражающих основное содержание документа; выбор терминов индексирования (рубрик, кодов, индексов, дескрипторов, ключевых слов) и принятие решений о составе ПОД; перевод содержания документа с естественного языка на ИПЯ; добавление любой необходимой информации к названию документа (расширение названия, создание аннотации); редактирование терминов индексирования на ИПЯ. Как для классификационных (УДК, ББК), так и для дескрипторных (тезаурус) ИПЯ полнота и детальность индексирования связаны с обеспечением полноты и релевантности тематического поиска.

Полнота и детальность индексирования зависят от семантической наполненности ИПЯ, его способности описать документ в характеристиках, присущих индексируемому документу. Повышение глубины (детальности) индексирования увеличивает точность информационного поиска, его эффективность за счет возможности предоставления информации по самым «узким», специальным вопросам.

Поэтому при создании автоматизированной ИПС, электронного каталога библиотека стоит перед выбором лингвистического обеспечения, которое будет в них использоваться. Состав и структура лингвистического обеспечения автоматизированной системы связаны с функциями библиотеки. От выбора ИПЯ и лингвистических средств зависит эффективность работы ИПС.

 При выборе ЛО необходимо учитывать тематический диапазон фонда, отрасль знаний, представленную в фонде и информационных ресурсах, структуру и объем входного документного потока, тип и особенности ИПС, информационные запросы пользователей. Именно задачи, стоящие перед ИПС, определяют выбор и состав лингвистических средств, совокупность которых должна обеспечить ее эффективную работу. Оптимизация структуры лингвистического обеспечения автоматизированной ИПС заключается в формировании структуры, которая включает информационно-поисковые языки, обеспечивающие все ее библиотечно-библиографические процессы и функции как на внутрибиблиотечном, так и на межбиблиотечном уровне. Лингвистические средства ИПС должны обеспечивать эффективный информационный поиск. Это могут быть ИПЯ, специально разработанные для автоматизированных ИПС, либо приспособленные для работы в них.

Информация о работе Лингвистическое обеспечение автоматизированных систем библиотек сельскохозяйственного профиля