Лингвистическое обеспечение автоматизированных систем библиотек сельскохозяйственного профиля

Автор работы: Пользователь скрыл имя, 06 Сентября 2011 в 11:27, дипломная работа

Описание работы

Целью исследования является обоснование структуры лингвистического обеспечения научных сельскохозяйственных библиотек, способствующей максимально полному удовлетворению информационных потребностей ученых и практиков в релевантной информации по вопросам АПК.

Содержание работы

Введение - 3 -
Глава 1. Теоретические аспекты лингвистического обеспечения автоматизированных библиотечно-информационных систем. - 9 -
1.1. Понятие, состав и требования к современному лингвистическому обеспечению - 9 -
1. 2. Обзор лингвистического обеспечения сельскохозяйственных библиотек России и Украины - 17 -
1.2.2. Средства лингвистического обеспечения Государственной научной сельскохозяйственной библиотеки Украинской академии сельскохозяйственных наук - 22 -
Глава 2. Структура лингвистических средств Белорусской сельскохозяйственной библиотеки им. И. С. Лупиновича Национальной академии наук Беларуси - 28 -
2.1. База данных УДК и ее применение в качестве информационно-поискового языка - 30 -
2.2. Тезаурус по сельскому хозяйству и продовольствию - 39 -
2.2.1. Назначение и структура тезауруса - 39 -
2.2.2. Парадигматические отношения - 45 -
2.2.3. Использование тезаурусов - 54 -
2.3. Проблема выбора средств лингвистического обеспечения и их интеграции в библиотеках АПК. - 58 -
Заключение - 62 -
Приложение №1…………………………………………

Файлы: 1 файл

DIPLOM.doc

— 855.00 Кб (Скачать файл)

   Рассматривалась возможность создания алгоритма распознавания записи систематизации КСК; выяснилось, что этот процесс потребует больших финансовых и трудовых затрат, поскольку запись каждого из 8 разделов каталога имеет свою специфику и за годы существования ИПЯ видоизменялась много раз. Кроме того, потребуется перевести в электронную форму АПУ КСК и сами схемы, которые насчитывают 8 томов. Задача — дорогостоящая, но выполнимая, если бы этот ИПЯ был единственным лингвистическим средством тематического поиска в ЦНСХБ. Если рассматривать термины (рубрики и подрубрики), использованные в систематизации, как ключевые слова и составить поисковое предписание по ним, то поиск возможен. Но из этого следует, что необходимо преобразовать запись одного ИПЯ в другой ИПЯ — язык ключевых слов, который самостоятельно используется в автоматизированной ИПС. В таком виде поиск по предметным рубрикам КСК будет дублировать поиск по дескрипторам тезауруса и ключевым словам. КСК как ИПЯ, существующий 65 лет, накопил богатую терминологическую базу — около 45 тыс. понятий, включенных в алфавитно-предметный указатель (АПУ) и представляющих собой алфавитный список предметных рубрик и подрубрик, а также “скрытых” терминов, отраженных в документах фонда ЦНСХБ. АПУ долгое время являлся единственным терминологическим справочником отрасли, но ИПТ также отражает в алфавитном порядке терминологию отрасли и является терминологическим словарем по АПК. При этом ИПТ уже существует в электронной форме, разработано программное обеспечение его ведения и поддержки. Однако ИПТ собирает отраслевую лексику с 1975 г. и насчитывает свыше 20 тыс. терминов, что меньше объема АПУ КСК. Было проведено изучение областей терминологического покрытия ИПЯ КСК и ИПТ, которое показало, что словарный состав ИПТ позволяет адекватно отображать большую часть понятий КСК и очевидно, что с каждым годом тенденция к совместимости будет усиливаться.

    Предполагается, что через несколько лет термины ИПТ полностью повторят термины АПУ КСК. Степень покрытия и совпадения терминологии двух ИПЯ имеет несущественные различия. Причинами отсутствия терминов КСК в ИПТ следует считать либо “привычку” индексатора отражать какое-либо понятие уже имеющимися ,возможно менее специфическим, более широким термином ИПТ и по этой причине не поступающими от них предложениями на ввод термина в тезаурус в качестве дескриптора, либо уже принятым для ИПТ решением не включать данный термин из-за появления новой формулировки, из-за решения не вводить узкие термины в статус дескрипторов, а использовать их в качестве ключевых слов. Выявленные в ходе исследования отсутствующие в ИПТ термины включены в лексическую обработку, но выявлен ряд устаревших терминов, введение которых в ИПТ из КСК не будет осуществлено. Это позволяет сделать вывод, что хотя КСК более богатая терминологическая система, но в ней присутствует некоторый процент терминов неиспользуемых в аграрной науке, несовременных, забытых или неактуальных, в то время как ИПТ включает таких терминов значительно меньше. Это объясняется, в частности, тем, что автоматизированное ведение ИПТ позволяет отслеживать частоту встречаемости терминов, что делает работу более эффективной.

    С карточным АПУ КСК этот процесс требует значительно больших временных затрат. Термины, используемые в качестве ключевых слов, значительно сокращают разницу в объемах терминологических баз ИПТ и КСК, что позволяет говорить о значительном отражении терминологического состава ИПЯ КСК лингвистическими средствами автоматизированной ИПС. Кроме того, ИПТ является контролируемым автоматизированным путем лингвистическим средством обработки документов, а КСК не контролируется автоматически. Таким образом, в целях оптимизации структуры лингвистических средств автоматизированной ИПС ЦНСХБ целесообразна консервация КСК в качестве ИПЯ обработки входного документального потока, прекращение терминологического наполнения, ведения справочно-поискового аппарата и дальнейшей разработки его схемы. [44, C. 14-18]. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

 1.2.2. Средства лингвистического обеспечения Государственной научной сельскохозяйственной библиотеки Украинской академии сельскохозяйственных наук. 

      Лингвистическое обеспечение - это комплекс языковых средств, необходимых для обработки  документов и запросов, проведения эффективного поиска в электронном  каталоге (ЭК) по тематическим запросам, осуществления языковой совместимости ЭК разных библиотек для обмена данными. Вопрос ЛС - пожалуй, наиболее проблемная и трудоемкая часть работы по ЭК, который является визитной карточкой библиотеки. Предоставление пользователю максимально благоприятных условий для поиска и распространения ресурсов библиотеки с целью информационно-библиотечного обеспечения агропромышленного производства, расширение их доступности для всех категорий пользователей - эта задача может быть решена при наличии развитой системы лингвистического обеспечения ЭК.

  Для раскрытия содержания документов есть три основных вида информационно-поисковых языков: классификационный, предметизационный и дескрипторный.

Классификационный язык предназначен для индексирования документов и информационных запросов посредством понятий и кодов определенной классификационной системы (ББК, УДК, Десятичная классификация Дьюи и др.). [66, C. 35].

      Универсальная десятичная классификация (УДК) является одной из самых распространенных классификационных систем в мире. Она постоянно развивается и совершенствуется, хорошо приспособлена для автоматизированных технологий и дает возможность осуществлять отраслевой поиск информации в АБИС "ИРБИС".Это позволяет сохранить в ЭК все положительные характеристики традиционных каталогов, которые вобрали в себя многолетний опыт библиотекарей и библиографов и привнести новые возможности поиска информации посредством использования информационно-коммуникационных технологий.

      Для систематизации документов в ГНСХБ  УААН частично используются таблицы ББК (для расстановки документов общественно-политического и гуманитарного направления) и украиноязычные таблицы УДК, подготовленные Книжной палатой Украины им. Ивана Федорова (К., 2000, с изменениями и дополнениями). [69]

В основе классификационных языков лежит систематическая классификация понятий, то есть такая, которая фиксирует смысловые отношения между понятиями. Классификационные языки предназначены, прежде всего, для формализации логических связей слов естественного языка.

Все ИПМ классификационного типа характеризуются определенными свойствами, прежде всего, невысокой эффективностью и некоторыми трудностями при информационном поиске, особенно с применением технических средств. К этим недостаткам относятся: предварительная координация (связь) слов и словосочетаний в рубрике, практическая невозможность полного и детального разработки схемы классификации и подключение ее к АБИС, сложность обновления и дополнения, трудоемкость использования при индексировании.

Все эти недостатки побудили к созданию языков вербального типа. Их используют для представления лексических единиц слова и выражения естественного языка в орфографические форме. В отличие от классификационных языков, используемых для систематизации документов, они ориентированы на обозначение в поисковом образе документа (ПОД) или в поисковом образе запроса (ПОЗ) конкретных объектов или предметов содержания этих документов.

К языкам вербального  типа относятся предметизационный дескрипторный языки, которые используют предметные рубрики и ключевые слова при наличии неконтролируемой лексики.

      Язык  предметизации предназначен для  индексирования документов и информационных запросов с помощью рубрикаторов (словарей предметных рубрик), а в  случае их отсутствия - по методике предметизации. В основе лежит алфавитный перечень предметных рубрик (ПР), который является краткой формулировкой темы на естественном языке. Важнейшим этапом предметизации является идентификация признаков содержания документа с предметными рубриками. Предметная рубрика выполняет информационную, эвристическую, комплектующую и терминологическую функции.

 Основными  требованиями к формированию  ПР являются лаконичность вместе  с полным и точным раскрытием  содержания документа, а также  простота, которая способствует  поиску необходимых документов. Особенностью формулировки предметных рубрик является то, что лексика ИПМ предметных рубрик должна быть максимально приближенной к языку автора документа. Однако, с развитием науки, практической деятельности людей, с изменениями информационных потребностей пользователей и т.д. она может изменяться, дополняться новыми и избавляться от устаревших лексических единиц, изменять свою структуру.

  Как искусственная система язык предметизации должен быть построен стандартно, предельно однообразно. Это помогает читателю сэкономить время и силы при поиске. Практика работы ГНСХБ УААН доказывает, что пользователи чаще заинтересованы вести поиск не по классификационным системами, а по запросам тематического, предметного характера. При этом предметные рубрики менее популярны, чем ключевые слова, потому что в библиотеках нет единой системы предметизации, отсутствует универсальный словарь предметных рубрик, пользователи не владеют методикой предметизации, что усложняет формулировку ПОЗ, адекватного поисковом образа документа. Не во всех ЭК реализуется доступ пользователей к внутренним словарям предметных рубрик. Вместе предметные рубрики непригодны для глубокого, достоверного поиска по теме в машиночитаемых библиографических базах данных.

      Некоторые темы документа могут не охватываться ПР. Особенно это касается научных сборников, материалы конференций, симпозиумов и т.п., где встречаются статьи и доклады, которые лишь отдаленно пересекаются с основной тематикой сборника, но представляют интерес для пользователей конкретной библиотеки. Вероятнее всего, такие побочные (непрофильные) темы не будут отражены ни классификационными индексами, ни ПР, но могут быть описаны ключевые слова (КС).

      Ключевые  слова - это нормализованный ИПЯ; слова записываются в соответствии с правилами, разработанных для ИПС. При выборе сроков и обработки их для введения в усовершенствованный информационный документ разрабатываются и принимаются решения по методике индексирования документов различной тематики.

Ключевые слова  целесообразно использовать для дополнительного раскрытия содержания документа на более глубоком уровне, то есть использовать ПР для описания основных предметов документа и их аспектов, а КС - для дальнейшей детализации, а также описания побочных тем документа. Тогда в ПОД будут содержаться ПР (нормализованная лексика) и КС в редакции автора. Такой подход удобен для всех категорий пользователей: как для тех, кто примерно знает, что хочет найти (для этого удобно использовать ПР), так и для тех, кого может заинтересовать очень специфическое (поиск происходит при КС).Особую ценность список КС может приобрести на последнем этапе поиска, когда по запросу найдено определенный массив документов. Просмотрев списки КС, можно, даже не просматривая источники, сразу определить нужную информацию. Таким образом, использование КС увеличивает поисковые возможности ЭК.

      Ключевые  слова следует рассматривать  как дополнительное средство увеличения полноты индексирования и представления  разных по значимости тем документа, не описанных другими ИПМ. Вот почему целесообразно расширить возможности тематического поиска с помощью подключения к КС, которые для пользователей является наиболее понятным средством розыска большого количества релевантных документов.

      Дескрипторный язык служит для координатного индексирования документов и запросов с помощью тезауруса (словаря дескрипторов) или определением ключевых слов с использованием естественного языка. В основу дескрипторных ИПМ положен алфавитный перечень лексических единиц. Комплекс ключевых слов является своего рода лексической моделью научного текста. Функциональная значимость КС определяется тем, что они являются одним из наиболее оптимальных способов классификации, хранения и передачи информации. Отражая развитие и терминодинамику определенной научной отрасли, комплекс КС является еще и системой отбора и распространения современной терминологии.

  Следовательно, каждая из указанных ИПМ имеет свои преимущества и недостатки.

Любая из указанных  выше ИПМ обязательно функционирует  в определенной информационно-поисковой системе, представленной как в традиционном, так и в автоматизированном режимах.

      Традиционная  ИПС - это совокупность каталогов  и картотек на бумажных носителях, автоматизированная - электронный каталог. Собственно каталоги и картотеки и являются теми навигационными "ступеньками", с помощью которых читатель открывает все богатство библиотечных фондов, ориентируется в тематическом разнообразии документального потока в разные исторические периоды существования библиотеки.

      На  сегодня все больше библиотек сельскохозяйственной сети создают электронные каталоги, базы данных (БД) и перед ними встает вопрос о выборе лингвистического обеспечения для них. Во многом выбор ЛС зависит от того, какие информационно-поисковые языки использовались в этих библиотеках для карточных каталогов. Как правило, именно их приспосабливают для электронных каталогов и БД. Это обусловлено тем, что новые ИПМ требуют обучения индексаторов, а также трудоемкостью создания ИПМ и желанием сохранить пользовательские связь традиционных и электронных каталогов. В основном в сельскохозяйственных библиотеках для карточных каталогов используются ИПМ классификационного типа: УДК и ББК. [65, C. 14-15].

      С 2000 г. в ГНСХБ УААН наряду с традиционными каталогами и картотеками ведется электронный каталог. Как для карточного каталога, так для ЭК используются своя собственная классификация - Отраслевой предметный рубрикатор по сельскому и лесному хозяйству (ГПР), разработанный на основе списка рубрик предметного каталога ГНСХБ. Он создавался на протяжении многих лет и сейчас является основным методическим и рабочим инструментом систематизаторов сектора.

Информация о работе Лингвистическое обеспечение автоматизированных систем библиотек сельскохозяйственного профиля