Лингвистическое обеспечение автоматизированных систем библиотек сельскохозяйственного профиля

Автор работы: Пользователь скрыл имя, 06 Сентября 2011 в 11:27, дипломная работа

Описание работы

Целью исследования является обоснование структуры лингвистического обеспечения научных сельскохозяйственных библиотек, способствующей максимально полному удовлетворению информационных потребностей ученых и практиков в релевантной информации по вопросам АПК.

Содержание работы

Введение - 3 -
Глава 1. Теоретические аспекты лингвистического обеспечения автоматизированных библиотечно-информационных систем. - 9 -
1.1. Понятие, состав и требования к современному лингвистическому обеспечению - 9 -
1. 2. Обзор лингвистического обеспечения сельскохозяйственных библиотек России и Украины - 17 -
1.2.2. Средства лингвистического обеспечения Государственной научной сельскохозяйственной библиотеки Украинской академии сельскохозяйственных наук - 22 -
Глава 2. Структура лингвистических средств Белорусской сельскохозяйственной библиотеки им. И. С. Лупиновича Национальной академии наук Беларуси - 28 -
2.1. База данных УДК и ее применение в качестве информационно-поискового языка - 30 -
2.2. Тезаурус по сельскому хозяйству и продовольствию - 39 -
2.2.1. Назначение и структура тезауруса - 39 -
2.2.2. Парадигматические отношения - 45 -
2.2.3. Использование тезаурусов - 54 -
2.3. Проблема выбора средств лингвистического обеспечения и их интеграции в библиотеках АПК. - 58 -
Заключение - 62 -
Приложение №1…………………………………………

Файлы: 1 файл

DIPLOM.doc

— 855.00 Кб (Скачать файл)
  • провести сопоставительный анализ англоязычных тезаурусов и выбрать наиболее развитый соответствующий задачам поиска в БД AGROS в качестве базисного для создания его русской версии;
  • осуществить сопряжение русской терминов лексикой базисного тезауруса;
  • перенести структуру всех отношений базисного тезауруса на национальную терминологию;
 

    -  разработать технологию, программные и лингвистические средства для формирования и ведения динамического двуязычного ИПТ. 

      Сопоставительный анализ показал, что ни один из англоязычных тезаурусов в полном объеме не может служить в качестве базисного. Перенос их структуры отношений в отечественный ИПТ на данной стадии его развития сложен по многим причинам: особенности языка, развития отраслей; традиции и т. п. Кроме того, создание русской в целесообразно рассматривать но отношению к единому международному тезаурусу, вопрос о котором решается на международном уровне.

      Тем не менее вопросы сопряжения термина решаются уже сейчас с целью облегчения вхождения, пользователя   в   "чужую"    БД   с   помощью   терминов национального тезауруса. Сближение терминологическою состава отечественного ИПТ с тезаурусами международных систем САВI, NAL, AGRIS происходит в процессе отбора лексики: одним из оснований для включения термина в состав ИПТ является наличие его английского эквивалента в тезаурусах международных систем. Классификационные схемы отдельных понятий, например, систематика растений, рыб, насекомых. вирусов, микроорганизмов и др., классификация ферментов, химических соединений и т. п. включаются в отечественный тезаурус в версии тезауруса САВI. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

      

* Тезаурус САВI используется также Национальной библиотекой по сельскому хозяйству США (NAL) для индексирования документов БД AGRICOLA.

 

      2.3. Проблема выбора средств лингвистического обеспечения и их интеграции в библиотеках АПК.

      Все больше сельскохозяйственных библиотек  создают электронные каталоги (ЭК), базы данных (БД) и перед ними встает вопрос о выборе лингвистического обеспечения (ЛО) для них. Во многом выбор ЛО для ЭК и БД зависит от того какие информационно-поисковые языки (ИПЯ) использовались в этих библиотеках для карточных каталогов. Как правило, именно их приспосабливают для электронных каталогов и БД. Это продиктовано тем, что новый ИПЯ требует обучения индексаторов, а также трудоемкостью создания ИПЯ и желанием сохранить для потребителя связь традиционных и электронных каталогов.

      В основном в научных сельскохозяйственных библиотеках для карточных каталогов  используются ИПЯ классификационного типа: Универсальная десятичная классификация (УДК) и Библиотечно-библиографическая классификация (ББК). В Центральной научной сельскохозяйственной библиотеке РАСХН (ЦНСХБ), которая является информационным центром, наряду с этими ИПЯ, используются своя собственная классификация для карточного комплексно-системного каталога, Отраслевой рубрикатор, разработанный на основе ГРНТИ (ОР), а также дескрипторные ИПЯ: Отраслевой тезаурус по сельскому хозяйству и продовольствию (ОТ) и ИПЯ ключевых слов. [50, C. 170].

      Выбор ЛО библиотеки определяется ее информационно-поисковыми задачами (ИПС), информационными ресурсами библиотеки, а также информационными потребностями и запросами ее пользователей. По такому же принципу построено ЛО крупнейших зарубежных БД по сельскому хозяйству, таких как CABabstract – БД CABI (Международное бюро сельскохозяйственной информации стран Британского содружества), Agricola – БД NAL (Национальной сельскохозяйственной библиотеки США), Agris – БД FАО (Продовольственная и сельскохозяйственная организация ООН), включает CODES (Рубрикатор) и тезаурус. В NAL используются также своя собственная классификация карточного каталога и классификация Дьюи.

      Рубрикатор  используется для формирования печатных и электронных версий изданий, а  также для работы с большими массивами  информации в БД. Тезаурус используется для тематического поиска различной глубины и детализации.

      Любые классификации, ИПЯ требуют постоянной поддержки: терминологического наполнения и введения новых лексических  единиц. Это под силу только крупным  библиотекам и информационным центрам, где в штате есть специалисты-отраслевики и лингвисты. Кроме того, эта работа требует больших финансовых затрат. Поэтому необходима кооперация в этой работе и информационные центры и библиотеки ищут ее. Проблема совместимости ЛО сельскохозяйственных библиотек сейчас весьма актуальна, поскольку единое ЛО не только позволит потребителю комфортно чувствовать себя в различных ЭК и БД и переходить из одной ИПС в другую, но и облегчит тематический поиск в них. Единые принципы индексирования позволят создавать более точные поисковые предписания, успешнее вести поиск и получать максимум релевантной информации. Финансовые и кадровые проблемы также способствуют тому, что специалисты стремятся к объединению усилий в этой работе. [15, C. 61-62].

      Редко говорится о совместимости или разработке единого Рубрикатора нескольких стран, поскольку чаще всего они используются для получения издательской продукции. Обычно речь идет о совместимости или создании единого международного тезауруса как основного инструмента при индексировании, создании поискового образа документа и поиска в ЭК и БД.

CABI и NAL решили эту проблему используя один тезаурус. За основу был взят англоязычный тезаурус CABInternational и с 1985 года ведутся совместные работы по его поддержанию и наполнению. Американские термины, которые не используются в Европе имеют соответствующую пометку. Тезаурус AGRIS – “Agrovoc” – трехязычный (английский, французский, испанский), есть также немецкая, итальянская и арабская версии. БД AGRIS – международная, в ее создании принимают участие многие страны мира, наличие версий тезауруса на нескольких языках позволяет использовать его для БД в разных странах. Несмотря на то, что тезаурус CABabstracts и “Agrovoc” англоязычные, в их основе лежат разные идеологии. Эти тезаурусы 2-х международных информационных систем по сельскому хозяйству имеют большое сходство по тематическому охвату, лексическому составу, построению и элементам словарных блоков, отношениям между терминами, но имеющиеся расхождения в этих же областях не позволяют считать их совместимыми в существующем виде. Давно обсуждается вопрос о создании единого тезауруса, но из-за финансовых трудностей он пока отложен. Эта работа не может быть механической из-за разницы в их построении. Равно как нельзя просто перевести, к примеру, тезаурус CABabstracts или Agrovoc на русский язык и считать его российским тезаурусом по сельскому хозяйству.

      ЦНСХБ провела сравнительный анализ тезаурусов, их структуры, который показал, что  разница и в терминологии очень  велика. Анализ показал, что в каждом из тезаурусов есть свои преимущества, которые хотелось бы объединить. Предполагается, что объединенный тезаурус позволит взять от каждого тезауруса его лучшие качества. ЦНСХБ предполагает принять участие в этой работе с тем, чтобы в многоязычном тезаурусе была русская версия. Создание русскоязычной версии одного тезауруса позволит для каждой лексической единицы найти соответствующий эквивалент на русском языке. Это будет один тезаурус с единой идеологией, выверенными связями и т.д.

В ЦНСХБ  работы по поддержанию ИПЯ, ведутся постоянно в соответствии с тем какие задачи эти ИПЯ призваны решать.

Отраслевой  Рубрикатор (ОР) должен отвечать следующим  требованиям:

- полно  и точно отражать политематический  поток документов, поступающих на  ввод в БД

- обеспечить точность информационного поиска

- удовлетворять  требованиям сортировки массивов  документов при создании различной  выходной продукции, в т.ч. текущих  изданий

- выполнять  формально-логический контроль рубрик  вводимых документов.

      С этой целью выявляются дублирующие или избыточные (неработающие) рубрики; проводится сопоставительный анализ части рубрик ОР и ГРНТИ с целью устранения многоаспектности, дублирования рубрик, унификации наименований; уточняется справочно-ссылочный аппарат, редактируются наименования рубрик, примечания. С включением в фонд и аналитико-синтетическую обработку документов новой тематики (например пищевой промышленности) создаются новые разделы ОР, для которых разрабатываются схемы, создается ссылочно-справочный аппарат, приписываются комментарии и примечания. Затем этот раздел включается в машинный ОР БД. Разрабатывается формат вывода машинного ОР на печать. Все изменения вносятся в электронную и печатную версию ОР. Программное обеспечение ведения и актуализации машинных ОР и ОТ разработано во ВНИИТЭИагропром. [49, C. 90-92].

      Работы  по совершенствованию Отраслевого  тезауруса (ОТ) включают: отбор массива  лексических единиц (ЛЕ) по всему  диапазону входного потока БД, формирование словника ОТ, построение словарных  статей. Отбор ЛЕ ОТ осуществляется специалистами в ходе одноразовой аналитико-синтетической обработки документов. ЛЕ поступают сначала в карточную картотеку и используются некоторое время в качестве ключевых слов. Работа над ними состоит из этапов: мониторинг на частотность появления терминов в документах; согласование со специалистами; проверка в справочниках и тезаурусах зарубежных БД; создание лингвистического обрамления; редактирование; построение статьи термина-дескриптора; сверка с машинным ОТ. После подготовки машинного ввода и корректировки связей ЛЕ вводится в ОТ.

        Машинный ОТ осуществляет формально-логический контроль терминов в поле индексирования, что позволяет выявлять ошибки индексирования и ввода информации в БД. Ключевые слова, не отнесенные в ранг дескрипторов, выделяются в отдельное подполе, по ним возможен поиск. Ключевые слова – это нормализованный ИПЯ; они записываются в соответствии с правилами, разработанными для ИПС ЦНСХБ. По мере отбора терминов и обработки их для ввода в ОТ разрабатываются и принимаются решения по методике индексирования документов разной тематики.

      Единое  ЛО сельскохозяйственных библиотек позволит создать единое информационное пространство отрасли. В России уже существует единый Рубрикатор – Государственный рубрикатор научно-технической информации; на его основе разработан Отраслевой рубрикатор по сельскому хозяйству и продовольствию, который пока практически не используется в сельскохозяйственных библиотеках отрасли. Использование в отраслевых библиотеках УДК также способствует созданию единого ЛО. Тем более, что есть возможность централизованного индексирования по УДК в современных условиях и на новом уровне.

      В течение многих лет ЦНСХБ являлась центром каталогизационной обработки, выпускала и рассылала по подписке каталожные карточки на книги и статьи по сельскому хозяйству, включаемые в ее фонд. Эти карточки получали индекс темы Централизованной библиографической информации (ЦБИ), отражающей основные проблемы сельского хозяйства. Библиотеки заказывали те из них, которые соответствовали тематике их фондов и каталогов. На карточках проставлялись (и сейчас проставляются) индексы УДК, соответствующие содержанию документа. Таким образом библиотеки получали готовую карточку с готовой систематизацией и оставалось лишь поставить ее в каталог или в картотеку статей. С удорожанием полиграфии и в связи с тяжелым финансовым положением библиотек, система ЦБИ перестала функционировать. Однако в последние годы проблема централизованной обработки документов вновь становится актуальной, не только потому, что там, где есть ЭК, как правило, продолжают функционировать карточные каталоги. А потому, что снят вопрос о дорогой полиграфии: теперь информацию можно получать по электронной почте по тем же темам ЦБИ, а затем, уже на месте, ее можно распечатать в виде карточки и использовать в традиционных и электронных каталогах. ЦНСХБ продолжает использовать УДК, которая стала одним из ИПЯ ее ЭК и БД “AGROS”.

      Использование в библиотеках отрасли наряду с УДК, Отраслевого Рубрикатора  и Отраслевого Тезауруса позволит улучшить качество индексирования документов, облегчит поиск в отраслевых БД.

      Библиотека  проводит методическую работу с библиотеками отрасли, организуя семинары, Дни  повышения квалификации по вопросам индексирования и работы с ИПЯ. В  течение многих лет разрабатывались отраслевые рабочие таблицы УДК по сельскому хозяйству, которые являлись основным методическим и рабочим инструментом систематизаторов в библиотеках отрасли. В настоящее время регулярно проводятся занятия и консультации по вопросам систематизации по таблицам УДК.

      ОТ  и ОР может быть использован в  электронной форме, готовятся к  переизданию их печатные версии. ЦНСХБ  подготовлен в печатной форме  словник дескрипторов ОТ, который  может существенно облегчить  работу индексатора. Предполагается провести ряд консультаций и семинаров по индексированию и работе с ОР и ОТ для библиотек отрасли.

      ЦНСХБ надеется что библиотеки отрасли примут также участие в разработке статей тезауруса или в отборе лексики для него. Такая кооперация поможет не только созданию единого ЛО, единого информационного пространства, не только сократит финансовые затраты библиотек на разработку собственного ЛО, но и поможет повысить уровень индексирования документов по сельскому хозяйству. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Информация о работе Лингвистическое обеспечение автоматизированных систем библиотек сельскохозяйственного профиля