Лингвистическое обеспечение автоматизированных систем библиотек сельскохозяйственного профиля

Автор работы: Пользователь скрыл имя, 06 Сентября 2011 в 11:27, дипломная работа

Описание работы

Целью исследования является обоснование структуры лингвистического обеспечения научных сельскохозяйственных библиотек, способствующей максимально полному удовлетворению информационных потребностей ученых и практиков в релевантной информации по вопросам АПК.

Содержание работы

Введение - 3 -
Глава 1. Теоретические аспекты лингвистического обеспечения автоматизированных библиотечно-информационных систем. - 9 -
1.1. Понятие, состав и требования к современному лингвистическому обеспечению - 9 -
1. 2. Обзор лингвистического обеспечения сельскохозяйственных библиотек России и Украины - 17 -
1.2.2. Средства лингвистического обеспечения Государственной научной сельскохозяйственной библиотеки Украинской академии сельскохозяйственных наук - 22 -
Глава 2. Структура лингвистических средств Белорусской сельскохозяйственной библиотеки им. И. С. Лупиновича Национальной академии наук Беларуси - 28 -
2.1. База данных УДК и ее применение в качестве информационно-поискового языка - 30 -
2.2. Тезаурус по сельскому хозяйству и продовольствию - 39 -
2.2.1. Назначение и структура тезауруса - 39 -
2.2.2. Парадигматические отношения - 45 -
2.2.3. Использование тезаурусов - 54 -
2.3. Проблема выбора средств лингвистического обеспечения и их интеграции в библиотеках АПК. - 58 -
Заключение - 62 -
Приложение №1…………………………………………

Файлы: 1 файл

DIPLOM.doc

— 855.00 Кб (Скачать файл)

в том числе:

61    Медицинские науки            3170

62/621.2  Техника в целом. Тепловые двигатели.

            Гидравлика            1575

621.3               Электротехника            1698

621.4/.6 Тепловые двигатели. Пневмоэнергетика.

            Обработка жидкостей              477

621.7/.9  Механическая техника            1486

622  Горное дело                679

623   Военная техника                           618

624/627  Строительная техника               1522

628   Санитарная техника                628

629   Техника транспортных средств          1779

63   Сельскохозяйственные науки              2273

64  Экономика                           718

65   Управление и организация промышленности                       1387

66   Химические науки             4455

67/68               Различные отрасли промышленности и ремесел          4576

69   Строительство                705

7   Искусство. Отдых. Развлечения. Спорт                      2596

8    Языки. Языкознание. Литература                         616

9    География. Биографии. История              435  [56, 60, html] 
 
 

      Всероссийский институт научной и технической информации Российской академии наук поддерживает электронную базу данных УДК на русском языке, основанную на полной печатной версии УДК на русском языке (4-е полное издание в 10-ти томах). Она создана Ассоциацией ЭБНИТ на основании договора с ВИНИТИ РАН. 

Преимущества БД УДК. 

      База данных УДК обладает несколькими явными преимуществами перед печатными таблицами:

      1. БД является  полным электронным изданием таблиц УДК.  Благодаря этому решилась проблема, связанная с  приобретением печатных таблиц – в них отпала необходимость. БД ежегодно актуализируется. Кроме этого,  опечатки и ошибки, которые встречаются в классификации, оперативно исправляются, чего не скажешь о печатных таблицах, в которых ошибки будут исправлены в последующих изданиях

      2. БД УДК – автономный продукт, который устанавливается на рабочий стол неограниченного количества компьютеров.

      3. Поскольку Международный Консорциум УДК старается поддерживать  состав классификационных таблиц в актуальном состоянии, в УДК постоянно вносятся изменения и дополнения, отследить которые сложно. На сегодняшний день ВИНИТИ издано 9 томов основных таблиц и к ним уже 4 выпуска «Изменений и дополнений». База данных предлагает новое решение  - поиск по всем исключенным индексам, где представлены не только год и причина исключения индекса, но и заменяющие индексы. Отсутствие указания причины означает «исключен как излишний». Этим обеспечивается существенное упрощение процессов реклассификации систематических каталогов и переиндексирования документов, отраженных в ЭК.

      4. БД снабжена удобными средствами отбора и построения конкретных индексов с последующим их переносом в библиографическое описание любой автоматизированной системы.

      5. И, наконец, использование БД УДК произвольно: ее можно выставить в подразделениях библиотеки, на кафедры, в пользовательскую зону. Одновременно с ней может работать неограниченное количество пользователей.

      База данных УДК представлена в поисковом интерфейсе Системы автоматизации библиотек ИРБИС. Поиск в базе данных может быть осуществлен как по графу на полную глубину с возможностью использования ссылочного аппарата, так и по индексам отдельных таблиц и по ключевым словам. Интерфейс снабжен удобными средствами отбора индексов и построения конкретных индексов с последующим их переносом в библиографическое описание, создаваемое при помощи любой автоматизированной библиотечно-информационной системы.

      Представляемая БД УДК в настоящее время соответствует Российскому эталону таблиц УДК по его состоянию на 2008г. (учтены «Изменения и дополнения», вып. 1-4):

- переведены в состояние пассивных записи словарных статей (ЗСС) общих определителей .00 (как исключенных из таблиц), а также тех ЗСС, заглавные индексы которых включали .00;

- ликвидированы соответствующие элементы справочно-ссылочного аппарата;

- включены записи словарных статей  новых общих определителей -02 Свойства,  -04 Отношения, процессы и операции;

- дан в новой редакции раздел 2 Религия;

- в значительной мере переработаны ЗСС разделов 0, 1, 3, 5, 61, 6/621, 622/629, 63/65, 66, 67/69, а также записи общих определителей. 

      Следует обратить внимание, что в базе данных УДК представлены два типа записей словарных статей - активные (действующие) ЗСС и пассивные ЗСС, т.е. записи тех словарных статей, которые исключены из таблиц УДК и, следовательно, не подлежат применению при индексировании документов.

      Каждая пассивная словарная статья содержит свой заглавный индекс, год исключения и его причины (отсутствие указания причины означает "исключен как излишний"), заменяющие индексы (при их наличии), а также может содержать данные ее бывшего активного состояния. 

Особенности поиска. 

      В настоящей редакции базы данных (в отличие от предыдущих редакций) объектами поиска могут быть не только активные записи словарных статей, но и пассивные ЗСС (этим обеспечивается существенное упрощение процессов реклассификации рабочих систематических каталогов и переиндексирования документов, отраженных в электронных каталогах).

      Активная ЗСС, кроме своих обязательных элементов данных - заглавного индекса и рубрики, может содержать:

- расширение заглавной рубрики;

- надрубрику (в случае десемантизированности заглавной рубрики);

- ссылки (См. также), отсылки (См.), обратные отсылки (Отс. от), смежные области, области применения и методические указания.

      При индексировании документов и запросов предусмотрен поиск по базе данных УДК.

      Цель поиска - найти совокупность табличных индексов (заглавных индексов активных записей словарных статей), каждый из которых необходим, а все они вместе достаточны для составления на языке УДК полного и точного поискового образа данного сообщения.

      В случае документа итогом индексирования является поисковый образ документа (ПОД), в случае запроса - поисковое предписание (ПП).

      Так как в общем случае содержание сообщения является тематически сложно-составным, то для упрощения общей задачи индексирования рекомендуется предварительно разбить исходное политематическое сообщение на монотематические части.

      При работе с политематическим документом получается несколько тематических блоков, из которых затем формируется полный ПОД (как цепочка тематических блоков).

      При работе с политематическим запросом получается несколько монотематических поисковых предписаний. При этом поиск в документальной БД может быть произведен по каждому из этих ПП в отдельности либо по их логической сумме.

      Предусмотрены 2 стратегии поиска - стратегия «сверху-вниз» (на плоскости «Граф УДК») и стратегия «прямого доступа» («Плоскость поиска»).

      Первая основывается на представимости иерархических классификаций ориентированными (вниз от корневой вершины) графами типа «сеть», на возможности экранной индикации таких графов и на возможности перемещения от вершины к вершине по ориентированным ребрам (и обратно). 

 

      Для реализации ссылочно-отсылочного аппарата пары соответствующих вершин сети связываются дополнительными ребрами:

- обоюдонаправленными в случае ссылок (См. также) и

- односторонне направленными в случае отсылок (См.) и обратных отсылок (Отс. от).

      Поисковое движение по такому графу начинается сверху, т.е. от корневой вершины и продолжается вниз (в соответствии с принятыми делениями классов и с результатами смысловой идентификации классов на очередных уровнях графа с рассматриваемой темой сообщения) с возможным переключением по ссылкам и отсылкам на другие ветви графа. Раскрытие того или иного раздела - на кнопке «Содержание записи»

      По мере достижения классов, которые достаточно полно и точно соответствуют данной теме, производится их отмечание с целью отбора индексов этих классов и построения по ним соответствующего поискового образа документов или поискового предписания (экранное окно "Конструктор"). 

 

      Затем отобранный индекс копируется и вставляется в библиографическое описание документа в АРМе «Каталогизатор» САБ ИРБИС. 

 
 

      Т.е. интерфейс снабжен удобными средствами отбора и построения конкретных индексов с последующим их переносом в библиографическое описание, создаваемое при помощи любой автоматизированной системы.

      Подробная инструкция о структуре БД УДК и ее текущем состоянии размещена на кнопке «Общие сведения». Здесь же даны подробные методические указания по применению общих и специальных определителей, знаков УДК и примеры.

      Кнопка «Исходное» - возвращает нас в исходное положение на плоскости Граф УДК.

      Стратегия «прямого доступа» ориентирована главным образом на использование ключевых словоформ в качестве элементов логических формул поиска в БД требуемых записей словарных статей.

      На этой плоскости предоставляется возможность использования логических операторов, возможность проведения поиска с усечением и без него, возможность комбинирования отработанных и новых запросов.

      Здесь обеспечен ключевой режим поиска  – по ключевым словам, по индексам основных и вспомогательных таблиц, по исключенным индексам.

      Словарь ключевых слов формируется из отдельных слов предметных рубрик УДК: 

      1) словарь «Основные таблицы» – из индексов УДК основных таблиц; 

      2) девять словарей общих определителей – из индексов УДК вспомогательных таблиц общих определителей; 

      3) словарь «Исключенные индексы» представляет данные об исключенных индексах. Поиск пассивных записей словарных статей (данных об исключенных индексах) может производиться только по индексам, выбираемым из словаря. 

 
 
 
 
 
 

  • 2.2. Тезаурус по сельскому хозяйству и продовольствию. 
  •           2.2.1. Назначение и структура тезауруса. 

        Слово «тезаурус» в переводе с греческого означает «сокровищница». Первые тезаурусы были разработаны в начале 60-х годов. Тезаурусы, используемые для информационного поиска, называют информационно-поисковыми (ИПТ).

        Тезаурус является лексическим инструментом ИПС и представляет собой контролируемый, но изменяемый словарь терминов-дескрипторов и недескрипторов (аскрипторов), упорядоченных по систематическому и алфавитному принципам с указанием на смысловые связи между ними иерархического и неиерархического чипа (парадигматические отношения). Разработанный ИПТ должен исчерпывающим образом покрывать определенную область знаний, отражаемую входным потоком документов.

        Сложность построения ИПТ общеизвестна. Несмотря на существование методических разработок отдельных его аспектов, каждый случай в целом требует особого решения. Это обусловлено разнообразием тематических областей и задачами поиска в конкретной БД.

          БД ЛГРОС не является узкоспециализированной, она включает документальные массивы широкого тематического диапазона и ориентирована при этом на обслуживание достаточно детальных запросов пользователей. Это предопределяет состав и объем лексики ИПТ, его парадигматический аппарат, широту и глубину смыслового анализа и описания документов, т. е. методические принципы индексирования. В частности, использование в ИПС ЦНСХБ дескрипторного языка без грамматики требует достаточно высокой координации лексики. Отчасти это достигается включением в тезаурус значительного количества сложных терминов в виде словосочетаний. Однако, чтобы избежать ложной координации с другими терминами терминов типа КАЧЕСТВО, пришлось бы включить в тезаурус очень большое количество соответствующих словосочетаний (КАЧЕСТВО МЕДА, КАЧЕСТВО СКОРЛУПЫ, КАЧЕСТВО ТАБАКА и т. п.).

    Информация о работе Лингвистическое обеспечение автоматизированных систем библиотек сельскохозяйственного профиля