Информационно поисковые системы

Автор работы: Пользователь скрыл имя, 11 Января 2017 в 14:40, реферат

Описание работы

В ХХ в. слово информацияи его производные стали необычайно популярными и, как следствие, почти бессодержательными. Существует бесчисленное множество определений и подходов к этому понятию. Информация – это, видимо, свойство живой природы. Само слово информацияпо своей внутренней форме (лат. informatio – осведомление, сообщение) предполагает общение, коммуникацию. Информацией обмениваются любые живые формы материи: растения, насекомые, животные, люди. В человеческом обществе информация может быть получена самыми разными способами: путем фиксации результатов наблюдений или измерений, в результате экспериментов, на основе умозрительного логического вывода и т.д

Содержание работы

Понятие об информации...........................................................................2
Основные понятия информационного поиска........................................5
Понятие об информационно-поисковой системе...................................7
Типы информационно-поисковых систем..............................................12
Состав информационно-поисковой системы.........................................16
История развития информационно-поисковых систем.........................19
Информационно-поисковые языки.........................................................25
Консультант Плюс....................................................................................33
Список используемой литературы..........................................................38

Файлы: 1 файл

реферат информатика.docx

— 61.57 Кб (Скачать файл)

Внешние технологические факторы заключались в потребности информационной инфраструктуры в обработке большого числа машиночитаемых баз данных (на магнитных лентах). Как правило, эти базы данных (БД) содержали краткое библиографическое описание документов, включая текстовые поля (заглавие, аннотацию, реферат, представленные на естественном языке), и не содержали поисковых образов документов с нормализованной лексикой. БД создавались, как правило, в одних местах – в специализированных организациях – генераторах баз данных, а использовались в других, так что процессы первичной семантической обработки документов и обработки запросов оказались разорванными. В этих условиях наиболее оптимальным оказалось использовать вышеназванные системы. Были достигнуты неплохие результаты в области автоматического индексирования. Появились системы, где автоматическое индексирование осуществлялось уже в промышленном режиме.

Другие направления исследований этого периода – это модели поиска (выбор критерия смыслового соответствия) и способы оценки систем. Несмотря на большое число исследований, посвященных вероятностно-статистическим моделям, на практике, в основном, стали использоваться ИПС с булевскими операторами. Преобладание булевских систем отчасти можно объяснить их простотой. "Прозрачность" булевского поиска совпала с развитием диалоговых средств поиска. Возможность получать промежуточные результаты поиска, возможность корректировать поисковое предписание по данным обратной связи для большинства пользователей оказались достаточными, чтобы удовлетвориться результатами поиска с помощью существующих систем.

Таким образом, к середине 70-х сформировался и на долгие годы стал преобладающим класс систем, получивших наибольшее распространение и работающих в режиме промышленной эксплуатации.

Этот класс систем отличают следующие особенности:

  • ИПЯ посткоординируемого типа на основе ключевых слов;
  • логический критерий смыслового соответствия на основе булевой логики;
  • специальные контекстные операторы для учета синтагматики;
  • поиск по свободному тексту (как правило, представленному рефератами);
  • диалоговый режим поиска;
  • оценка эффективности поиска на полноту и точность;
  • управление показателями поиска на основе данных обратной связи;
  • широкое распространение систем поиска в режиме ИРИ.

Для данного этапа характерно превращение ИПС в "средство производства": появляются мощные коммерческие информационные службы, осуществляющие генерацию машиночитаемых документальных баз данных и поиски по запросам. Программное обеспечение ИПС начинает распространяться в виде пакетов прикладных программ, сравнительно легко адаптируемых к условиям конкретных пользователей и организаций. Встает и решается вопрос об унификации языковых средств. Эта унификация выражается в создании единых форматов обмена документальными массивами (в СССР был созданы коммуникативные форматы ГКФ (1978-1979 гг.), затем МЕКОФ (1984-1985 гг.)), в попытках унификации языков запросов с целью создания единого командного языка. Можно сказать, что, в конечном счете, такой язык был создан, но позже, и не как отдельный язык, а в составе поискового протокола Z39.50 .

Четвертый этап развития документальных ИПС начался с середины 1990-х годов. Кардинальные изменения в информационной сфере произошли в связи с развитием сети Интернет и резким, лавинообразным ростом объемов документальной информации в электронном виде. Для данного этапа характерны:

  • гипертекстовые сетевые технологии как основа единого информационного пространства;
  • появление на этой базе глобальных ИПС;
  • специальные языки представления электронных документов;
  • видовое, тематическое и языковое разнообразие информационных массивов;
  • ориентация на полнотекстовый поиск;
  • наследование лингвистического обеспечения предыдущего периода.

Лингвистический компонент современных ИПС отстает от технического и программного. Разработка ИПС все чаще становится делом программистов и специалистов по компьютерной технике. Создание лингвистического обеспечения является сложной и комплексной проблемой, требующей исследования и решения многих проблем семантики, прикладной лингвистики и теории информационного поиска. Достижения в области программно-технического обеспечения документального поиска, коренным образом изменившие облик современных информационных систем, выглядят впечатляюще. Однако эти достижения находятся в диспропорции с показателями функциональной эффективности, отражающими качественную сторону поиска. В настоящее время мощность и особенности документальных потоков таковы, что эффективное функционирование информационных систем на старой лингвистической базе невозможно, и требуются исследования, направленные на разработку новых языковых средств. В конце XX в. в сферу электронного документооборота на полных правах вошел естественный язык. Это также требует новых теоретических и практических разработок в области информационных систем, в первую очередь, в направлении их "интеллектуализации".

 

 

 

 

 

 

 

 

 

 

 

 

 

 

7.Информационно-поисковые языки

Важнейшей компонентой ИПС является информационно-поисковый язык. Человек, чтобы отобрать из массива документов нужные, должен прочитать или просмотреть их содержимое. Для ускорения и упрощения этой процедуры появились различные формы сокращенной записи содержания документов – аннотации, рефераты, каталоги. Но во всех этих случаях при отборе документов по их сокращенным описаниям используется естественный язык. Известно, что акт понимания в языке опирается на сигнификативное значение, которое находится в сложных отношениях с явно выраженными в тексте (в речи) языковыми знаками. Хорошо известны такие "недостатки" языковых знаков, как омонимия, синонимия, многозначность. Точное значение многих слов можно понять только в контексте. Это препятствует использованию естественного языка для фиксации и отождествления понятийной информации. Но этим "асимметризм" и "алогизм" языковых знаков не заканчивается. Неоднозначность и многозначность в языке относятся не только к лексике, но и к грамматике. Одни и те же грамматические отношения могут выражаться по-разному, и одни и те же формы могут иметь разное грамматическое значение. Кроме того, существенные с точки зрения понимания смысла отношения понятий, например, отношение "род-вид", никак явно не отражаются в лексической и грамматической системе естественного языка.

Поэтому формальные системы, предназначенные для хранения документальной информации с целью последующего поиска, потребовали создания специальных информационных языков. Вероятно, первые такие языки, отличные от естественных и получившие название классификаций, были созданы для библиотек. Внедрение в информационный поиск компьютеров способствовало дальнейшему развитию и формализации информационных языков. ИПЯ представляют собой знаковые системы, со своим алфавитом, лексикой, грамматикой и правилами пользования. Заметим лишь, что все искусственные языки так или иначе создавались и создаются на основе естественных языков.

Информационно-поисковый язык– это формальный язык, предназначенный для описания отдельных аспектов плана содержания документов, хранящихся в ИПС, и запроса. Процедура описания документа на ИПЯ называется индексированием.

Основные требования к ИПЯ следующие:

  • однозначность между планом выражения и планом содержания (каждая лексическая единица соотносится с одним понятием, и наоборот – каждое понятие имеет уникальное имя, и, как следствие, каждая запись на ИПЯ имеет только один смысл);
  • достаточная семантическая сила (способность фиксировать с достаточными полнотой и точностью все существенное в содержании документов и запросов);
  • открытость (возможность корректировки и пополнения языка).

В результате индексирования каждому документу приписывается его формальное описание на ИПЯ – поисковый образ документа. Аналогичным образом индексируется и запрос, которому приписывается поисковый образ запроса, или поисковое предписание. Алгоритмы информационного поиска основаны на сравнении поискового предписания с поисковым образом запроса. Критерий выдачи документа на запрос может состоять в полном или частичном совпадении поискового образа документа и ПП.

В ряде случаев пользователь имеет возможность сам сформулировать критерии выдачи. Это определяется его информационной потребностью.

Информационно-поисковые языки должны удовлетворять некоторым важным условиям. К ИПЯ предъявляется требование достаточной разрешительной силы– способности дифференцировать важные для данной проблемной области семантические различия между документами. На информационно поисковые языки налагается требование однозначности: в записи на ИПЯ недопустима полисемия и омонимия. Кроме того, ИПЯ должен иметь достаточно гибкую структуру, допускающую модификацию – прежде всего в отношении лексических средств ИПЯ.

Информационно-поисковые языки можно классифицировать по разным основаниям. Чаще всего ИПЯ разделяются на языки-классификации и языки дескрипторного типа.Языки-классификации, или языки классификационного типа, основываются на иерархических классификациях понятий. Наиболее известна из языков классификационного типа универсальная десятичная классификация (УДК), используемая, например, в библиотечном деле для индексирования книг. По требованиям Книжной палаты на обороте титула каждой книги должен стоять индекс УДК. Наряду с УДК в библиотечном деле применяется также Библиотечно-библиографическая классификация (ББК). Если основы УДК были разработаны еще в 1895-1905 гг. в Международном библиографическом институте под руководством П. Отле и А. Лафонтена, то ББК была создана в СССР с учетом имевшихся тогда представлений о соотношении общественных и естественных наук.

Основные проблемы использования языков-классификаций связаны с тем, что они, как правило, ограничены крупными классами (таксонами) понятий и не позволяют выйти на достаточную глубину описания документов и тем самым обеспечить точность индексирования. Кроме того, они не позволяют характеризовать документ с различных точек зрения, что делает невозможным многоаспектное индексирование. И, наконец, иерархические классификации понятий не успевают за научно-техническим прогрессом.

Видом языков классификационного типа можно считать фасетные классификации. Структура языков этого типа предусматривает индексирование документа по нескольким основаниям – фасетам (facet = аспект). Например, газетные и журнальные статьи в информационном компоненте корпуса текстов по современной российской публицистике характеризуются по параметрам источника, автора, времени публикации, темы текста, жанра текста (внутри публицистического стиля). Как и в классических вариантах языков классификационного типа, в качестве элементов фасетных ИПЯ могут выступать символьные выражения (коды), но часто используются и лексические элементы естественного языка с унифицированной морфологической формой. Каждый параметр (аспект) классификации называется фасетом. Совокупность фасетов, используемая для индексирования документа, называется схемой классификации. В поисковом образе документа последовательность и состав фасетов строго фиксированы. . В общем случае фасетные ИПЯ предполагают достаточно разветвленное, подробное описание каждого фасета – иерархического дерева понятий. Фасетные классификации довольно сложны и в аспекте индексирования, и в аспекте организации информационного поиска, выборе критериев соответствия.

Иерархические классификации и языки фасетного типа получили наибольшее распространение в ручном информационном поиске.

В автоматизированных ИПС чаще используются дескрипторные ИПС.Тематика документа описывается совокупностью дескрипторов. В качестве дескрипторов выступают слова, термины, обозначающие простые, достаточно элементарные категории и понятия проблемной области. В поисковый образ документа вводится столько дескрипторов, сколько различных тем затрагивается в документе. Количество дескрипторов не ограничивается, что позволяет описать документ в многомерной матрице признаков. Совокупность дескрипторов задает координаты документа в матрице – отсюда термин координатное индексирование. Часто в дескрипторном ИПЯ налагается ограничения на сочетаемость дескрипторов в ПОДе и ПП; в этом случае можно говорить о том, что ИПЯ обладает синтаксисом.

Одна из первых систем, работавших с дескрипторным языком, была американская система УНИТЕРМ, созданная И. Таубе. В качестве дескрипторов в этой системе функционировали ключевые слова документа – унитермы. Особенность этой ИПС заключается в том, что изначально словарь информационного языка не задавался, а возникал в процессе индексирования документа и запроса. Такой способ организации ИПС оказался чрезвычайно гибким, поскольку с помощью унитермов – простых понятий проблемной области – можно было достаточно полно описать любой документ. Например, сочетание унитермов кадры и новый давало возможность получить всю информацию о новых кадровых решениях, а сочетание мебель и офис позволяло получить документацию об офисной мебели. К сожалению, гибкость структуры первых дескрипторных ИПЯ порождала проблему полноты и точности информационного поиска. Полисемия и синонимия естественного языка в полной мере давала себя знать в процессе индексирования документов и запросов: если из нескольких синонимов пользователь выбирал не тот синоним, который был представлен в ПОДе документа, то документ не выдавался ИПС.

На следующем этапе развития ИПЯ дескрипторного типа возникла технология лингвистического(другие варианты – лексического или словарного) контроля, заключавшегося в унификации языка индексирования запросов и документов. Наиболее удачной формой унификации оказался дескрипторный словарь, в котором в эксплицитной форме перечислялись те слова (дескрипторы), которые допускаются в индексировании. Дескрипторный словарь с указанными в нем парадигматическими отношениями получил название информационно-поискового тезауруса(ИПТ). Объединение дескрипторов в рамках одного таксона в тезаурусе позволяло установить отношения квазисинонимии, обеспечивало переход от более частных понятий к более общим и наоборот, что давало возможность преобразовать запрос в более частный или более общий по сфере охвата документов. Фактически хороший информационно-поисковый тезаурус является понятийной моделью проблемной области. Разработка ИПТ стоит в центре создания любой информационно-поисковой системы. Среди парадигматических отношений в тезаурусе обычно отражаются отношения "род ↔ вид", "часть ↔ целое", "свойство ↔ его проявление", "процесс ↔ результат", "действие ↔ результат", "причина ↔ следствие", "предмет/объект ↔ типичная функция". Как правило, в зону парадигматических связей попадают и ассоциативные отношения, позволяющие расширить информационный поиск по параметру полноты.

Информация о работе Информационно поисковые системы