Автор работы: Пользователь скрыл имя, 11 Января 2017 в 14:40, реферат
В ХХ в. слово информацияи его производные стали необычайно популярными и, как следствие, почти бессодержательными. Существует бесчисленное множество определений и подходов к этому понятию. Информация – это, видимо, свойство живой природы. Само слово информацияпо своей внутренней форме (лат. informatio – осведомление, сообщение) предполагает общение, коммуникацию. Информацией обмениваются любые живые формы материи: растения, насекомые, животные, люди. В человеческом обществе информация может быть получена самыми разными способами: путем фиксации результатов наблюдений или измерений, в результате экспериментов, на основе умозрительного логического вывода и т.д
Понятие об информации...........................................................................2
Основные понятия информационного поиска........................................5
Понятие об информационно-поисковой системе...................................7
Типы информационно-поисковых систем..............................................12
Состав информационно-поисковой системы.........................................16
История развития информационно-поисковых систем.........................19
Информационно-поисковые языки.........................................................25
Консультант Плюс....................................................................................33
Список используемой литературы..........................................................38
Внешние технологические факторы заключались в потребности информационной инфраструктуры в обработке большого числа машиночитаемых баз данных (на магнитных лентах). Как правило, эти базы данных (БД) содержали краткое библиографическое описание документов, включая текстовые поля (заглавие, аннотацию, реферат, представленные на естественном языке), и не содержали поисковых образов документов с нормализованной лексикой. БД создавались, как правило, в одних местах – в специализированных организациях – генераторах баз данных, а использовались в других, так что процессы первичной семантической обработки документов и обработки запросов оказались разорванными. В этих условиях наиболее оптимальным оказалось использовать вышеназванные системы. Были достигнуты неплохие результаты в области автоматического индексирования. Появились системы, где автоматическое индексирование осуществлялось уже в промышленном режиме.
Другие направления исследований этого периода – это модели поиска (выбор критерия смыслового соответствия) и способы оценки систем. Несмотря на большое число исследований, посвященных вероятностно-статистическим моделям, на практике, в основном, стали использоваться ИПС с булевскими операторами. Преобладание булевских систем отчасти можно объяснить их простотой. "Прозрачность" булевского поиска совпала с развитием диалоговых средств поиска. Возможность получать промежуточные результаты поиска, возможность корректировать поисковое предписание по данным обратной связи для большинства пользователей оказались достаточными, чтобы удовлетвориться результатами поиска с помощью существующих систем.
Таким образом, к середине 70-х сформировался и на долгие годы стал преобладающим класс систем, получивших наибольшее распространение и работающих в режиме промышленной эксплуатации.
Этот класс систем отличают следующие особенности:
Для данного этапа характерно превращение ИПС в "средство производства": появляются мощные коммерческие информационные службы, осуществляющие генерацию машиночитаемых документальных баз данных и поиски по запросам. Программное обеспечение ИПС начинает распространяться в виде пакетов прикладных программ, сравнительно легко адаптируемых к условиям конкретных пользователей и организаций. Встает и решается вопрос об унификации языковых средств. Эта унификация выражается в создании единых форматов обмена документальными массивами (в СССР был созданы коммуникативные форматы ГКФ (1978-1979 гг.), затем МЕКОФ (1984-1985 гг.)), в попытках унификации языков запросов с целью создания единого командного языка. Можно сказать, что, в конечном счете, такой язык был создан, но позже, и не как отдельный язык, а в составе поискового протокола Z39.50 .
Четвертый этап развития документальных ИПС начался с середины 1990-х годов. Кардинальные изменения в информационной сфере произошли в связи с развитием сети Интернет и резким, лавинообразным ростом объемов документальной информации в электронном виде. Для данного этапа характерны:
Лингвистический компонент современных ИПС отстает от технического и программного. Разработка ИПС все чаще становится делом программистов и специалистов по компьютерной технике. Создание лингвистического обеспечения является сложной и комплексной проблемой, требующей исследования и решения многих проблем семантики, прикладной лингвистики и теории информационного поиска. Достижения в области программно-технического обеспечения документального поиска, коренным образом изменившие облик современных информационных систем, выглядят впечатляюще. Однако эти достижения находятся в диспропорции с показателями функциональной эффективности, отражающими качественную сторону поиска. В настоящее время мощность и особенности документальных потоков таковы, что эффективное функционирование информационных систем на старой лингвистической базе невозможно, и требуются исследования, направленные на разработку новых языковых средств. В конце XX в. в сферу электронного документооборота на полных правах вошел естественный язык. Это также требует новых теоретических и практических разработок в области информационных систем, в первую очередь, в направлении их "интеллектуализации".
7.Информационно-поисковые языки
Важнейшей компонентой ИПС является информационно-поисковый язык. Человек, чтобы отобрать из массива документов нужные, должен прочитать или просмотреть их содержимое. Для ускорения и упрощения этой процедуры появились различные формы сокращенной записи содержания документов – аннотации, рефераты, каталоги. Но во всех этих случаях при отборе документов по их сокращенным описаниям используется естественный язык. Известно, что акт понимания в языке опирается на сигнификативное значение, которое находится в сложных отношениях с явно выраженными в тексте (в речи) языковыми знаками. Хорошо известны такие "недостатки" языковых знаков, как омонимия, синонимия, многозначность. Точное значение многих слов можно понять только в контексте. Это препятствует использованию естественного языка для фиксации и отождествления понятийной информации. Но этим "асимметризм" и "алогизм" языковых знаков не заканчивается. Неоднозначность и многозначность в языке относятся не только к лексике, но и к грамматике. Одни и те же грамматические отношения могут выражаться по-разному, и одни и те же формы могут иметь разное грамматическое значение. Кроме того, существенные с точки зрения понимания смысла отношения понятий, например, отношение "род-вид", никак явно не отражаются в лексической и грамматической системе естественного языка.
Поэтому формальные системы, предназначенные для хранения документальной информации с целью последующего поиска, потребовали создания специальных информационных языков. Вероятно, первые такие языки, отличные от естественных и получившие название классификаций, были созданы для библиотек. Внедрение в информационный поиск компьютеров способствовало дальнейшему развитию и формализации информационных языков. ИПЯ представляют собой знаковые системы, со своим алфавитом, лексикой, грамматикой и правилами пользования. Заметим лишь, что все искусственные языки так или иначе создавались и создаются на основе естественных языков.
Информационно-поисковый язык– это формальный язык, предназначенный для описания отдельных аспектов плана содержания документов, хранящихся в ИПС, и запроса. Процедура описания документа на ИПЯ называется индексированием.
Основные требования к ИПЯ следующие:
В результате индексирования каждому документу приписывается его формальное описание на ИПЯ – поисковый образ документа. Аналогичным образом индексируется и запрос, которому приписывается поисковый образ запроса, или поисковое предписание. Алгоритмы информационного поиска основаны на сравнении поискового предписания с поисковым образом запроса. Критерий выдачи документа на запрос может состоять в полном или частичном совпадении поискового образа документа и ПП.
В ряде случаев пользователь имеет возможность сам сформулировать критерии выдачи. Это определяется его информационной потребностью.
Информационно-поисковые языки должны удовлетворять некоторым важным условиям. К ИПЯ предъявляется требование достаточной разрешительной силы– способности дифференцировать важные для данной проблемной области семантические различия между документами. На информационно поисковые языки налагается требование однозначности: в записи на ИПЯ недопустима полисемия и омонимия. Кроме того, ИПЯ должен иметь достаточно гибкую структуру, допускающую модификацию – прежде всего в отношении лексических средств ИПЯ.
Информационно-поисковые языки можно классифицировать по разным основаниям. Чаще всего ИПЯ разделяются на языки-классификации и языки дескрипторного типа.Языки-классификации, или языки классификационного типа, основываются на иерархических классификациях понятий. Наиболее известна из языков классификационного типа универсальная десятичная классификация (УДК), используемая, например, в библиотечном деле для индексирования книг. По требованиям Книжной палаты на обороте титула каждой книги должен стоять индекс УДК. Наряду с УДК в библиотечном деле применяется также Библиотечно-библиографическая классификация (ББК). Если основы УДК были разработаны еще в 1895-1905 гг. в Международном библиографическом институте под руководством П. Отле и А. Лафонтена, то ББК была создана в СССР с учетом имевшихся тогда представлений о соотношении общественных и естественных наук.
Основные проблемы использования языков-классификаций связаны с тем, что они, как правило, ограничены крупными классами (таксонами) понятий и не позволяют выйти на достаточную глубину описания документов и тем самым обеспечить точность индексирования. Кроме того, они не позволяют характеризовать документ с различных точек зрения, что делает невозможным многоаспектное индексирование. И, наконец, иерархические классификации понятий не успевают за научно-техническим прогрессом.
Видом языков классификационного типа можно считать фасетные классификации. Структура языков этого типа предусматривает индексирование документа по нескольким основаниям – фасетам (facet = аспект). Например, газетные и журнальные статьи в информационном компоненте корпуса текстов по современной российской публицистике характеризуются по параметрам источника, автора, времени публикации, темы текста, жанра текста (внутри публицистического стиля). Как и в классических вариантах языков классификационного типа, в качестве элементов фасетных ИПЯ могут выступать символьные выражения (коды), но часто используются и лексические элементы естественного языка с унифицированной морфологической формой. Каждый параметр (аспект) классификации называется фасетом. Совокупность фасетов, используемая для индексирования документа, называется схемой классификации. В поисковом образе документа последовательность и состав фасетов строго фиксированы. . В общем случае фасетные ИПЯ предполагают достаточно разветвленное, подробное описание каждого фасета – иерархического дерева понятий. Фасетные классификации довольно сложны и в аспекте индексирования, и в аспекте организации информационного поиска, выборе критериев соответствия.
Иерархические классификации и языки фасетного типа получили наибольшее распространение в ручном информационном поиске.
В автоматизированных ИПС чаще используются дескрипторные ИПС.Тематика документа описывается совокупностью дескрипторов. В качестве дескрипторов выступают слова, термины, обозначающие простые, достаточно элементарные категории и понятия проблемной области. В поисковый образ документа вводится столько дескрипторов, сколько различных тем затрагивается в документе. Количество дескрипторов не ограничивается, что позволяет описать документ в многомерной матрице признаков. Совокупность дескрипторов задает координаты документа в матрице – отсюда термин координатное индексирование. Часто в дескрипторном ИПЯ налагается ограничения на сочетаемость дескрипторов в ПОДе и ПП; в этом случае можно говорить о том, что ИПЯ обладает синтаксисом.
Одна из первых систем, работавших с дескрипторным языком, была американская система УНИТЕРМ, созданная И. Таубе. В качестве дескрипторов в этой системе функционировали ключевые слова документа – унитермы. Особенность этой ИПС заключается в том, что изначально словарь информационного языка не задавался, а возникал в процессе индексирования документа и запроса. Такой способ организации ИПС оказался чрезвычайно гибким, поскольку с помощью унитермов – простых понятий проблемной области – можно было достаточно полно описать любой документ. Например, сочетание унитермов кадры и новый давало возможность получить всю информацию о новых кадровых решениях, а сочетание мебель и офис позволяло получить документацию об офисной мебели. К сожалению, гибкость структуры первых дескрипторных ИПЯ порождала проблему полноты и точности информационного поиска. Полисемия и синонимия естественного языка в полной мере давала себя знать в процессе индексирования документов и запросов: если из нескольких синонимов пользователь выбирал не тот синоним, который был представлен в ПОДе документа, то документ не выдавался ИПС.
На следующем этапе развития
ИПЯ дескрипторного типа возникла технология лингвистического(