Информационно поисковые системы

Автор работы: Пользователь скрыл имя, 11 Января 2017 в 14:40, реферат

Описание работы

В ХХ в. слово информацияи его производные стали необычайно популярными и, как следствие, почти бессодержательными. Существует бесчисленное множество определений и подходов к этому понятию. Информация – это, видимо, свойство живой природы. Само слово информацияпо своей внутренней форме (лат. informatio – осведомление, сообщение) предполагает общение, коммуникацию. Информацией обмениваются любые живые формы материи: растения, насекомые, животные, люди. В человеческом обществе информация может быть получена самыми разными способами: путем фиксации результатов наблюдений или измерений, в результате экспериментов, на основе умозрительного логического вывода и т.д

Содержание работы

Понятие об информации...........................................................................2
Основные понятия информационного поиска........................................5
Понятие об информационно-поисковой системе...................................7
Типы информационно-поисковых систем..............................................12
Состав информационно-поисковой системы.........................................16
История развития информационно-поисковых систем.........................19
Информационно-поисковые языки.........................................................25
Консультант Плюс....................................................................................33
Список используемой литературы..........................................................38

Файлы: 1 файл

реферат информатика.docx

— 61.57 Кб (Скачать файл)
  • по степени автоматизации информационных процессов,
  • по типу данных,
  • по типу языка,
  • по типу критерия смыслового соответствия (критерий выдачи),
  • по режиму работы,
  • по способу хранения первичных документов,
  • по охвату возможных документальных источников.

По степени автоматизации информационных процессовразличают ручные, механизированные и автоматизированные ИПС. Ручные и механизированные ИПС отошли в область истории. Однако нужно понимать, что даже печатный справочник, энциклопедия, научная книга с различными указателями (предметный, авторский, географический, указатель названий и т.п.), записная книжка также являются поисковыми системами со своим способом организации материала и поиска.

По характеру выдаваемой информации – типу данных– ИПС делятся на документальные, фактографические и информационно-логические.

По типу критерия смыслового соответствиявсе ИПС подразделяют на системы с логическими КСС и с количественными КСС. В ИПС первой группы применяют аппарат алгебры логики с использованием основных операций булевой алгебры И, ИЛИ, НЕ. Степень соответствия ПОД и ПОЗ определяется путем подстановки значений истинности или ложности на место терминов ПОЗ в зависимости от их нахождения/ненахождения в ПОД и последующего вычисления значения истинности всей логической формулы запроса.

В основе КСС ИПС второй группы лежат различные функции и формулы: арифметические, алгебраические, статистические, строящиеся на частоте совместной встречаемости и других частотных и вероятностных характеристиках лексики ПОД и ПОЗ. Частный, но важный случай данного типа критерия – весовой КСС, когда при индексировании документов и запросов терминам может приписываться – вручную или автоматически – так называемый “вес”, определяемый смысловой значимостью данного термина в документе или запросе.

Информационная коммуникация может быть реализована путем выдачи всей релевантной информации, имеющейся в системе, или только новой, текущей, введенной в систему за какой-то последний промежуток времени. Это может быть достигнуто заданием временного ограничения в запросе, если язык системы это позволяет. Но существуют специальные типы систем, различающихся по режиму работы: режим "запрос-ответ" и режим избирательного распространения информации (ИРИ) (SDI–selectivedisseminationofinformation). Первый из них предусматривает разовые запросы, поиск по которым проводится, как правило, во всем накопленном массиве документов, который называют ретроспективным. И поэтому этот режим обычно называют "ретро". Поиск в режиме ИРИ – это поиск в массиве новых поступлений документов по постоянным (действующим в течение определенного срока) запросам. Их еще называют профилями. Похожие режимы работы ИПС в сети Интернет получили названия фильтрация(filtering) и технология оповещения(pushtechnology).

С точки зрения взаимодействия человека и компьютера различают пакетный и диалоговый режимы поиска. Поиск в пакетном режиме выполняется автономно, без участия человека, как правило, в одном сеансе поиска сразу по всем запросам. Диалоговый поиск предполагает, что в процессе поиска фиксируются те или иные промежуточные результаты и по ходу решения задачи человек (пользователь или специально подготовленный информационный посредник) ведет с компьютером диалог – т.е. принимает некоторые решения, уточняющие запрос или стратегию поиска. Первый более характерен для ИРИ, второй – для "ретро".

По способу хранения информации системы делятся на одноконтурные и двухконтурные. В этом случае под первым контуром имеют в виду хранящиеся в машине поисковые образы документов. Сами документы – второй контур– хранятся вне машины, в привычном бумажном виде или на микроносителях (микрофильмы, микрофиши). В последнее время наблюдаются одноконтурные ИПС, когда и поисковый, и документальный контуры содержатся непосредственно в компьютере. В то же время глобальные ИПС сети Интернет – типичные двухконтурные системы, хотя оба контура представлены в электронном виде: вначале пользователь проводит поиск в базе данных ИПС, получает список найденных документов с ссылками на их сетевые адреса, обратившись по которым он может получить сам документ.

В настоящее время в связи с развитием ИПС бестезаурусного типа и появлением новых продуктивных способов архивации данных, а также новых типов памяти компьютера (оптические диски большой емкости) различие между первым и вторым контурами стирается: в память компьютера вводятся и сам текст документа, и его сокращенные аналоги. Для этих целей разрабатываются международные стандарты. Сейчас получил широкое распространение стандарт ISO 2709 (ГОСТ 7.14-84), который, кроме текста документа, предполагает наличие маркера записи (включает характеристики, относящиеся ко всей записи) и справочника (характеристики внутренней структуры документа).

Возможны, другие, так сказать внешние классификации ИПС: по видам документов, по областям примечания и т.п.

С пространственной точки зрения, по степени охвата документальных источников, системы можно поделить на локальные, распределенные и глобальные. Причем эти признаки можно применить к описанию:

входного потока документов,

собственно поисковой базы,

входного потока запросов и обслуживания.

В результате всевозможных комбинаций получаются разные виды систем. В качестве примеров можно назвать сводный электронный каталог нескольких библиотек, базу данных на CD-ROM (все локально), поиск по материалам веб-сервера ("локальные" документы при удаленных пользователях), глобальные ИПС сети Интернет (распределенный, децентрализованный документальный поток, удаленные пользователи, "локализованная" поисковая база) и т.п.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5.Состав ИПС

ИПС представляет собой совокупность средств, предназначенных для хранения, поиска и выдачи информации по запросам. Это:

  1. информационные массивы (документы, запросы, метаданные);
  2. логико-лингвистический аппарат, включающий информационно-поисковый язык (ИПЯ), правила его использования и критерий смыслового соответствия, а также некоторые другие лингвистические средства;
  3. вычислительные средства, обеспечивающие реализацию функций системы (программы, компьютеры);
  4. средства, обеспечивающие ее эксплуатацию (персонал, инструктивно-методические материалы и т.п.).

ИПС в этом составе называют конкретной(рабочей) ИПС в отличие от абстрактнойИПС, включающей только части а)и б). Об абстрактной ИПСможно говорить как о логико-лингвистической модели, которая в первую очередь определяет тип системы и качество поиска. Д.Г. Лахути предлагает названия информационно-поисковая система(абстрактная ИПС) и информационно-поисковая служба(конкретная ИПС).

Составные части ИПС называют подсистемами. Разделение на подсистемы необходимо и полезно как в целях разработки, так и для описания технологии функционирования систем. Оно может иметь разную основу. Обычно рассматривают два типа разбиения ИПС на подсистемы: по функциональному принципу(функциональные подсистемы) и по типу средств(обеспечивающие подсистемы).

Обеспечивающие подсистемы. Различные средства, реализующие функции ИПС, получили название обеспечивающих подсистем, или обеспечений. В обобщенном виде это четыре части, перечисленные выше и составляющие конкретную ИПС. При более дробном делении выделяют следующие подсистемы: лингвистическое обеспечение, информационное обеспечение, техническое обеспечение, программное обеспечение, технологическое обеспечение, кадровое обеспечение и др.

Информационное обеспечение– это информационные массивы (документы, запросы, метаданные), а также средства и способы их описания, построения и классификации.

Лингвистическое обеспечение– это логико-семантический аппарат, состоящий из информационно-поискового языка, правил применения (методик индексирования), критерия выдачи и других языковых средств.

Программное обеспечение– это алгоритмы и программные средства, реализующие все функции ИПС, выполняемые с помощью компьютера.

Техническое обеспечение– это технические средства (компьютеры, средства телекоммуникаций), обеспечивающие хранение, поиск и передачу информации.

Технологическое обеспечение– это набор и порядок выполнения автоматизированных и неавтоматизированных процессов и процедур обработки информации в ИПС, включая их описание, информационно-технологические схемы и инструктивно-методические материалы.

Кадровое (или штатное) обеспечение– это люди, взаимодействующие с системой и обеспечивающие ее эксплуатацию (обслуживающий персонал).

На начальных этапах развития ИПС говорилось об информационно-лингвистическом обеспечении, впоследствии эти два вида средств стали рассматривать отдельно. Хотя граница между ними довольно подвижная. В частности, языки представления и описания информации можно отнести как к лингвистическому, так и к информационному обеспечению.

Функциональные подсистемы. ИПС также делят на составные части (подсистемы) по функциональному признаку, когда каждая подсистема выполняет определенную функцию в технологическом процессе: ввод документов, индексирование документов, ввод и корректировка запросов, индексирование запросов, поиск, ведение словарей, ведение статистики, обработка результатов поиска, выдача документов и др. Такие части получили название функциональных подсистем. Эти подсистемы образуют структурную (еще говорят, процессную, операционную) модель ИПС.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

6.История развития ИПС

Информационно-поисковыми системами фактически могут считаться любые определенным образом организованные хранилища информации. В качестве примеров таких систем можно назвать библиотечные каталоги, архивы, картотеки, словари, справочники и т.п. ИПС – это и указатель в книге, и целая библиотека. Главное, что все они выполняют одну и ту же целевую функцию поиска информации и для этого должны быть определенным образом устроены, организованы.

ИПС, как и другие информационные системы, могут быть и неавтоматизированными. Первые специальные информационно-поисковые устройства и системы представляли собой технические средства, обеспечивающие отбор нужных документов путем механического сопоставления поисковых образов документов с запросами. Для этого применялись перфокарты, суперпозиционные карты, перфокарты с краевой перфорацией и т.п. Но все-таки основным средством реализации поисковых систем является вычислительная техника.

История развития автоматизированных ИПС исчисляется полувеком. Прежде всего это развитие определялось и определяется развитием лингвистического обеспечения. На этом пути можно выделить несколько основных этапов.

Первый этапразвития ИПС условно можно отнести к 1955-1965 гг. В это время особенно активно заговорили о проблеме информационного взрыва. Эта проблема вместе с развитием средств вычислительной техники пробудила интерес к новым методам обработки, хранения и поиска информации. Первые автоматизированные ИПС появились уже к началу 60-х годов. Внедрение компьютеров в сферу информационного поиска сулило большие перспективы. Однако этот начальный период “бури и натиска” был недолгим: эйфория сменилась отрезвлением и даже разочарованием. Быстро получить полностью автоматизированные интеллектуальные поисковые системы оказалось невозможным. Началась практическая работа по созданию ограниченных, но полезных поисковых систем. Тогда же было осознано, что документальный поиск представляет собой отдельную, особую задачу, имеющую свой предмет и свои методы

Второй периодс известной долей условности можно поместить между серединой 60-х и серединой 70-х годов ХХ в. В эти годы начинается внедрение компьютеров в работу библиотек. Это внедрение началось с автоматизации простых рутинных операций, однако, в недрах библиотечного сообщества появляются и такие крупные амбициозные проекты, как система MEDLARS и формат MARC . Для данного периода характерен повышенный интерес к информационно-поисковым языкам (ИПЯ) и методам индексирования. Индексирование повсеместно осуществлялось вручную. Типичная ИПС тех лет – это человеко-машинная система, где анализ содержания документов и индексирование выполняются вручную, а поиски проводятся машиной. Эти поиски заключались в автоматическом сравнении поисковых образов документов и поисковых образов запросов, составленных на основе дескрипторных словарей или тезаурусов.

Эти ИПС, как правило, используются в режиме избирательного распространения информации, и функционируют как автономные системы, не связанные с библиотеками. Особенно это характерно для СССР, где в те годы создается Государственная автоматизированная система научно-технической информации (ГАСНТИ).

В целом для работ этого периода развития ИПС и ИПЯ характерно выявление природы ИПЯ через его сопоставление с естественным языком. Большое внимание уделялось разработке конкретных языков, разработке и использованию методик индексирования. Основная тема исследований – это уже не доказательство возможности или невозможности автоматизированного информационного поиска как такового, а выявление и разработка средств и методов, обеспечивающих наиболее эффективное решение задачи нахождения в информационном массиве документов, релевантных запросу. Большое значение здесь имел второй Крэнфилдский эксперимент. Его целью была сравнительная оценка эффективности различных средств и стратегий поиска. Было осознано, что многие поисковые средства (фиксация нетривиальных парадигматических и синтагматических отношений, учет синтаксических связей и др.) или не приводят к улучшению показателей поиска, или незначительно улучшая одну из основных характеристик (полнота, точность), заметно ухудшают другую. Еще одна причина "отступления" семантически и синтаксически мощных языков – это переход от ручного интеллектуального индексирования к автоматизированному.

Третий период развития документальных ИПС условно можно отнести к 1975-1995 гг. В эти годы, после научных дискуссий и под влиянием внешних технологических факторов, массовое распространение получили системы, названные "бестезаурусными", или системами поиска по свободному тексту(free-textsearchingsystems). Особенностью их является, с одной стороны, отказ от лексического контроля и тем самым отказ от учета парадигматики, а с другой – широкое использование контекста и синтагматических связей.

Информация о работе Информационно поисковые системы