Интеллектуальный анализ

Автор работы: Пользователь скрыл имя, 09 Декабря 2010 в 15:47, Не определен

Описание работы

Модель — объект или описание объекта, системы для замещения (при определенных условиях, предположениях, гипотезах) одной системы (то есть оригинала) другой системой для лучшего изучения оригинала или воспроизведения каких-либо его свойств.

Содержание работы

1. Введение в анализ данных
2. Добыча данных — Data Mining
3. Анализ текстовой информации — Text Mining
Вывод
Список литературы

Файлы: 1 файл

Реферат.docx

— 60.25 Кб (Скачать файл)

3.    Анализ текстовой информации — Text Mining

Анализ  структурированной информации, хранящейся в базах данных, требует предварительной  обработки: проектирования БД, ввод информации по определенным правилам, размещение ее в специальных структурах (например, реляционных таблицах) и т. п. Таким образом, непосредственно для анализа этой информации и получения из нее новых знаний необходимо затратить дополнительные усилия. При этом они не всегда связаны с анализом и не обязательно приводят к желаемому результату. Из-за этого КПД анализа структурированной информации снижается. Кроме того, не все виды данных можно структурировать без потери полезной информации. Например, текстовые документы практически невозможно преобразовать в табличное представление без потери семантики текста и отношений между сущностями. По этой причине такие документы хранятся в БД без преобразований, как текстовые поля (BLOB-поля). В го же время в тексте скрыто огромное количество информации, но ее неструктурированность не позволяет использовать алгоритмы Data Mining. Решением этой проблемы занимаются методы анализа неструктурированного текста. В западной литературе такой анализ называют Text Mining.

Методы  анализа в неструктурированных  текстах лежат на стыке нескольких областей: Data Mining, обработка естественных языков, поиск информации, извлечение информации и управление знаниями.

Определение Text Mining: Обнаружение знаний в тексте — это нетривиальный процесс обнаружения действительно новых, потенциально полезных и понятных шаблонов в неструктурированных текстовых данных.

Как видно, от определения Data Mining оно отличается только новым понятием "неструктурированные текстовые данные". Под такими знаниями понимается набор документов, представляющих собой логически объединенный текст без каких-либо ограничений на его структуру. Примерами таких документов являются: web-страницы, электронная почта, нормативные документы ит. п. В общем случае такие документы могут быть сложными и большими и включать в себя не только текст, но и графическую информацию. Документы, использующие язык расширяемой разметки XML (extensible Markup Language), стандартный язык обобщенной разметки SGML (Standard Generalised Markup Language) и другие подобные соглашения по структуре формирования текста, принято называть полуструктурированными документами. Они также могут быть обработаны методами Text Mining.

Процесс анализа текстовых документов можно  представить как последовательность нескольких шагов

  1. Поиск информации. На первом шаге необходимо идентифицировать, какие документы должны быть подвергнуты анализу, и обеспечить их доступность. Как правило, пользователи могут определить набор анализируемых документов самостоятельно — вручную, но при большом количестве документов необходимо использовать варианты автоматизированного отбора по заданным критериям.
  2. Предварительная обработка документов. На этом шаге выполняются простейшие, но необходимые преобразования с документами для представления их в виде, с которым работают методы Text Mining. Целью таких преобразований является удаление лишних слов и придание тексту более строгой формы. Подробнее методы предварительной обработки будут описаны в разд.
  3. Извлечение информации. Извлечение информации из выбранных документов предполагает выделение в них ключевых понятий, над которыми в дальнейшем будет выполняться анализ.

Применение  методов Text Mining. На данном шаге извлекаются  шаблоны и отношения, имеющиеся  в текстах. Данный шаг является основным в процессе анализа текстов, и  практические задачи, решаемые на этом шаге.

Интерпретация результатов. Последний шаг в  процессе обнаружения знаний предполагает интерпретацию полученных результатов. Как правило, интерпретация заключается или в представлении результатов на естественном языке, или в их визуализации в графическом виде.

Визуализация  также может быть использована как  средство анализа текста. Для этого  извлекаются ключевые понятия, которые  и представляются в графическом виде. Такой подход помогает пользователю быстро идентифицировать главные темы и понятия, а также определить их важность.

Предварительная обработка текста

Одной из главных проблем анализа текстов  является большое количество слов в  документе. Если каждое из этих слов подвергать анализу, то время поиска новых знаний резко возрастет и вряд ли будет удовлетворять требованиям пользователей. В то же время очевидно, что не все слова в тексте несут полезную информацию. Кроме того, в силу гибкости естественных языков формально различные слова (синонимы и т. п.) на самом деле означают одинаковые понятия. Таким образом, удаление неинформативных слов, а также приведение близких по смыслу слов к единой форме значительно сокращают время анализа текстов. Устранение описанных проблем выполняется на этапе предварительной обработки текста.

Обычно  используют следующие приемы удаления неинформативных слов и повышения  строгости текстов:

  • Удаление стоп-слов. Стоп-словами называются слова, которые являются вспомогательными и несут мало информации о содержании документа.
  • Стэмминг— морфологический поиск. Он заключается в преобразовании каждого слова к его нормальной форме.
  • Л-граммы это альтернатива морфологическому разбору и удалению стоп-слов. Позволяют сделать текст более строгим, не решают проблему уменьшения количества неинформативных слов;
  • Приведение регистра. Этот прием заключается в преобразовании всех символов к верхнему или нижнему регистру.

Наиболее  эффективно совместное применение перечисленных  методов.

Задачи Text Mining

В настоящее  время в литературе описано много  прикладных задач, решаемых с помощью  анализа текстовых документов. Это  и классические задачи Data Mining: классификация, кластеризация, и характерные только для текстовых документов задачи: автоматическое аннотирование, извлечение ключевых понятий и др.

Классификация (classification) — стандартная задача из области Data Mining. Ее целью является определение  для каждого документа одной  или нескольких заранее заданных категорий, к которым этот документ относится. Особенностью задачи классификации является предположение, что множество классифицируемых документов не содержит "мусора", т. е. каждый из документов соответствует какой-нибудь заданной категории.

Частным случаем задачи классификации является задача определения тематики документа [43].

Целью кластеризации (clustering) документов является автоматическое выявление групп семантически похожих документов среди заданного фиксированного множества. Отметим, что группы формируются только на основе попарной схожести описаний документов, и никакие характеристики этих групп не задаются заранее.

Автоматическое  аннотирование (summarization) позволяет сократить  текст, сохраняя его смысл. Решение  этой задачи обычно регулируется пользователем при помощи определения количества извлекаемых предложений или процентом извлекаемого текста по отношению ко всему тексту. Результат включает в себя наиболее значимые предложения в тексте.

Первичной целью извлечения кчючевых понятий (feature extraction) является идентификация  фактов и отношений в тексте. В  большинстве случаев такими понятиями  являются имена существительные  и нарицательные: имена и фамилии людей, названия организаций и др. Алгоритмы извлечения понятий могут использовать словари, чтобы идентифицировать некоторые термины и лингвистические шаблоны для определения других.

Навигация по тексту (text-base navigation) позволяет пользователям перемещаться по документам относительно тем и значимых терминов. Это выполняется за счет идентификации ключевых понятий и некоторых отношений между ними.

Анализ  трендов позволяет идентифицировать тренды в наборах документов на какой-то период времени. Тренд может быть использован, например, для обнаружения  изменений интересов компании от одного сегмента рынка к другому.

Поиск ассоциаций также является одной  из основных задач Data Mining. Для ее решения  в заданном наборе документов идентифицируются ассоциативные отношения между ключевыми понятиями.

Существует  достаточно большое количество разновидностей перечисленных задач, а также  методов их решения. Это еще раз  подтверждает значимость анализа текстов. Далее в этой главе рассматриваются  решения следующих задач: извлечение ключевых понятий, классификация, кластеризация  и автоматическое аннотирование.

Классификация текстовых документов

Классификация текстовых документов, так же как  и в случае классификации объектов заключается в отнесении документа  к одному из заранее известных  классов. Часто классификацию применительно  к текстовым документам называют категоризацией или рубрикацией. Очевидно, что данные названия происходят от задачи систематизации документов по каталогам, категориям и рубрикам. При этом структура каталогов может быть как одноуровневой, так и многоуровневой (иерархической).

Формально задачу классификации текстовых  документов описывают набором множеств.

В задаче классификации требуется на основе этих данных построить процедуру, которая заключается в нахождении наиболее вероятной категории из множества С для исследуемого документа.

Большинство методов классификации текстов  так или иначе основаны на предположении, что документы, относящиеся к  одной категории, содержат одинаковые признаки (слова или словосочетания), и наличие или отсутствие таких признаков в документе говорит о его принадлежности или непринадлежности к той или иной теме.

Такое множество признаков часто называют словарем, т. к. оно состоит из лексем, которые включают слова и/или  словосочетания, характеризующие категорию.

Подобно категориям каждый документ также имеет  признаки, по которым его можно  отнести с некоторой степенью вероятности к одной или нескольким категориям.

Необходимо  заметить, что данные наборы признаков  являются отличительной чертой классификации текстовых документов от классификации объектов в Data Mining, которые характеризуются набором атрибутов.

Решение об отнесении документа d, к категории  с, принимается на основании пересечения общих признаков

Задача  методов классификации состоит  в том, чтобы наилучшим образом  выбрать такие признаки и сформулировать правила, на основе которых будет приниматься решение об отнесении документа к рубрике.

Средства анализа текстовой информации

  • Средства Oracle — Oracle Text2

Начиная с версии Oracle 7.3.3, средства текстового анализа являются неотъемлемой частью продуктов Oracle. В Oracle эти средства развились и получили новое название— Oracle Text— программный комплекс, интегрированный в СУБД, позволяющий эффективно работать с запросами, относящимися к неструктурированным текстам. При этом обработка текста сочетается с возможностями, которые предоставлены пользователю для работы с реляционными базами данных. В частности, при написании приложений для обработки текста стало возможно использование SQL.

Основной  задачей, на решение которой нацелены средства Oracle Text, является задача поиска документов по их содержанию — по словам или фразам, которые при необходимости комбинируются с использованием булевых операций. Результаты поиска ранжируются по значимости, с учетом частоты встречаемости слов запроса в найденных документах.

  • Средства от IBM — Intelligent Miner for Text1

Продукт фирмы IBM Intelligent Miner for Text представляет собой  набор отдельных утилит, запускаемых из командной строки или из скриптов независимо друг от друга. Система содержит объединение некоторых утилиты для решения задач анализа текстовой информации.

IBM Intelligent Miner for Text объединяет мощную совокупность  инструментов, базирующихся в основном на механизмах поиска информации (information retrieval), что является спецификой всего продукта. Система состоит ряд базовых компонентов, которые имеют самостоятельное значение вне пределов технологии Text Mining:

  • Средства SAS Institute — Text Miner

Американская  компания SAS Institute выпустила систему SAS Text Miner для сравнения определенных грамматических и словесных рядов  в письменной речи. Text Miner весьма универсальна, поскольку может работать с текстовыми документами различных форматов — в базах данных, файловых системах и далее в web.

Информация о работе Интеллектуальный анализ