Интеллектуальный анализ

Автор работы: Пользователь скрыл имя, 09 Декабря 2010 в 15:47, Не определен

Описание работы

Модель — объект или описание объекта, системы для замещения (при определенных условиях, предположениях, гипотезах) одной системы (то есть оригинала) другой системой для лучшего изучения оригинала или воспроизведения каких-либо его свойств.

Содержание работы

1. Введение в анализ данных
2. Добыча данных — Data Mining
3. Анализ текстовой информации — Text Mining
Вывод
Список литературы

Файлы: 1 файл

Реферат.docx

— 60.25 Кб (Скачать файл)

Федеральное агентство связи 
ГОУ ВПО Сибирский государственный университет 
телекоммуникаций и информатики 
Уральский технический институт связи и информатики (филиал) 
Уральский колледж связи и информатики 
ЦК ИиАСУ при кафедре ИСиТ

Реферат

тема: Интеллектуальный анализ

Data Mining,

Text Mining 
 
 
 

Выполнил:

Студент группы 881

Сосновских  А.В. 

Проверил:

Преподаватель

Егорова Н. П. 
 
 
 
 
 
 
 

Екатеринбург 2010г.

Содержание

1. Введение в анализ данных 3

2. Добыча данных — Data Mining 5

3.   Анализ текстовой информации — Text Mining 13

Вывод 19

Список литературы 20 

   

  1. Введение  в анализ данных

Методология анализа

Анализ  данных — широкое понятие. Сегодня  существуют десятки его определений.

В самом  общем смысле анализ данных — это исследования, связанные с обсчетом

многомерной системы данных, имеющей множество параметров. В процессе анализа данных исследователь производит совокупность действий с целью формирования определенных представлений о характере явления, описываемого этими данными. Как правило, для анализа данных используются различные математические методы.

Анализ  данных нельзя рассматривать только как обработку информации после

ее сбора. Анализ данных — это прежде всего  средство проверки гипотез и решения задач исследователя.

Известное противоречие между ограниченными  познавательными способностями

человека  и бесконечностью Вселенной заставляет нас использовать модели и моделирование, тем самым упрощая изучение интересующих объектов, явлений и систем.

Слово «модель» (лат. modelium) означает «мера», «способ», «сходство с какой-

то вещью».

Построение  моделей — универсальный способ изучения окружающего мира, позволяющий обнаруживать зависимости, прогнозировать, разбивать на группы и решать множество других задач. Основная цель моделирования в том, что модель должна достаточно хорошо отображать функционирование моделируемой системы.

ОПРЕДЕЛЕНИЕ

Модель  — объект или описание объекта, системы  для замещения (при определенных условиях, предположениях, гипотезах) одной системы (то есть оригинала) другой системой для лучшего изучения оригинала или воспроизведения каких-либо его свойств.

Моделирование — универсальный метод получения, описания и использования знаний.

Применяется в любой профессиональной деятельности.По виду моделирования модели делят на:

эмпирические — полученные на основе эмпирических фактов, зависимостей;

теоретические — полученные на основе математических описаний, законов;

смешанные,

полуэмпирические — полученные на основе эмпирических зависимостей и математических описаний.

ПРИМЕР

Совокупность  предприятий функционирует на рынке, обмениваясь товарами, сырьем, услугами, информацией. Если описать экономические законы, правила взаимодействия на рынке с помощью математических соотношений, например системы алгебраических уравнений, где неизвестными будут величины прибыли, получаемые от взаимодействия предприятий, а коэффициентами уравнения — значения интенсивности таких взаимодействий, то получится математическая модель экономической системы, то есть экономико-математическая модель системы предприятий на рынке.

Таким образом, анализ данных тесно связан с моделированием.

Отметим важные свойства любой модели.

Упрощенность. – Модель отображает только существенные стороны объекта и, кроме того, должна быть проста для исследования или воспроизведения.

Конечность. Модель отображает оригинал лишь в  конечном числе его отношений, и, кроме того, ресурсы моделирования  конечны.

Приближенность. – Действительность отображается моделью грубо или приближенно.

Адекватность. – Модель должна успешно описывать моделируемую систему.

Целостность. – Модель реализует некоторую систему (то есть целое).

Замкнутость. – Модель учитывает и отображает замкнутую систему необходимых основных гипотез, связей и отношений.

Управляемость. – Модель должна иметь хотя бы один параметр, изменениями которого можно имитировать поведение моделируемой системы в различных условиях.

Процесс анализа

В информационном подходе к анализу данных, помимо модели, присутствуют еще

три важные составляющие: эксперт, гипотеза и аналитик.

ОПРЕДЕЛЕНИЕ

Эксперт — специалист в предметной области, профессионал, который за годы обучения и практической деятельности научился эффективно решать задачи, относящиеся к кон кретной предметной области.

Эксперт — ключевая фигура в процессе анализа. По-настоящему эффективные аналитические решения можно получить не на основе одних лишь компьютерных программ, а в результате сочетания лучшего из того, что могут человек и компьютер. Эксперт выдвигает гипотезы (предположения) и для проверки их достоверности либо просматривает некие выборки различными способами, либо строит те

или иные модели.

ПРИМЕР

Гипотезой в анализе данных часто выступает  предположение о влиянии какого-либо фак-

тора  или группы факторов на результат. К  примеру, при построении прогноза продаж до-

пускается предположение, что на величину будущих  продаж существенно влияют продажи

за предыдущие периоды и остатки на складе. При  моделировании кредитоспособности

потенциального  заемщика выдвигается гипотеза, что  на кредитоспособность влияют социально-экономические  характеристики клиента: возраст, образование, семейное положение и т. п.

В крупных  проектах по созданию прикладных аналитических решений участвуют, как правило, несколько экспертов, а также аналитик.

Определение

Аналитик  — специалист в области анализа  и моделирования. Аналитик на достаточном уровне владеет какими-либо инструментальными и программными средствами анализа данных, например методами Data Mining. Кроме того, в обязанности аналитика входят функции систематизации данных, опроса мнений экспертов, координации действий всех участников проекта по анализу данных. Аналитик играет роль «мостика» между экспертами, то есть является связующим звеном между специалистами разных уровней и областей. Он собирает у экспертов различные гипотезы, выдвигает требования к данным, проверяет гипотезы и вместе с экспертами анализирует полученные результаты. Аналитик должен обладать системными знаниями, так как помимо задач анализа на его плечи часто ложатся технические вопросы, связанные с базами данных, интеграцией и производительностью.

Поэтому в дальнейшем главным лицом в  анализе данных мы будем считать  аналитика, предполагая, что он тесно  сотрудничает с экспертами предметных областей.

  1. Добыча  данных — Data Mining

Знания  есть не только у человека, но и в  накопленных данных, которые подвергаются анализу. Такие знания часто называют "скрытыми", т. к. они содержатся в гигабайтах и терабайтах информации, которые человек не в состоянии  исследовать самостоятельно. В связи  с этим существует высокая вероятность пропустить гипотезы, которые могут принести значительную выгоду.

Очевидно, что для обнаружения скрытых  знаний необходимо применять специальные методы автоматического анализа, при помощи которых приходится практически добывать знания из "завалов" информации. За этим направлением прочно закрепился термин добыча данных или Data Mining. Классическое определение этого термина дал в 1996 г. один из основателей этого направления — Григорий Пятецкий-Шапиро.

Data Mining — исследование и обнаружение "машиной" (алгоритмами, средствами искусственною интеллекта) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны практически полезны, доступны для интерпретации человеком.

Рассмотрим  свойства обнаруживаемых знаний, данные в определении, более подробно.

  • Знании должны быть новые, ранее неизвестные. Затраченные усилия на открытие знаний, которые уже известны пользователю, не окупаются. Поэтому ценность представляют именно новые, ранее неизвестные знания.
  • Знания должны быть нетривиальны. Результаты анализа должны отражать неочевидные, неожиданные закономерности в данных, составляющие так называемые скрытые знания. Результаты, которые могли бы быть получены более простыми способами (например, визуальным просмотром), не оправдывают привлечение мощных методов Data Mining.
  • Знания должны быть практически полезны. Найденные знания должны быть применимы, в том числе и на новых данных, с достаточно высокой степенью достоверности. Полезность заключается в том, чтобы эти знания могли принести определенную выгоду при их применении.
  • Знании должны быть доступны для понимании человеку. Найденные закономерности должны быть логически объяснимы, в противном случае существует вероятность, что они являются случайными. Кроме того, обнаруженные знания должны быть представлены в понятном для человека виде.

В Data Mining для представления полученных знаний служат модели. Виды моделей зависят от методов их создания. Наиболее распространенными являются: правила, деревья решений, кластеры и математические функции. 

Задачи  Data Mining

Методы  Data Mining помогают решить многие задачи, с которыми сталкивается аналитик. Из них основными являются: классификация, регрессия, поиск ассоциативных правил и кластеризация. Далее приведено краткое описание основных задач анализа данных.

  • Задача классификации сводится к определению класса объекта по его характеристикам. Необходимо заметить, что в этой задаче множество классов, к которым может быть отнесен объект, известно заранее.
  • Задача регрессии подобно задаче классификации позволяет определить по известным характеристикам объекта значение некоторого его параметра. В отличие от задачи кпассификации значением параметра является не конечное множество классов, а множество действительных чисел.
  • При поиске ассоциативных правил целью является нахождение частых зависимостей (или ассоциаций) между объектами или событиями. Найденные зависимости представляются в виде правил и могут быть использованы как для лучшего понимания природы анализируемых данных, так и для предсказания появления событий.
  • Задача кластеризации заключается в поиске независимых групп (кластеров) и их характеристик во всем множестве анализируемых данных. Решение этой задачи помогает лучше понять данные. Кроме того, группировка однородных объектов позволяет сократить их число, а следовательно, и облегчить анализ.

Перечисленные задачи по назначению делятся на описательные и предсказательные.

Описательные (descriptive) задачи уделяют внимание улучшению понимания анализируемых данных. Ключевой момент в таких моделях — легкость и прозрачность результатов для восприятия человеком. Возможно, обнаруженные закономерности будут специфической чертой именно конкретных исследуемых данных и больше нигде не встретятся, но это все равно может быть полезно и потому должно быть известно. К такому виду задач относятся кластеризация и поиск ассоциативных правил.

Решение предсказательных (predictive) задач разбивается на два этапа. На первом этапе на основании набора данных с известными результатами строится модель. Па втором этапе она используется для предсказания результатов на основании новых наборов данных. При этом, естественно, требуется, чтобы построенные модели работали максимально точно. К данному виду задач относят задачи классификации и регрессии. Сюда можно отнести и задачу поиска ассоциативных правил, если результаты ее решения могут быть использованы для предсказания появления некоторых событий.

Информация о работе Интеллектуальный анализ