Интеллектуальный анализ

Автор работы: Пользователь скрыл имя, 09 Декабря 2010 в 15:47, Не определен

Описание работы

Модель — объект или описание объекта, системы для замещения (при определенных условиях, предположениях, гипотезах) одной системы (то есть оригинала) другой системой для лучшего изучения оригинала или воспроизведения каких-либо его свойств.

Содержание работы

1. Введение в анализ данных
2. Добыча данных — Data Mining
3. Анализ текстовой информации — Text Mining
Вывод
Список литературы

Файлы: 1 файл

Реферат.docx

— 60.25 Кб (Скачать файл)

По способам решения задачи разделяют на supervised learning (обучение с учителем) и unsupervised learning (обучение без учителя). Такое название произошло от термина Machine Learning (машинное обучение), часто используемого в англоязычной литературе и обозначающего все технологии Data Mining.

В случае supervised learning задача анализа данных решается в несколько этапов. Сначала с помощью какого-либо алгоритма Data Mining строится модель анализируемых данных — классификатор. Затем классификатор подвергается обучению. Другими словами, проверяется качество его работы, и, если оно неудовлетворительное, происходит дополнительное обучение классификатора. Так продолжается до тех пор, пока не будет достигнут требуемый уровень качества или не станет ясно, что выбранный алгоритм не работает корректно с данными, либо же сами данные не имеют структуры, которую можно выявить. К этому типу задач относят задачи классификации и регрессии.

Unsupervised learning объединяет задачи, выявляющие описательные модели, например закономерности в покупках, совершаемых клиентами большого магазина. Очевидно, что если эти закономерности есть, то модель должна их представить и неуместно говорить об ее обучении. Достоинством таких задач является возможность их решения без каких-либо предварительных знаний об анализируемых данных. К этим задачам относятся кластеризация и поиск ассоциативных правил.  

Применение  Data Mining

Интернет-технологии

В системах электронного бизнеса, где особую важность имеют вопросы привлечения и удержания клиентов, технологии Data Mining часто применяются для построения рекомендательных систем интернет-магазинов и для решения проблемы персонализации посетителей web-сайтов.

Торговля

Для успешного  продвижения товаров всегда важно  знать, что и как продается, а также кто является потребителем. Исчерпывающий ответ на первый вопрос дают такие средства Data Mining, как анализ рыночных корзин и сик-венциальный анализ.

Телекоммуникации

способов  использования методов Data Mining— это анализ записей о подробных характеристиках вызовов. Назначение такого анализа— выявление категорий клиентов с похожими стереотипами пользования услугами и разработка привлекательных наборов цен и услуг.

Промышленное  производствоПромышленное производство создает идеальные условия для применения технологий Data Mining. Причина — в самой природе технологического процесса, который должен быть воспроизводимым и контролируемым.  

Медицина

В медицинских  и биологических исследованиях, равно как и в практической медицине, спектр решаемых задач настолько  широк, что возможно использование любых методологий Data Mining. Примером может служить построение диагностической системы или исследование эффективности хирургического вмешательства. 

Банковское  дело

Классическим  примером применения Data Mining на практике является решение проблемы о возможной некредитоспособности клиентов банка. Data Mining обрабатывают персональные данные, и полученные результаты используются далее для принятия решений.

Страховой бизнес

В страховании, также как в банковском деле и  маркетинге, возникает задача обработки  больших объемов информации для  определения типичных групп (профилей) клиентов. Эта информация используется для того, чтобы предлагать определенные услуги страхования с наименьшим для компании риском и, возможно, с пользой для клиента.

Другие  области применения

Data Mining может применяться практически везде, где возникает задача автоматического анализа данных. В качестве примера приведем такие популярные направления, как анализ и последуюшая фильтрация спама. а также разработка так называемых виртуальных собеседников.  

Базовые методы

К базовым  методам Data Mining принято относить, прежде всего, алгоритмы, основанные на переборе. Простой перебор всех исследуемых объектов требует 0(2'v) операций, где N— количество объектов. Следовательно, с увеличением количества данных объем вычислений растет экспоненциально, что при большом объеме делает решение любой задачи таким методом практически невозможным.

Для сокращения вычислительной сложности в таких  алгоритмах, как правило, используют разного вида эвристики, приводящие к сокращению перебора. Оптимизация подобных алгоритмов сводится к приведению зависимости количества операций от количества исследуемых данных к функции линейного вида. В то же время, зависимость от количества атрибутов, как правило, остается экспоненциальной. При условии, что их немного (в подавляющем большинстве случаев их значительно меньше, чем данных), такая зависимость является приемлемой.

Основным  достоинством данных алгоритмов является их простота, как с точки зрения понимания, так и реализации. К недостаткам можно отнести отсутствие формальной теории, на основании которой строятся такие алгоритмы, а следовательно, и сложности, связанные с их исследованием и развитием.

К базовым  методам Data Mining можно отнести также и подходы, использующие элементы теории статистики. В связи с тем, что Data Mining является развитием статистики, таких методов достаточно много. Их основная идея сводится к корреляционному, регрессионному и другим видам статистического анализа. Главным недостатком является усреднение значений, что приводит к потере информативности данных. Это в свою очередь приводит к уменьшению количества добываемых знаний.

Основные  этапы анализа

Для обнаружения  знаний в данных недостаточно просто применить методы Data Mining, хотя, безусловно, этот этап является основным в процессе интеллектуального анализа. Весь процесс состоит из нескольких этапов. Рассмотрим основные из них, чтобы продемонстрировать, что без специальной подготовки аналитика методы Data Mining сами по себе не решают существующих проблем. Итак, весь процесс можно разбить на следующие этапы:

  • Понимание и формулировка задачи анализа;
  • Подготовка данных для автоматизированного анализа (препроцессинг); О применение методов Data Mining и построение моделей;
  • О проверка построенных моделей;
  • Интерпретация моделей человеком.

На первом этапе выполняется осмысление поставленной задачи и уточнение целей, которые  должны быть достигнуты методами Data Mining. Важно правильно сформулировать цели и выбрать необходимые для их достижения методы, т. к. от этого зависит дальнейшая эффективность всего процесса.

Второй  этап состоит в приведении данных к форме, пригодной для применения конкретных методов Data Mining. Данный процесс далее будет описан более подробно, здесь заметим только, что вид преобразований, совершаемых над данными, во многом зависит от используемых методов, выбранных на предыдущем этапе.

Третий  этап — это собственно применение методов Data Mining. Сценарии этого применения могут быть самыми различными и могут включать сложную комбинацию разных методов, особенно если используемые методы позволяют проанализировать данные с разных точек зрения.

Следующий этап — проверка построенных моделей. Очень простой и часто используемый способ заключается в том, что  все имеющиеся данные, которые необходимо анализировать, разбиваются на две группы. Как правило, одна из них большего размера, другая — меньшего. На большей группе, применяя те или иные методы Data Mining, получают модели, а на меньшей — проверяют их. По разнице в точности между тестовой и обучающей группами можно судить об адекватности построенной модели.

Последний этап — интерпретация полученных моделей человеком в целях  их использования для принятия решений, добавление получившихся правил и зависимостей в базы знаний и т. д. Этот этап часто  подразумевает использование методов, находящихся на стыке технологии Data Mining и технологии экспертных систем. От того, насколько эффективным он будет, в значительной степени зависит успех решения поставленной задачи.

Этим  этапом завершается цикл Data Mining. Окончательная оценка ценности добытого нового знания выходит за рамки анализа, автоматизированного или традиционного, и может быть проведена только после претворения в жизнь решения, принятого на основе добытого знания, после проверки нового знания практикой. Исследование достигнутых практических результатов завершает оценку ценности добытого средствами Data Mining нового знания.

Средства Data Mining

В настоящее  время технология Data Mining представлена целым рядом коммерческих и свободно распространяемых программных продуктов. Достаточно полный и регулярно обновляемый список этих продуктов можно найти на сайте www.kdnuggets.com, посвященном Data Mining. Классифицировать программные продукты Data Mining можно по тем же принципам, что положены в основу классификации самой технологии. Однако подобная классификация не будет иметь практической ценности. Вследствие высокой конкуренции на рынке и стремления к полноте технических решений многие из продуктов Data Mining охватывают буквально все аспекты применения аналитических технологий. Поэтому целесообразнее классифицировать продукты Data Mining по тому, каким образом они реализованы и, соответственно, какой потенциал для интеграции они предоставляют. Очевидно, что и это условность, поскольку такой критерий не позволяет очертить четкие границы между продуктами. Однако у подобной классификации есть одно несомненное преимущество. Она позволяет быстро принять решение о выборе того или иного готового решения при инициализации проектов в области анализа данных, разработки систем поддержки принятия решений, создания хранилищ данных и т. д.

Итак, продукты Data Mining условно можно разделить на три больших категории:

  • входящие, как неотъемлемая часть, в системы управления базами данных;
  • библиотеки алгоритмов Data Mining с сопутствующей инфраструктурой;
  • коробочные или настольные решения ("черные ящики").

Продукты  первых двух категорий предоставляют  наибольшие возможности для интеграции и позволяют реализовать аналитический  потенциал практически в любом приложении в любой области. Коробочные приложения, в свою очередь, могут предоставлять некоторые уникальные достижения в области Data Mining или быть специализированными для какой-либо конкретной сферы применения. Однако в большинстве случаев их проблематично интегрировать в более широкие решения.

Включение аналитических возможностей в состав коммерческих систем управления базами данных является закономерной и имеющей  огромный потенциал тенденцией. Действительно, где, как ни в местах концентрации данных, имеет наибольший смысл размещать средства их обработки. Исходя из этого принципа, функциональность Data Mining в настоящий момент реализована в следующих коммерческих базах данных:

  • Oracle;
  • Microsoft SQL Server;
  • IBM DB2.

Основные  тезисы

  • Интеллектуальный анализ данных позволяет автоматически, основываясь на большом количестве накопленных данных, генерировать гипотезы, которые могут быть проверены другими средствами анализа (например. OLAP).
  • Data Mining— исследование и обнаружение машиной (алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны и доступны для интерпретации человеком.
  • Методами Data Mining решаются три основные задачи: задача классификации и регрессии, задача поиска ассоциативных правил и задача кластеризации. По назначению они делятся на описательные и предсказательные. По способам решения задачи разделяют на supervised learning (обучение с учителем) и unsupervised learning (обучение без учителя).
  • Задача классификации и регрессии сводится к определению значения зависимой переменной объекта по его независимым переменным. Если зависимая переменная принимает численные значения, то говорят о задаче регрессии, в противном случае — о задаче классификации.
  • При поиске ассоциативных правил целью является нахождение частых зависимостей (или ассоциаций) между объектами или событиями. Найденные зависимости представляются в виде правил и могут быть использованы как для лучшего понимания природы анализируемых данных, так и для предсказания событий.
  • Задача кластеризации заключается в поиске независимых групп (кластеров) и их характеристик во всем множестве анализируемых данных. Решение этой задачи помогает лучше понять данные. Кроме того, группировка однородных объектов позволяет сократить их число, а следовательно, и облегчить анализ.
  • Методы Data Mining находятся на стыке разных направлений информационных технологий: статистики, нейронных сетей, нечетких множеств, генетических алгоритмов и др.
  • Интеллектуальный анализ включает в себя следующие этапы: понимание и формулировка задачи анализа, подготовка данных для автоматизированного анализа, применение методов Data Mining и построение моделей, проверка построенных моделей, интерпретация моделей человеком.
  • Перед применением методов Data Mining исходные данные должны быть преобразованы. Вид преобразований зависит от применяемых методов.
  • Методы Data Mining могут эффективно использоваться в различных областях человеческой деятельности: в бизнесе, медицине, науке, телекоммуникациях и т. д.

Информация о работе Интеллектуальный анализ