Автор работы: Пользователь скрыл имя, 09 Декабря 2010 в 15:47, Не определен
Модель — объект или описание объекта, системы для замещения (при определенных условиях, предположениях, гипотезах) одной системы (то есть оригинала) другой системой для лучшего изучения оригинала или воспроизведения каких-либо его свойств.
1. Введение в анализ данных
2. Добыча данных — Data Mining
3. Анализ текстовой информации — Text Mining
Вывод
Список литературы
Федеральное
агентство связи
ГОУ ВПО Сибирский государственный университет
телекоммуникаций и информатики
Уральский технический институт связи
и информатики (филиал)
Уральский колледж связи и информатики
ЦК ИиАСУ при кафедре ИСиТ
Реферат
тема: Интеллектуальный анализ
Data Mining,
Text
Mining
Выполнил:
Студент группы 881
Сосновских
А.В.
Проверил:
Преподаватель
Егорова
Н. П.
Екатеринбург 2010г.
Содержание
1. Введение в анализ данных 3
2. Добыча данных — Data Mining 5
3. Анализ текстовой информации — Text Mining 13
Вывод 19
Список
литературы 20
Методология анализа
Анализ данных — широкое понятие. Сегодня существуют десятки его определений.
В самом общем смысле анализ данных — это исследования, связанные с обсчетом
многомерной системы данных, имеющей множество параметров. В процессе анализа данных исследователь производит совокупность действий с целью формирования определенных представлений о характере явления, описываемого этими данными. Как правило, для анализа данных используются различные математические методы.
Анализ данных нельзя рассматривать только как обработку информации после
ее сбора. Анализ данных — это прежде всего средство проверки гипотез и решения задач исследователя.
Известное противоречие между ограниченными познавательными способностями
человека и бесконечностью Вселенной заставляет нас использовать модели и моделирование, тем самым упрощая изучение интересующих объектов, явлений и систем.
Слово «модель» (лат. modelium) означает «мера», «способ», «сходство с какой-
то вещью».
Построение моделей — универсальный способ изучения окружающего мира, позволяющий обнаруживать зависимости, прогнозировать, разбивать на группы и решать множество других задач. Основная цель моделирования в том, что модель должна достаточно хорошо отображать функционирование моделируемой системы.
ОПРЕДЕЛЕНИЕ
Модель — объект или описание объекта, системы для замещения (при определенных условиях, предположениях, гипотезах) одной системы (то есть оригинала) другой системой для лучшего изучения оригинала или воспроизведения каких-либо его свойств.
Моделирование
— универсальный метод
Применяется в любой профессиональной деятельности.По виду моделирования модели делят на:
эмпирические — полученные на основе эмпирических фактов, зависимостей;
теоретические — полученные на основе математических описаний, законов;
смешанные,
полуэмпирические — полученные на основе эмпирических зависимостей и математических описаний.
ПРИМЕР
Совокупность предприятий функционирует на рынке, обмениваясь товарами, сырьем, услугами, информацией. Если описать экономические законы, правила взаимодействия на рынке с помощью математических соотношений, например системы алгебраических уравнений, где неизвестными будут величины прибыли, получаемые от взаимодействия предприятий, а коэффициентами уравнения — значения интенсивности таких взаимодействий, то получится математическая модель экономической системы, то есть экономико-математическая модель системы предприятий на рынке.
Таким образом, анализ данных тесно связан с моделированием.
Отметим важные свойства любой модели.
Упрощенность. – Модель отображает только существенные стороны объекта и, кроме того, должна быть проста для исследования или воспроизведения.
Конечность. Модель отображает оригинал лишь в конечном числе его отношений, и, кроме того, ресурсы моделирования конечны.
Приближенность. – Действительность отображается моделью грубо или приближенно.
Адекватность. – Модель должна успешно описывать моделируемую систему.
Целостность. – Модель реализует некоторую систему (то есть целое).
Замкнутость. – Модель учитывает и отображает замкнутую систему необходимых основных гипотез, связей и отношений.
Управляемость. – Модель должна иметь хотя бы один параметр, изменениями которого можно имитировать поведение моделируемой системы в различных условиях.
Процесс анализа
В информационном подходе к анализу данных, помимо модели, присутствуют еще
три важные составляющие: эксперт, гипотеза и аналитик.
ОПРЕДЕЛЕНИЕ
Эксперт — специалист в предметной области, профессионал, который за годы обучения и практической деятельности научился эффективно решать задачи, относящиеся к кон кретной предметной области.
Эксперт — ключевая фигура в процессе анализа. По-настоящему эффективные аналитические решения можно получить не на основе одних лишь компьютерных программ, а в результате сочетания лучшего из того, что могут человек и компьютер. Эксперт выдвигает гипотезы (предположения) и для проверки их достоверности либо просматривает некие выборки различными способами, либо строит те
или иные модели.
ПРИМЕР
Гипотезой
в анализе данных часто выступает
предположение о влиянии
тора или группы факторов на результат. К примеру, при построении прогноза продаж до-
пускается предположение, что на величину будущих продаж существенно влияют продажи
за предыдущие
периоды и остатки на складе. При
моделировании
потенциального заемщика выдвигается гипотеза, что на кредитоспособность влияют социально-экономические характеристики клиента: возраст, образование, семейное положение и т. п.
В крупных проектах по созданию прикладных аналитических решений участвуют, как правило, несколько экспертов, а также аналитик.
Определение
Аналитик — специалист в области анализа и моделирования. Аналитик на достаточном уровне владеет какими-либо инструментальными и программными средствами анализа данных, например методами Data Mining. Кроме того, в обязанности аналитика входят функции систематизации данных, опроса мнений экспертов, координации действий всех участников проекта по анализу данных. Аналитик играет роль «мостика» между экспертами, то есть является связующим звеном между специалистами разных уровней и областей. Он собирает у экспертов различные гипотезы, выдвигает требования к данным, проверяет гипотезы и вместе с экспертами анализирует полученные результаты. Аналитик должен обладать системными знаниями, так как помимо задач анализа на его плечи часто ложатся технические вопросы, связанные с базами данных, интеграцией и производительностью.
Поэтому в дальнейшем главным лицом в анализе данных мы будем считать аналитика, предполагая, что он тесно сотрудничает с экспертами предметных областей.
Знания есть не только у человека, но и в накопленных данных, которые подвергаются анализу. Такие знания часто называют "скрытыми", т. к. они содержатся в гигабайтах и терабайтах информации, которые человек не в состоянии исследовать самостоятельно. В связи с этим существует высокая вероятность пропустить гипотезы, которые могут принести значительную выгоду.
Очевидно, что для обнаружения скрытых знаний необходимо применять специальные методы автоматического анализа, при помощи которых приходится практически добывать знания из "завалов" информации. За этим направлением прочно закрепился термин добыча данных или Data Mining. Классическое определение этого термина дал в 1996 г. один из основателей этого направления — Григорий Пятецкий-Шапиро.
Data Mining — исследование и обнаружение "машиной" (алгоритмами, средствами искусственною интеллекта) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны практически полезны, доступны для интерпретации человеком.
Рассмотрим свойства обнаруживаемых знаний, данные в определении, более подробно.
В Data Mining
для представления полученных знаний
служат модели. Виды моделей зависят
от методов их создания. Наиболее распространенными
являются: правила, деревья решений, кластеры
и математические функции.
Задачи Data Mining
Методы Data Mining помогают решить многие задачи, с которыми сталкивается аналитик. Из них основными являются: классификация, регрессия, поиск ассоциативных правил и кластеризация. Далее приведено краткое описание основных задач анализа данных.
Перечисленные задачи по назначению делятся на описательные и предсказательные.
Описательные (descriptive) задачи уделяют внимание улучшению понимания анализируемых данных. Ключевой момент в таких моделях — легкость и прозрачность результатов для восприятия человеком. Возможно, обнаруженные закономерности будут специфической чертой именно конкретных исследуемых данных и больше нигде не встретятся, но это все равно может быть полезно и потому должно быть известно. К такому виду задач относятся кластеризация и поиск ассоциативных правил.
Решение предсказательных (predictive) задач разбивается на два этапа. На первом этапе на основании набора данных с известными результатами строится модель. Па втором этапе она используется для предсказания результатов на основании новых наборов данных. При этом, естественно, требуется, чтобы построенные модели работали максимально точно. К данному виду задач относят задачи классификации и регрессии. Сюда можно отнести и задачу поиска ассоциативных правил, если результаты ее решения могут быть использованы для предсказания появления некоторых событий.