Системы анализа данных – современный этап

Автор работы: Пользователь скрыл имя, 15 Октября 2015 в 18:52, реферат

Описание работы

Основой для анализа данных служит моделирование. Построение моделей является универсальным способом изучения окружающего мира. Построение моделей позволяет обнаруживать зависимости, извлекать новые знания, прогнозировать, управлять и решать множество других задач.
Большинство экономических систем относятся к категории сложных, т.е. с большим количеством элементов и сложными связями.

Файлы: 1 файл

Системы анализа данных - современный этап. Реферат. Шамрай Новикова. УФ - 1306.docx

— 874.00 Кб (Скачать файл)

МИНИСТЕРСТВО СЕЛЬСКОГО ХОЗЯЙСТВА РОССИЙСКОЙ ФЕДЕРАЦИИ

Федеральное государственное образовательное учреждение

Высшего профессионального образования

КУБАНСКИЙ ГОСУДАРСТВЕННЫЙ АГРАРНЫЙ УНИВЕРСИТЕТ

 

Факультет учетно - финансовый

 

 

 

 

РЕФЕРАТ

по моделям и методам прикладных систем исследований

НА ТЕМУ: «Системы анализа данных – современный этап»

 

 

 

 

Выполнили студентки гр.

УФ – 1306

Шамрай Алёна, Новикова Алина

 

 

 

 

 

 

Краснодар 2015

Анализ данных

Основой для анализа данных служит моделирование. Построение моделей является универсальным способом изучения окружающего мира. Построение моделей позволяет обнаруживать зависимости, извлекать новые знания, прогнозировать, управлять и решать множество других задач.

Большинство экономических систем относятся к категории сложных, т.е. с большим количеством элементов и сложными связями.

 

Принципы построения моделей

- При анализе отталкиваться от опыта эксперта.

- Рассматривать проблему под разными углами и комбинировать подходы.

- Не стремиться к высокой точности модели, а двигаться от более простых и грубых моделей к более сложным и точным.

- По прошествии времени и накоплению новых сведений нужно повторять цикл моделирования.

 

Методика извлечения знаний

 

 

Несмотря на большое количество разнообразных бизнес-задач, почти все они решаются по единой методике. Эта методика, называется Knowledge Discovery in Databases. Она описывает не конкретный алгоритм или математический аппарат, а последовательность действий, которую необходимо выполнить для построения модели (извлечения знания).

Данная методика не зависит от предметной области, это набор атомарных операций, комбинируя которые, можно получить нужное решение.

 

KDD – выборка  данных

Первым шагом в анализе является получение исходной выборки. На основе этих данных и строятся модели. На этом шаге необходимо активное участие эксперта для выдвижения гипотез и отбора факторов, влияющих на анализируемый процесс. Желательно, чтобы данные были уже собраны и консолидированы. Крайне необходимо наличие удобных механизмов подготовки выборки.

Чаще всего в качестве источника рекомендуется использовать специализированное хранилище данных, агрегирующее всю необходимую для анализа информацию.

 

KDD – очистка  данных

Реальные данные для анализа редко бывают хорошего качества. Необходимость предварительной обработки при анализе данных возникает независимо от того, какие технологии и алгоритмы используются. Более того, эта задача может представлять самостоятельную ценность в областях, не имеющих непосредственного отношения к анализу данных.

К задачам очистки данных относятся такие как: заполнение пропусков, редактирование аномалий, сглаживание, обнаружение дубликатов и противоречий и прочие.

 

KDD – трансформация  данных

Трансформация данных – последний этап перед, собственно, анализом. Дело в том, что различные алгоритмы анализа требуют специальным образом подготовленные данные, например, для прогнозирования необходимо преобразовать временной ряд при помощи скользящего окна или вычисление агрегируемых показателей.

К задачам трансформации данных относятся: скользящее окно, приведение типов, выделение временных интервалов, преобразование непрерывных значений в дискретные и наоборот, сортировка, группировка и прочее.

 

KDD – Data Mining

Data Mining – это процесс обнаружения в «сырых» данных ранее неизвестных нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Информация, найденная в процессе применения методов Data Mining, должна быть нетривиальной и ранее неизвестной, например, средние продажи не являются таковыми. Знания должны описывать новые связи между свойствами, предсказывать значения одних признаков на основе других.

 

Задачи решаемые методами Data Mining:

- Классификация – это отнесение объектов к одному из заранее известных классов.

- Регрессия – установление зависимости непрерывных выходных переменных от входных значений.

- Кластеризация – объекты внутри кластера должны быть 'похожими' друг на друга и отличаться от объектов, вошедших в другие кластеры.

- Ассоциация – нахождение зависимости, что из события X следует событие Y.

- Последовательные шаблоны – установление закономерностей между связанными во времени событиями.

- Можно говорить еще и о задаче анализа отклонений – выявления наиболее нехарактерных шаблонов.

 

Применение Data Mining в экономике

- Классификация – отнесение клиента к определенной группе риска, оценка перспективности клиентов

- Регрессия – прогнозирование продаж, эластичность спроса

- Кластеризация – сегментация клиентской базы, анализ продуктовой линейки

- Ассоциация – кросс-продажи, стимулирование спроса

- Последовательные шаблоны – предсказание спроса, оптимизация закупок

 

Наиболее популярные алгоритмы

- Деревья решений – алгоритм C4.5

- Искусственные нейронные сети – многослойный перцептрон, обучение при помощи алгоритма обратного распространения ошибки

- Линейная регрессия – классическая линейная модель

-Самоорганизующиеся карты Кохонена

- Ассоциативные правила – алгоритм APriori

 

Data Mining – алгоритмы

Для решения вышеописанных задач используются различные методы и алгоритмы Data Mining. Ввиду того, что Data Mining развивался и развивается на стыке таких дисциплин, как статистика, теория информации, машинное обучение, теория баз данных, вполне закономерно, что большинство алгоритмов и методов Data Mining были разработаны на основе различных методов из этих дисциплин.

В общем случае, не принципиально, каким именно алгоритмом будет решаться одна из 5-ти задач Data Mining – главное иметь метод решения для каждого класса задач.

На сегодня наибольшее распространение получали самообучающиеся методы и машинное обучение.

 

KDD – интерпретация

В случае, когда извлеченные знания непрозрачны для пользователя, должны существовать методы постобработки, позволяющие привести их к интерпретируемому виду.

Для оценки качества полученной модели нужно использовать как формальные методы оценки, так и знания эксперта. Т.к. именно эксперт может сказать насколько применима полученная модель к реальным данным.

Полученные модели являются по сути формализованными знаниями эксперта, а следовательно их можно тиражировать. Найденные знания должны быть применимы и на новых данных с некоторой степенью достоверности.

 

Достоинства и недостатки моделей

Использование методов построения моделей позволяет получать новые знания, которые невозможно извлечь другим способом. Кроме того, полученные результаты являются формализованным описанием некоего процесса, а следовательно поддаются автоматической обработке.

Недостатком же является то, что такие методы более требовательны к качеству данных, знаниям эксперта и формализации самого изучаемого процесса. К тому же почти всегда имеются случаи не укладывающиеся ни в какие модели.

 

Комбинирование подходов

На практике подходы комбинируются, например, визуализация данных наводит эксперта на некоторые идеи, которые он пробует проверить при помощи различных способов построения моделей, а результаты построения моделей подаются на вход механизмам визуализации.

Полнофункциональная система анализа не должна замыкаться на применении только одного подхода или одной методики анализа. Механизмы визуализации и построения моделей должны дополнять друг друга. Максимальную отдачу можно получить комбинируя методы и подходы к анализу данных.

 

Аналитическая система

 

 

Наиболее оптимальной с точки зрения гибкости, возможностей и простоты использования является аналитическая система состоящая из хранилища данных, механизмов визуализации и методов построения моделей.

Хранилище данных консолидирует всю необходимую для анализа информацию, обеспечивает быстрый и удобный доступ к необходимым данным. Полученные из хранилища данные анализируются при помощи комбинирования различных способов визуализации и механизмов построения моделей.

 

Решаемые бизнес-задачи

Подавляющее большинство бизнес-задач сводится к комбинированию описанных методов. Фактически, ранее были описаны базовые блоки, из которых собирается практически любое бизнес решение.

 

Вот только небольшой список решаемых бизес-задач:

- План-факторный анализ – визуализация данных

- Анализ денежных потоков – визуализация данных

- Прогнозирование – задача регрессии

- Управление рисками – регрессия, кластеризация и классификация

- Стимулирование спроса – кластеризация, ассоциация

- Оценка эластичности спроса – регрессия

- Выявление предпочтений клиентов – последовательность, кластеризация, классификация

 

Реализация в Deductor 4

Аналитическая платформа Deductor создавалась как система, реализующая описанную выше схему анализа. Платформа включает в себя хранилище данных и большой набор методов построения моделей. Любые данные, полученные из хранилища данных, иного источника или в результате обработки можно отобразить при помощи большого набора визуализаторов.

Deductor позволяет пройти весь путь от разведочного анализа до построения адаптивных моделей, от просмотра табличных данных до многомерного анализа.

Универсальные методы анализа, реализованные в Deductor, позволяют применять его для решения самого широкого спектра задач.

 

 

IBM SPSS Statistics — это полнофункциональная система, предназначенная для решения бизнес- и исследовательских задач при помощи анализа данных. Используя IBM SPSS Statistics, можно эффективно анализировать данные, наглядно представлять результаты в виде таблиц и диаграмм, а также распространять и внедрять полученные результаты.

 

Программное обеспечение IBM SPSS поможет Вам:

- Собрать всю необходимую информацию о вкусах и мнениях потребителей.

- Прогнозировать реакцию клиентов на специальные предложения до того, как они осуществятся.

- Влиять на результаты деятельности компании за счет внедрения прогностической аналитики в бизнес-процессы.

 

Краткий перечень основных характеристик IBM SPSS Statistics:

- Доступ к данным и управление данными

- Чтение файлов Excel, данных SAS 7, 8, или 9 версии

- Возможность одновременно работать с несколькими наборами данных

- Поддержка источников данных OLE DB

- Возможность импорта и экспорта данных в PASW Data Collection Interviewer Web

- Доступ к базам данных с помощью средств ODBC (Oracle, SQL Server, IBM AIX)

- Поддержка Unicode

- Экспорт данных в SAS и текущие версии Excel

- Конструктор экспорта в базы данных, реструктуризации данных, дат и времени

- Поиск дублирующихся наблюдений

- Визуальная категоризация

- Средство копирования свойств данных

 

Графика

- Конструктор диаграмм, позволяющий быстро создать любую необходимую Вам диаграмму

- Панель выбора диаграмм, позволяющая подобрать оптимальный вариант графического представления Ваших данных

- Язык создания диаграмм (Graphic Production Language)

- Диаграммы для переменных с множественными ответами, с двумя осями Y

- ROC кривые

 

Выходные результаты

- Экспорт результатов в MS Office: Excel / Word / PowerPoint

- Экспорт результатов в PDF, в HTML

- Средства управления выводом OMS

- Возможность просмотра выходных результатов PASW Statistics другими пользователями с помощью PASW Smartreader

 

Автоматизация

- Улучшенный редактор синтаксиса с поддержкой автозавершения и цветового кодирования команд

- Поддержка языков программирования Python и R

- Возможность создания пользовательских процедур и диалоговых окон

 

Язык интерфейса: Chinese Simplified, Chinese Traditional, French, German, Italian, Japanese, Korean, Polish, Portuguese Brazilian, Russian, Spanish

 

Операционная система:

Windows 7 Enterprise x86-32

Windows 7 Enterprise x86-64

Windows 7 Home Premium x86-32

Windows 7 Home Premium x86-64

Windows 7 Professional x86-32

Windows 7 Professional x86-64

Windows 8 Enterprise x86-32

Windows 8 Enterprise x86-64

Windows 8 Professional x86-32

Windows 8 Professional x86-64

Windows 8 Standard x86-32

Windows 8 Standard x86-64

Windows Vista Business x86-32

Windows Vista Business x86-64

Windows Vista Enterprise x86-32

Windows Vista Enterprise x86-64

Windows XP Home x86-32 Desktop

Windows XP Home x86-64 Desktop

Windows XP Professional x86-32

Windows XP Professional x86-64

 

Новые возможности в версии 21:

Моделирование данных методом Монте-Карло. Богатые возможности имитационного моделирования данных с заданными характеристиками (в том числе, с характеристиками фактических данных – формой распределения и связями между переменными). Это позволит специалистам, связанным с планированием и моделированием затрат и рисков надежнее оценивать диапазон возможных значений прогнозируемого показателя и оценивать его отклик при воздействии на управляемые переменные;

Чтение данных из IBM Cognos BI. Прямой импорт данных из платформы Cognos с помощью встроенного конструктора импорта. Поддерживается загрузка выбранных пользователем данных, или готовых отчетов IBM Cognos.

Сравнение файлов данных. Удобная утилита сравнения файлов данных SPSS Statistics для выявления расхождений в версиях файлов. Появляется возможность быстро сравнивать как содержимое файлов (значения данных по выбранным переменным), так и метаданные, то есть состав и описания (метки и коды) переменных.

Безопасность и эффективность хранения данных. Встроенная возможность сохранения файлов данных с паролем защитит Ваши данные от нежелательного просмотра и повысит безопасность обмена данными с коллегами. IBM SPSS Statistics 21 также поддерживает новый эффективный алгоритм сжатия, значительно сокращающий место, необходимое для хранения больших данных.

Описательные статистики в одно действие. Простым щелчком по заголовку переменной можно быстро запросить вывод ее базовых описательных статистик, например, количество значений, диапазон, среднее и гистограмму для количественной переменной.

Гибкие возможности слияния файлов. Новая команда слияния позволяет избежать предварительной сортировки наборов данных и файлов SPSS Statistics, а также дает возможности слияния нескольких наборов с помощью подобия SQL-инструкций и разрешает использовать строковые переменные-ключи различной длины.

Информация о работе Системы анализа данных – современный этап