Автор работы: Пользователь скрыл имя, 17 Мая 2010 в 18:18, Не определен
Останнім часом для вирішення практичних завдань все частіше застосовуються методи інтелектуального аналізу даних (Data Mining). Інтелектуальний аналіз даних (англ. Data Mining) — виявлення прихованих закономірностей або взаємозв'язків між змінними у великих масивах необроблених даних. Підрозділяється на завдання класифікації, моделювання і прогнозування та інші.
Побудова моделі інтелектуального аналізу даних є складовою частиною масштабнішого процесу, який включає всі етапи, починаючи з визначення базової проблеми, яку модель вирішуватиме, до розгортання моделі в робочому середовищі.
3.4 Інтеграція OLAP і Data Mining
Обидві технології можна розглядати як складові частини процесу підтримки ухвалення рішень. Проте ці технології як би рухаються у різних напрямах: OLAP зосереджує увагу виключно на забезпеченні доступу до багатовимірних даних, а методи Data Mining в більшості випадків працюють з плоскими одновимірними таблицями і реляційними даними.
Інтеграція технологій OLAP і Data Mining "збагатила" функціональність і однієї, і іншої технології. Ці два види аналізу повинні бути тісно з'єднано, щоб інтегрована технологія могла забезпечувати одночасно багатовимірний доступ і пошук закономірностей.
Засіб
багатовимірного
а) "Cubing then mining". Можливість виконання інтелектуального аналізу повинна забезпечуватися над будь-яким результатом запиту до багатовимірного концептуального уявлення, тобто над будь - яким фрагментом будь - якої проекції гіперкуба показників;
б) "Mining then cubing". Подібно даним, витягнутим з сховища, результати інтелектуального аналізу повинні представлятися в гіперкубічній формі для подальшого багатовимірного аналізу;
в) "Cubing while mining". Цей гнучкий спосіб інтеграції дозволяє автоматично активізувати однотипні механізми інтелектуальної обробки над результатом кожного кроку багатовимірного аналізу (переходу між рівнями узагальнення, витягання нового фрагмента гіперкуба і т.д.).
На сьогоднішній день небагато виробників реалізують Data Mining для багатовимірних даних. Крім того, деякі методи Data Mining, наприклад, метод найближчих сусідів або байєсівськая класифікація, через їх нездатність працювати з агрегованими даними незастосовні до багатовимірних даних.
4 СТРУКТУРА ІНФОРМАЦІЙНОГО СХОВИЩА ДЛЯ
ІНТЕЛЕКТУАЛЬНОГО АНАЛІЗУ
4.1
Характеристика джерела даних
для інформаційного сховища
У даній роботі за основу була узята БД-зразок Microsoft – Adventure Works[18]. Проект Adventure Works описує роботу виробника велосипедів - компанії "Adventure Works Cycles". Компанія займається виробництвом і реалізацією велосипедів з металевих і композиційних матеріалів на території Північної Америки, Європи і Азії. Головне виробництво, яке має в своєму розпорядженні 500 співробітників, знаходиться в місті Bothell, штат Вашингтон. Декілька регіональних офісів знаходяться безпосередньо на території ринків збуту.
Компанія реалізує продукцію оптом для спеціалізованих магазинів і на роздріб через Інтернет. Для вирішення демонстраційних завдань ми використовуватимемо в базі AdventureWorks дані об інтернет продажах, оскільки вони містять дані, які добре підходять для аналізу.
На рисунку 4.1 представлена транзакційна бази даних AdventureWorks, відділу продаж, яка містить наступні таблиці:
4.2
Структура інформаційного сховища
Для подальшого інтелектуального аналізу було розроблено структуру інформаційного сховища на базі схеми «сніжинка». На рисунку приведена логічна схема інформаційного сховища.
Рисунок
4.2 – Сховище даних
На цій схемі таблиці вимірювань містять інформацію про покупців (DimCustomer), про товари (DimProduct), про місце продаж (DimSalesTerritory), про час продаж (DimTime); консольні таблиці: під категорія товарів (DimProductSubcatecory), категорія товарів (DimProductCategory), узагальнене місце продажів (DimGeography) і таблиця фактів FactInternetSales містіть ключі для зв’язків с таблицямі вимірювань (ProductKey, OrderDateKey, DueDateKey, ShipDateKey, CustomerKey, SalesTerritoryKey), а також самі дані для подальшого аналізу (SalesOrderNumber, SalesOrderLineNumber, OrderQuantity, ExtendedAmount).
4.4 В`ювері для
структури інтелектуального аналізу по
алгоритму асоціативних правил
Для полегшення аналізу створюються 2 в`ювера vAssocSeqLineItems і vAssocSeqOrders.
Рисунок
4.4 – SQL- на створення vAssocSeqLineItems
Рисунок
4.5 – на створення vAssocSeqOrders
Ці вьювери создаються на підставі вьювера vDMPrep, який у свою чергу був створений з таблиць сховища AdventureWorks.
Рисунок 4.6 – на створення vDMPrep
5
РЕАЛІЗАЦІЯ МОДЕЛІ ІНТЕЛЕКТУАЛЬНОГО
АНАЛІЗУ В СЕРЕДОВИЩІ MS SQL SERVER 2005
5.1 Принцип
роботи з моделлю
Для інтелектуального аналізу даних в службах Microsoft SQL Server 2005 Analysis Services використовується два основні об'єкти:
Останніми об'єктами, що беруть участь в інтелектуальному аналізі даних, є стовпці структури інтелектуального аналізу і стовпці моделі інтелектуального аналізу.
Процес роботи з моделями інтелектуального аналізу полягає в наступному:
а) створення структури інтелектуального аналізу даних;
б) додання моделі;
в) завдання параметрів моделі;
ґ) перегляд моделі;
д) прогнозування моделі.
Структура інтелектуального аналізу — це структура даних, що визначає домен даних, на основі якого будуються моделі інтелектуального аналізу. Одна структура інтелектуального аналізу може містити декілька моделей інтелектуального аналізу даних, що спільно використовують один домен.
Будівельними
блоками структури
Структура інтелектуального аналізу також може містити певні вкладені таблиці. Вкладена таблиця представляє зв'язок «один до багатьом» між об'єктом варіанту і пов'язаними з ним атрибутами. Наприклад, якщо відомості, що описують клієнта, знаходяться в одній таблиці, а покупки цього клієнта знаходяться в іншій таблиці, то можна використовувати вкладені таблиці для комбінування відомостей в єдиний варіант. Ідентифікатором клієнта є об'єкт, а покупки — пов'язані з ним атрибути.
Модель інтелектуального аналізу даних застосовує алгоритм інтелектуального аналізу до даних, представлених структурою інтелектуального аналізу даних. Модель інтелектуального аналізу даних, як і структура інтелектуального аналізу, містить стовпці. Модель інтелектуального аналізу міститься в структурі інтелектуального аналізу і успадковує всі значення властивостей, визначених цією структурою. Модель може використовувати всі стовпці, що містяться в структурі інтелектуального аналізу даних, або підмножини цих стовпців.
На додаток до параметрів, визначених в структурі інтелектуального аналізу, модель інтелектуального аналізу містить дві властивості: Algorithm і Usage. Параметр algorithm визначений в моделі інтелектуального аналізу, а параметр usage визначений в стовпці моделі інтелектуального аналізу. Опис цих параметрів приводиться нижче:
Модель інтелектуального аналізу даних до обробки є просто порожнім об'єктом. При обробці моделі дані, визначені структурою, обробляються алгоритмом. Алгоритм ідентифікує правила і закономірності в даних, а потім використовує ці правила і закономірності для заповнення моделі.
Можна створювати декілька моделей, заснованих на одній і тій же структурі. Всі моделі, побудовані на основі однієї і тієї ж структури, мають бути засновані на одному і тому ж джерелі даних. Проте моделі можуть розрізнятися по стовпцях структури, способах їх використання, типові алгоритму для створення кожної моделі і параметрах для кожного алгоритму.
Для кожного алгоритму є свій набір параметрів моделі, які не обходжений визначити. Для моделі «Споживчої корзини» це:
Після обробки моделі її можна проглянути за допомогою призначених для користувача засобів перегляду, що надаються в середовищах Business Intelligence Development Studio і SQL Server Management Studio або шляхом передачі запитів моделі для виконання прогнозів.
Служби
Microsoft SQL Server 2005 Analysis Services дозволяють використовувати
прогнозуючий запит на мові розширень
інтелектуального аналізу даних Data Mining
Extensions (DMX) для прогнозування невідомих
значень стовпців в новому наборі даних
на основі результатів моделі інтелектуального
аналізу даних.
5.2 Реалізація моделі за допомогою мови
DMX
Data Mining Extensions (DMX) є мовою, яку ви можете використовувати, щоб створити і, працювати з data mining models in Microsoft SQL Server 2005 Analysis Services (SSAS). Ви можете використовувати DMX, щоб створити структуру нового data mining models, щоб тренувати ці моделі, і для перегляду, управління, і прогнозу.
Структура інтелектуального аналізу даних — це структура даних, яка визначає наочну область, на основі якої будується модель інтелектуального аналізу даних. Одна структура інтелектуального аналізу може містити декілька моделей інтелектуального аналізу даних, спільно використовуючи один домен. Модель інтелектуального аналізу даних застосовує алгоритм інтелектуального аналізу до даних, представлених структурою інтелектуального аналізу даних.