Інтелектуальний аналіз даних

Автор работы: Пользователь скрыл имя, 17 Мая 2010 в 18:18, Не определен

Описание работы

Останнім часом для вирішення практичних завдань все частіше застосовуються методи інтелектуального аналізу даних (Data Mining). Інтелектуальний аналіз даних (англ. Data Mining) — виявлення прихованих закономірностей або взаємозв'язків між змінними у великих масивах необроблених даних. Підрозділяється на завдання класифікації, моделювання і прогнозування та інші.
Побудова моделі інтелектуального аналізу даних є складовою частиною масштабнішого процесу, який включає всі етапи, починаючи з визначення базової проблеми, яку модель вирішуватиме, до розгортання моделі в робочому середовищі.

Файлы: 1 файл

Диплом_весь[1]_исправить.doc

— 1.05 Мб (Скачать файл)

     ВСТУП 
 

     Останнім  часом для вирішення практичних завдань все частіше застосовуються методи інтелектуального аналізу даних (Data Mining). Інтелектуальний аналіз даних (англ. Data Mining) — виявлення прихованих закономірностей або взаємозв'язків між змінними у великих масивах необроблених даних. Підрозділяється на завдання класифікації, моделювання і прогнозування та інші.

     Побудова  моделі інтелектуального аналізу даних  є складовою частиною масштабнішого процесу, який включає всі етапи, починаючи з визначення базової проблеми, яку модель вирішуватиме, до розгортання моделі в робочому середовищі. Даний процес може бути заданий за допомогою наступних шести базових кроків:

  • постановка задачі;
  • підготовка даних;
  • перегляд даних;
  • побудова моделей;
  • дослідження, перевірка, прогнозування за допомогою моделей;
  • розгортання і оновлення моделей.

     До  складу  Microsoft SQL Server 2005 і 2008 входить  цілий ряд служб, які дозволяють виконати кожен крок. Вихідна база даних , як правило, є реляційною,  для побудови і наповнення даними інформаційного сховища використовується служба Integration Services, куб будується і представляється в Analysis Services, робота з моделями здійснюється в Biseness Intelligence Studio з використанням спеціальної мови DMX.

     На  основі цих методів були розроблені алгоритми пошуку асоціативних правил. Вперше ці алгоритми були запропоновані для знаходження типових шаблонів покупок, що здійснюються в супермаркетах. Згодом завдання було розширене, і зараз ці алгоритми вирішують проблему пошуку закономірностей між зв'язаними подіями. Прикладом асоціативного правила може служити вислів, що людина, що купила молоко, також купить хліб за один візит в магазин.

     Метою даної роботи є побудова модель інтелектуального аналізу даних з використанням  алгоритму асоціативних правил на базі інформаційного сховища підприємства.  

      Для досягнення цієї мети необхідно вирішити ряд задач:

  • створити структуру інформаційного сховища на базі OLTP (Online Transaction Process) бази даних, що містить інформацію про продажі товарів; 
  • організувати періодичне перевантаження даних з OLTP в інформаційне сховище;
  • створити модель інтелектуального аналізу структури споживчої корзини по алгоритму  асоціативних правил;
  • провести аналіз моделі і прогнозування.

     У дипломній роботі детально розглянуто задачі асоціації. Дуже часто покупці набувають не одного товару, а декілька. В більшості випадків між цими товарами існує взаємозв'язок. Ця інформація може бути використана для розміщення товару на полицях в магазинах.

     Після створення моделі можна провести її аналіз на предмет виявлення цікавих для нас (шаблонів) правил.

     Метою аналізу є встановлення наступних  залежностей: якщо в транзакції зустрівся  деякий набір елементів X, то на підставі цього можна зробити висновок про те, що інший набір елементів Y також повинен з'явитись в цій транзакції. Встановлення таких залежностей дає нам можливість знаходити дуже прості і інтуїтивно зрозумілі правила.

     Сучасні бази даних мають дуже великі розміри, досягаючи гіга- і терабайтів, і тенденцію до подальшого збільшення. І тому, для знаходження асоціативних правил потрібні ефективні масштабовані алгоритми, що дозволяють вирішити задачі за певний час. Один з алгоритмів, що ефективно вирішують подібний клас задач – це алгоритм Apriori.

     На  основі аналізу можемо створити прогноз даних. 

     Прогнозування — складання прогнозів продажів і складських запасів, виявлення взаємозалежностей між ними для усунення недоліків і підвищення прибутку.

     Для створення прогнозів використовується мова Data Mining Extensions (DMX), яка є розширенням SQL і містить команди для створення, зміни моделей і здійснення передбачень на підставі різних моделей.

 

          1 ОГЛЯД ІСНУЮЧИХ МЕТОДІВ ІНТЕЛЕКТУАЛЬНОГО АНАЛІЗУ ДАНИХ 
     

     1.1 Визначення поняття Data Mining 

     Data Mining – це процес підтримки  ухвалення рішень, заснований на пошуку в даних прихованих закономірностей (шаблонів інформації).

     Технологію Data Mining достатньо точно визначає Григорій Піатецкий - Шапіро (Gregory Piatetsky-Shapiro) – один із засновників цього напряму: “Data Mining – це процес виявлення в сирих даних раніше невідомих, нетривіальних, практично корисних і доступних інтерпретації знань, необхідних для ухвалення рішень в різних сферах людської діяльності” [4].

     Суть  і мету технології Data Mining можна визначити так: це технологія, яка призначена для пошуку у великих об'ємах даних неочевидних, об'єктивних і корисних на практиці закономірностей.

     Неочевидних – це значить, що знайдені закономірності не виявляються стандартними методами обробки інформації або експертним шляхом.

     Об'єктивних – це значить, що знайдені закономірності повністю відповідатимуть дійсності, на відміну від експертної думки, яка завжди є суб'єктивною.

     Практично корисних – це значить, що висновки мають конкретне значення, якому  можна знайти практичне застосування.

     Знання  – сукупність відомостей, яка утворює цілісний опис, відповідний деякому рівню обізнаності про описуване питання, предмет, проблему і т.д.

     Використовування  знань (knowledge deployment) означає дійсне застосування знайдених знань для досягнення конкретних переваг (наприклад, в конкурентній боротьбі за ринок).

     Приведемо ще декілька визначень поняття Data Mining.

     Data Mining – це процес виділення  з даних неявної і неструктурованої  інформації і представлення її у вигляді, придатному для використовування.

     Data Mining – це процес виділення, дослідження і моделювання великих об'ємів даних для виявлення невідомих до цього шаблонів (patterns) з метою досягнення переваг в бізнесі (визначення SAS Institute).

     Data Mining – це процес, мета якого  – знайти нові значущі кореляції,  зразки і тенденції в результаті просівання великого об'єму бережених даних з використанням методик розпізнавання зразків плюс застосування статистичних і математичних методів (визначення Gartner Group).

       «Mining» англійською означає «видобуток корисних копалин», а пошук закономірностей у величезній кількості даних дійсно схожий на цей процес.

     Перш  ніж використовувати технологію Data Mining, необхідно ретельно проаналізувати її проблеми [4]:

  • Data Mining не може замінити аналітика;
  • не може складати розробки і експлуатації додатку Data Mining;
  • потрібна  підвищена кваліфікація користувача;
  • витягання корисних відомостей неможливе без доброго розуміння суті даних;
  • складність підготовки даних;
  • висока вартість;
  • вимога наявності достатньої кількості репрезентативних даних.

     Data Mining тісно пов’язана з різними  дисциплінами , що засновані на    інформаційних технологіях та математичних методах обробки інформаціі (рисунок 1.1).   
 
 
 
 
 

       
 
 
 
 
 
 
 
 

     Рисунок 1.1 – Data Mining як мультідісциплінарна область 

     Кожний  з напрямів, що сформували Data Mining, має свої особливості. Проведемо порівняння з деякими з них. 
 

    1.   Порівняння статистики, машинного навчання і Data Mining
 

     Статистика – це наука про методи збору даних, їх обробки і аналізу для виявлення закономірностей, властивих явищу, що вивчається.

     Статистика є сукупністю методів планування експерименту, збору даних, їх уявлення і узагальнення, а також аналізу і отримання висновків на підставі цих даних.

     Статистика  оперує даними, що отримані в результаті спостережень або експериментів.

     Перевагами  є:

  • більш ніж Data Mining, базується на теорії;
  • більш зосереджується на перевірці гіпотез.

     Єдиного визначення машинного навчання на сьогоднішній день немає.

     Машинне навчання можна охарактеризувати як процес отримання програмою нових знань. Мітчелл в 1996 році дав таке визначення: «Машинне навчання – це наука, яка вивчає комп'ютерні алгоритми, автоматично що поліпшуються під час роботи».

     Одним з найпопулярніших прикладів  алгоритму машинного навчання є  нейронні мережі.

     Алгоритми машинного навчання є:

  • більш евристичні;
  • концентрується на поліпшенні роботи агентів навчання.

     Переваги  Data Mining:

  • інтеграція теорії і евристик;
  • сконцентрована на єдиному процесі аналізу даних, включає очищення даних, навчання, інтеграцію і візуалізацію результатів.
 

 

    1.  Методи Data Mining

Методи, що використовує технологія Data Mining можна розподілити на технологічні, статистичні та кібернетичні.

Таблиця 1.1- Методи Data Mining

Методи  Data Mining Характеристика
Технологічні методи а) безпосереднє використання даних, або збереження даних. Методи цієї групи: кластерний аналіз, метод найближчого сусіда;

б) виявлення і використання формалізованих закономірностей, або дистиляція шаблонів - логічні методи, методи візуалізації, методи крос-табуляції, методи, що засновані на рівняннях.

Статистичні методи а) дескриптивний аналіз і опис вихідних даних;

б) аналіз зв'язків (кореляційний і регресійний аналіз, факторний аналіз, дисперсійний аналіз);

в) багатовимірний статистичний аналіз (компонентний аналіз, дискримінантний аналіз, багатовимірний регресійний аналіз, канонічні кореляції і ін.);

г) аналіз тимчасових рядів (динамічні моделі і прогнозування).

Кібернетичні методи а)штучні нейронні мережі (розпізнавання, кластеризація, прогноз);

б) еволюційне програмування (в т.ч. алгоритми методу групового обліку аргументів); 

в) генетичні алгоритми (оптимізація);

ґ) асоціативний алгоритм;

г) нечітка логіка;

д) дерева рішень;

є) системи обробки експертних знань.

 

     1.4 Відмінності Data Mining від інших методів аналізу даних 

     Традиційні  методи аналізу  даних в основному орієнтовані на перевірку наперед сформульованих гіпотез (статистичні методи) і на «грубий розвідувальний аналіз», що становить основу оперативної аналітичної обробки даних (Online Analytical Processing, OLAP), тоді як одне з основних положень Data Mining – пошук неочевидних закономірностей. Інструменти Data Mining можуть знаходити такі закономірності самостійно і також самостійно будувати гіпотези про взаємозв'язки. Оскільки саме формулювання гіпотези щодо залежності є найскладнішою задачею, перевага Data Mining в порівнянні з іншими методами аналізу є очевидною.

     Більшість статистичних методів для виявлення  взаємозв'язків в даних використовує концепцію усереднювання по вибірці, що приводить до операцій над неіснуючими величинами, тоді як Data Mining оперує реальними значеннями.

     OLAP більше підходить для розуміння  ретроспективних даних, Data Mining спирається  на ретроспективні дані для  отримання відповідей на питання  про майбутнє.

 

      2 МАТЕМАТИЧНА ПОСТАНОВКА ЗАДАЧ  ІНТЕЛЕКТУАЛЬНОГО АНАЛІЗУ – АЛГОРИТМ АСОЦІАТИВНИХ ПРАВИЛ 
 

      Однією з задач Data Mining є асоціація. Метою пошуку асоціативних правил (association rule) є знаходження закономірностей між зв'язаними подіями в базах даних.

     Дуже  часто покупці придбавають не один товар, а декілька. В більшості випадків між цими товарами існує взаємозв'язок. Так, наприклад, покупець, що придбаває макаронні вироби, швидше за все, схоче придбати також кетчуп. Ця інформація може бути використана для розміщення товару на полицях крамниці.

     Наведемо  простий приклад асоціативного  правила: покупець, що придбаває банку  фарби, придбає пензлик для фарби  з вірогідністю 50%.

     Вперше  ця задача була запропонована пошуку асоціативних правил для знаходження типових шаблонів покупок, які придбають в супермаркетах, тому іноді її ще називають аналізом ринкової корзини (market basket analysis).

     Хай є база даних, що складається з  купівельних транзакцій. Кожна транзакція – це набір товарів, куплених покупцем за один візит. Таку транзакцію ще називають ринковою корзиною.

     Визначення 1. Хай I = {i1, i2, i3 ... in} – безліч (набір) товарів, званих елементами. Хай D - безліч транзакцій, де кожна транзакція T – це набір елементів з I, T I. Кожна транзакція є бінарним вектором, де t[k]=1, якщо ik елемент присутній в транзакції, інакше t[k]=0. Ми говоримо, що транзакція T містить X, деякий набір елементів з I, якщо X T. Асоціативним правилом називається імплікація X Y, де X I, Y I і X Y= . Правило X Y має підтримку s (support), якщо s% транзакцій з D, містять X Y,                       supp(X Y) = supp(X Y). Достовірність правила показує, яка вірогідність того, що з X слідує У. Правило X Y справедливо з достовірністю (confidence) з, якщо c% транзакцій з D, що містять X, також містять У,                                         conf(X Y) = supp(X Y)/supp(X).

Информация о работе Інтелектуальний аналіз даних