Технология хранилищ данных

Автор работы: Пользователь скрыл имя, 19 Марта 2011 в 16:09, дипломная работа

Описание работы

История развития. Автором концепция Хранилищ Данных является W.H. Inmon, который изложил в 1992 году предложения по организации данных, которые затем постепенно переросли в технологию Хранилищ Данных (Data Warehouse). Эта идея была дополнена в 1993 году концепцией оперативной аналитической обработки данных (OLAP) Э.Кодда, и в результате их развития за прошедшее десятилетие было разработано около десятка различных архитектур корпоративных информационных систем на основе хранилищ данных, предназначенных для поддержки принятия решений и аналитических исследований.

Содержание работы

Введение 4
1. глава Обзор технологии Хранилищ Данных,
подходов и имеющихся решений. 10
Информационные системы. 10
Концепция Хранилищ Данных. 13
Основные идеи концепции Хранилищ Данных 13
Свойства Хранилищ Данных. 16
Взаимное соотношение концепции ХД и
концепций анализа данных 19
Технологии и средства реализации 23
Вопросы реализации Хранилищ Данных 23
Основные компоненты Хранилищ Данных. 31
Подходы и имеющиеся решения 33
Data Warehouse Framework 33
A Data Warehouse Plus. 35
Warehouse Technology Initiative 36
Warehouse WORKS. 39
2. глава Исследование методов организации
структуры Хранилищ Данных. 41
2.1 СУБД для аналитических систем 41
2.1.1 РСУБД 41
2.1.2 МСУБД 48
2.2 Витрина Данных. 51
2.3. Выбор структуры Хранилища Данных 53
3. глава Проектирование Хранилищ Данных. 59
3.1 Технология проектирования Хранилищ Данных 59
3.1.1 Планирование и проектирование 59
3.1.2 Разработка 60
3.1.3 Установка системы и эксплуатация 60
3.1.4 Анализ протекающих процессов в системе 60
3.2 Тестовый проект по созданию витрины данных. 61
Заключение. 70
Библиографический список. 71

Файлы: 1 файл

ТЕХНОЛОГИЯ ХРАНИЛИЩ ДАННЫХ.doc

— 571.00 Кб (Скачать файл)

Таблица.12    Фрагмент файла BOKOV3.DBF

  1. Создание модели ВД.

    Выбираем многомерную модель данных.

 Определяем  меры и измерения.

 Измерения: Продукт, Регион, Время.

  Иерархии:  Продукт    Регион       Время

      |        |                  |

                     Группа        Регион         Год

      |        |                  |

                  Категория    Филиал      Квартал 

      |        |                  |

                   Продукт        Агент        Месяц

Меры:         -    страховая сумма

    • сумма поступлений взносов
    • страховое поле
    • количество договоров
    • число застрахованных
    • сумма заявленных выплат
    • фактически выплаченная сумма

     Жирным  шрифтом выделено, то что будет  присутствовать в тестовом проекте. Мы имеем одну меру и три измерения.

     Строим  модель «звезду». Модель «снежинка» здесь  не подходит, так как необходимость  в ней бывает тогда, когда нужно денормализовать одну или несколько таблиц измерений. В нашем случае нечего денормализовывать.

     В модели данных будут присутствовать таблица фактов и три таблицы  измерений: времени, вида страхового продукта, название филиала.

     В таблице фактов будет 4 поля – 3 внешних ключа ATE_ID, VID_ID, TIME_ID и поле VZNOS – сумма поступлений взносов.

     В двух таблицах измерений будут справочники  филиалов и видов продуктов (идентификатор + название).

     Таблица измерения «Время» будет иметь 3 поля TIME_ID, YEAR, QUARTER.

Рисунок. 6 Схема  «звезда»

  1. Определение отношений.

     Соединяем таблицы измерений отношениями  «один ко многим» с таблицей фактов. Получили схему «звезда» (рис. ) 

  1. Модель  процесса загрузки.

    Мы переносим  следующие данные:

    Код АТЕ                                   ATE2.ATE2_2 à ATE.ATE_ID

    Название филиала                   ATE2.ATE2_5 à  ATE.NAME

      Вид продукта                           BOKOV1.VID_STR à VID.VID_NAME

                 BOKOV2.VID_STR à VID.VID_NAME

                    BOKOV3.VID_STR à VID.VID_NAME

    Сумма поступлений                DAT_OTCH.A6 à VZNOS.VZNOS

    Таблицу TIME заполняем значениями года: 1998,1999. И соответсвенно значениями квартала от 1 до 4.

  1. Модель приложения.

     Информация  пользователю будет представляться в виде таблиц, графиков или диаграмм. Например (табл. ):

Взносы   Филиал  
Год Вид страхования Кукморский Общий итог *
1999 Добровольное  страхование имущества физ. лиц 382778 7245476,5
  Добровольное  страхование имущества юр. лиц 439245 8615743,6
  Добровольное  страхование ответственности юр. лиц 401766 7367026,9
  Обязательное  страхование имущества физ. лиц 58968 9172973,7
  Обязательное  страхование пассажиров 141150 9345879
  Прочие виды обязательного страхования 74073 9279667
  Страхование жизни: по правилам №23 131609,5 8225452,7
  Страхование жизни: пожизненное 113449,5 7448453,5
  Страхование жизни: семейное 109720,5 8032250,7
  Страхование жизни: смешанное 107079,5 9966974,3
1999 Всего * 1959839 84699897,9
Общий итог * 3953311 160045472,8

Таблица. 13   Табличный способ представления информации

  1. Определение архитектуры.

  В связи с тем, что у проекта очень ограничен бюджет, то в качестве

платформы было выбрано решение фирмы Microsoft на базе Wintel:

      • Windows 2000 Server;
      • Microsoft  SQL Server 7.0 Enterprise Edition;
      • Microsoft OLAP Services;
      • MS Excel’2000 из русифицированного пакета MS Office’2000.

     При невысокой цене это решение дало нам всю необходимую функциональность. А знакомство пользователей с  пакетом МS Office’97 сводит их обучение к минимуму.

  1. Построение базы данных.

     Используя SQL Server Enterprise Manager создаем базу данных “TASFIR”, используя мастер. Указываем размер базы 50 Mb и размер приращения 5 Mb.

  1. Загрузка данных.

     Используя Data Transformation Services (DTS) – сервисы преобразования данных, загрузим данные в базу данных TASFIR согласно модели процесса загрузки. DTS работает в виде мастера импорта. Здесь необходимо указать в качестве источника (Source) – Dbase IV и указать в пути каталог нахождения исходных таблиц. В качестве приемника будет выступать Microsoft OLE DB Provider for SQL Server, необходимо указать название нашей БД TASFIR. Далее выбираем те таблицы, которые участвуют в переносе и обозначаем условия для переноса каждой таблицы и каждого поля. И производим перенос данных.

     Запускаем OLAP Manager для создания OLAP-куба. Создаем новую базу данных. Затем создаем новый куб с помощью мастера.

      • создаем новый источник данных. Выбираем базу данных TASFIR, а в ней таблицу VZNOS.
      • выбираем в качестве меры поле VZNOS базы данных VZNOS
      • далее создаем новые измерения time, vid, ate. Причем создавая измерение time необходимо соблюсти иерархию и поставить год выше квартала
      • далее называем куб TASFIR, здесь можно просмотреть как можно работать с кубом на тестовых данных
      • открывается редактор куба, здесь можно отредактировать отношения между таблицами, удалить и добавить новые
      • далее закрываем редактор и записываем куб
      • получаем приглашение провести агрегирование данных тремя различными способами MOLAP, HOLAP, ROLAP. Выбираем первое, так как у нас маленькая база
      • в следующем окне нажимаем старт и получаем график зависимости ускорения ответа на запросы (вследствие предварительного просчета агрегатов и их хранения) от того сколько дисковой памяти будет выделено под эти агрегаты.
      • Далее запускаем процесс создания.
  1. Тестирование. Запросы и отчеты.

     В качестве клиентской части выступает  MS Excel’2000 из русифицированного пакета MS Office’2000.

     Заходим Данные àВнешние данные à Создать запрос.

     Далее отвечаем готово и расставляем наши меры и измерения по таблице. Меру в середину, а измерения в любом порядке. ВСЕ инструмент для тестового анализа готов. 
 
 
 
 
 
 
 
 
 

Заключение. 
 

  1. Был проведен анализ организации хранилищ данных
  2. Проведена оценка  требуемого объема памяти и быстродействия в

        аналитических системах  в зависимости  от организации данных.

  1. Была разработана технология проектирования Хранилищ Данных
  2. Разработан алгоритм создания Хранилища Данных
  3. Апробация проведена в ведущей организации
  4. Тестовый проект выполненн в среде Windows 2000, на базе SQL Server 7.0 и MS Office 2000.

Библиографический список.

  1. Inmon W.H. Building the Data Warehouse // Wellesley, MA.: QED Publishing Group, 1992
  1. Codd E.F., Codd S.B., Salley C.T., E.F.Codd & Associates. Providing OLAP  
              (On-Line Analytical Processing) to User-Analysts: An IT Mandate. - 1993.
  1. DePompa B. Основные тенденции развития информационных хранилищ  
              //COMPUTERWORLD MOSCOW.  – 1996. - №16
  1. DePompa B. Хотите  получить прибыль - разберитесь  со своими данными.  
             //  COMPUTERWORLD MOSCOW.  – 1997. - №13
  1. Microsoft Corporation Компьютерные сети. Учебный курс. – М. Русская  
              редакция,1997. – 696 с.
  1. Raden N.Моделирование  информационных хранилищ //  
               COMPUTERWORLD MOSCOW.  – 1996. - №16
  1. Артемов Д., Погульский Г., Альперович М. Microsoft SQL Server 7.0 для профессионалов. – М.: Русская редакция, 1999. – 576 с.
  1. Баронов В.В. Автоматизация управления предприятиям. – М.: ИНФРА-М, 2000. – 239 с.
  1. Бритов  П.А., Липчинский Е.А. Практика построения Хранилищ Данных:   
              Система SAS //СУБД. -  1998. -   №4-5
  1. Буров К. Обнаружение знаний в хранилищах данных // Открытые  
              Системы. -  1999. -   №5-6
  1. Ганьон Габриэль Хранилища данных: краткий обзор // PC Magazine/RE. –  
              1999. - №10
  1. Гарбус Дж., Паскузи Д., Чанг Э. Database Design on SQL Server 7. Сертификационный экзамен – экстерном (экзамен – 70-029). – СПб.: Питер, 2000. – 560 с.
  1. Дейт К. Дж. Введение в системы баз данных. – К : Диалектика, 1998. – 784 с.
  1. Джулия  Борт Витринам данных не мешает похудеть // Директору  
              информационной службы. - 1999
  1. Зельцер A. Информационные хранилища в сетях предприятий  
              //COMPUTERWORLD MOSCOW. – 1995. - №12
  1. Иванов  П. Индивидуальный маркетинг на плечах информационных  
              хранилищ // СomputerWeekly. – 1998. - №26-27
  1. Калянов Г.Н. Консалтинг при автоматизации  предприятия. – М.: СИНТЕГ, 1997. – 316 с.
  1. Кречетов  Н.  Информационные хранилища: обзор  технологий и  
              продуктов //COMPUTERWORLD MOSCOW.  – 1996. - №16
  1. Кречетов  Н. Информационные хранилища //COMPUTERWORLD  
              MOSCOW. – 1995. - №12
  1. Кристин К. Корпоративная отчетность. Серверная архитектура для   
              распределенного доступа к информации //Открытые Системы - 1999 - №1.
  1. Кузин Ф.А. Магистерская диссертация. Методика написания, правила оформления и процедура  защиты.Практическое пособие для  студентов-магистрантов. – М.: Ось-98, 1997. – 304 с.
  1. Липаев  В.В. Системное проектирование сложных  программных средств для информационных систем. – М.: СИНТЕГ, 1999. – 224 с.
  1. Львов В. Создание систем поддержки принятия решений на основе  
              хранилищ данных // СУБД. – 1997. - №3
  1. Маклаков  С.В. CASE-средства разработки информационных систем: BPwin, ERwin. – М.: ДИАЛОГ-МИФИ, 2000. – 256  с. 
  1. Наталья Д. Устройство и назначение хранилищ данных // Открытые  
              Системы. -  1998. -   №4-5
  1. Найгель П. Истоки сегодняшних продуктов OLAP.(перевод Абушаева Ш)    
              // THE OLAP REPORT. – 1999

Информация о работе Технология хранилищ данных