Технология хранилищ данных
Дипломная работа, 19 Марта 2011, автор: пользователь скрыл имя
Описание работы
История развития. Автором концепция Хранилищ Данных является W.H. Inmon, который изложил в 1992 году предложения по организации данных, которые затем постепенно переросли в технологию Хранилищ Данных (Data Warehouse). Эта идея была дополнена в 1993 году концепцией оперативной аналитической обработки данных (OLAP) Э.Кодда, и в результате их развития за прошедшее десятилетие было разработано около десятка различных архитектур корпоративных информационных систем на основе хранилищ данных, предназначенных для поддержки принятия решений и аналитических исследований.
Содержание работы
Введение 4
1. глава Обзор технологии Хранилищ Данных,
подходов и имеющихся решений. 10
Информационные системы. 10
Концепция Хранилищ Данных. 13
Основные идеи концепции Хранилищ Данных 13
Свойства Хранилищ Данных. 16
Взаимное соотношение концепции ХД и
концепций анализа данных 19
Технологии и средства реализации 23
Вопросы реализации Хранилищ Данных 23
Основные компоненты Хранилищ Данных. 31
Подходы и имеющиеся решения 33
Data Warehouse Framework 33
A Data Warehouse Plus. 35
Warehouse Technology Initiative 36
Warehouse WORKS. 39
2. глава Исследование методов организации
структуры Хранилищ Данных. 41
2.1 СУБД для аналитических систем 41
2.1.1 РСУБД 41
2.1.2 МСУБД 48
2.2 Витрина Данных. 51
2.3. Выбор структуры Хранилища Данных 53
3. глава Проектирование Хранилищ Данных. 59
3.1 Технология проектирования Хранилищ Данных 59
3.1.1 Планирование и проектирование 59
3.1.2 Разработка 60
3.1.3 Установка системы и эксплуатация 60
3.1.4 Анализ протекающих процессов в системе 60
3.2 Тестовый проект по созданию витрины данных. 61
Заключение. 70
Библиографический список. 71
Файлы: 1 файл
ТЕХНОЛОГИЯ ХРАНИЛИЩ ДАННЫХ.doc
— 571.00 Кб (Скачать файл)Таблица.12 Фрагмент файла BOKOV3.DBF
- Создание модели ВД.
Выбираем многомерную модель данных.
Определяем меры и измерения.
Измерения: Продукт, Регион, Время.
Иерархии: Продукт Регион Время
| | |
Группа Регион Год
| | |
Категория Филиал Квартал
| | |
Продукт Агент Месяц
Меры: - страховая сумма
- сумма поступлений взносов
- страховое поле
- количество договоров
- число застрахованных
- сумма заявленных выплат
- фактически выплаченная сумма
Жирным шрифтом выделено, то что будет присутствовать в тестовом проекте. Мы имеем одну меру и три измерения.
Строим модель «звезду». Модель «снежинка» здесь не подходит, так как необходимость в ней бывает тогда, когда нужно денормализовать одну или несколько таблиц измерений. В нашем случае нечего денормализовывать.
В модели данных будут присутствовать таблица фактов и три таблицы измерений: времени, вида страхового продукта, название филиала.
В таблице фактов будет 4 поля – 3 внешних ключа ATE_ID, VID_ID, TIME_ID и поле VZNOS – сумма поступлений взносов.
В двух таблицах измерений будут справочники филиалов и видов продуктов (идентификатор + название).
Таблица измерения «Время» будет иметь 3 поля TIME_ID, YEAR, QUARTER.
Рисунок. 6 Схема «звезда»
- Определение отношений.
Соединяем
таблицы измерений отношениями
«один ко многим» с таблицей фактов.
Получили схему «звезда» (рис. )
- Модель процесса загрузки.
Мы переносим следующие данные:
Код АТЕ
Название филиала
Вид
продукта
BOKOV1.VID_STR à VID.VID_NAME
BOKOV2.VID_STR à VID.VID_NAME
BOKOV3.VID_STR à VID.VID_NAME
Сумма поступлений DAT_OTCH.A6 à VZNOS.VZNOS
Таблицу TIME заполняем значениями года: 1998,1999. И соответсвенно значениями квартала от 1 до 4.
- Модель приложения.
Информация пользователю будет представляться в виде таблиц, графиков или диаграмм. Например (табл. ):
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Таблица. 13 Табличный способ представления информации
- Определение архитектуры.
В связи с тем, что у проекта очень ограничен бюджет, то в качестве
платформы было
выбрано решение фирмы
- Windows 2000 Server;
- Microsoft SQL Server 7.0 Enterprise Edition;
- Microsoft OLAP Services;
- MS Excel’2000 из русифицированного пакета MS Office’2000.
При
невысокой цене это решение дало
нам всю необходимую
- Построение базы данных.
Используя SQL Server Enterprise Manager создаем базу данных “TASFIR”, используя мастер. Указываем размер базы 50 Mb и размер приращения 5 Mb.
- Загрузка данных.
Используя Data Transformation Services (DTS) – сервисы преобразования данных, загрузим данные в базу данных TASFIR согласно модели процесса загрузки. DTS работает в виде мастера импорта. Здесь необходимо указать в качестве источника (Source) – Dbase IV и указать в пути каталог нахождения исходных таблиц. В качестве приемника будет выступать Microsoft OLE DB Provider for SQL Server, необходимо указать название нашей БД TASFIR. Далее выбираем те таблицы, которые участвуют в переносе и обозначаем условия для переноса каждой таблицы и каждого поля. И производим перенос данных.
Запускаем OLAP Manager для создания OLAP-куба. Создаем новую базу данных. Затем создаем новый куб с помощью мастера.
- создаем новый источник данных. Выбираем базу данных TASFIR, а в ней таблицу VZNOS.
- выбираем в качестве меры поле VZNOS базы данных VZNOS
- далее создаем новые измерения time, vid, ate. Причем создавая измерение time необходимо соблюсти иерархию и поставить год выше квартала
- далее называем куб TASFIR, здесь можно просмотреть как можно работать с кубом на тестовых данных
- открывается редактор куба, здесь можно отредактировать отношения между таблицами, удалить и добавить новые
- далее закрываем редактор и записываем куб
- получаем приглашение провести агрегирование данных тремя различными способами MOLAP, HOLAP, ROLAP. Выбираем первое, так как у нас маленькая база
- в следующем окне нажимаем старт и получаем график зависимости ускорения ответа на запросы (вследствие предварительного просчета агрегатов и их хранения) от того сколько дисковой памяти будет выделено под эти агрегаты.
- Далее запускаем процесс создания.
- Тестирование. Запросы и отчеты.
В качестве клиентской части выступает MS Excel’2000 из русифицированного пакета MS Office’2000.
Заходим Данные àВнешние данные à Создать запрос.
Далее
отвечаем готово и расставляем наши
меры и измерения по таблице. Меру
в середину, а измерения в любом
порядке. ВСЕ инструмент для тестового
анализа готов.
Заключение.
- Был проведен анализ организации хранилищ данных
- Проведена оценка требуемого объема памяти и быстродействия в
аналитических системах в зависимости от организации данных.
- Была разработана технология проектирования Хранилищ Данных
- Разработан алгоритм создания Хранилища Данных
- Апробация проведена в ведущей организации
- Тестовый проект выполненн в среде Windows 2000, на базе SQL Server 7.0 и MS Office 2000.
Библиографический список.
- Inmon W.H. Building the Data Warehouse // Wellesley, MA.: QED Publishing Group, 1992
- Codd E.F., Codd
S.B., Salley C.T., E.F.Codd & Associates. Providing OLAP
(On-Line Analytical Processing) to User-Analysts: An IT Mandate. - 1993.
- DePompa B. Основные
тенденции развития информационных хранилищ
//COMPUTERWORLD MOSCOW. – 1996. - №16
- DePompa B. Хотите
получить прибыль - разберитесь
со своими данными.
// COMPUTERWORLD MOSCOW. – 1997. - №13
- Microsoft Corporation
Компьютерные сети. Учебный курс. – М.
Русская
редакция,1997. – 696 с.
- Raden N.Моделирование
информационных хранилищ //
COMPUTERWORLD MOSCOW. – 1996. - №16
- Артемов Д., Погульский Г., Альперович М. Microsoft SQL Server 7.0 для профессионалов. – М.: Русская редакция, 1999. – 576 с.
- Баронов В.В. Автоматизация управления предприятиям. – М.: ИНФРА-М, 2000. – 239 с.
- Бритов
П.А., Липчинский Е.А. Практика построения
Хранилищ Данных:
Система SAS //СУБД. - 1998. - №4-5
- Буров К.
Обнаружение знаний в хранилищах данных
// Открытые
Системы. - 1999. - №5-6
- Ганьон Габриэль
Хранилища данных: краткий обзор // PC Magazine/RE.
–
1999. - №10
- Гарбус Дж., Паскузи Д., Чанг Э. Database Design on SQL Server 7. Сертификационный экзамен – экстерном (экзамен – 70-029). – СПб.: Питер, 2000. – 560 с.
- Дейт К. Дж. Введение в системы баз данных. – К : Диалектика, 1998. – 784 с.
- Джулия
Борт Витринам данных не мешает похудеть
// Директору
информационной службы. - 1999
- Зельцер
A. Информационные хранилища в сетях предприятий
//COMPUTERWORLD MOSCOW. – 1995. - №12
- Иванов
П. Индивидуальный маркетинг на плечах
информационных
хранилищ // СomputerWeekly. – 1998. - №26-27
- Калянов Г.Н. Консалтинг при автоматизации предприятия. – М.: СИНТЕГ, 1997. – 316 с.
- Кречетов
Н. Информационные хранилища: обзор
технологий и
продуктов //COMPUTERWORLD MOSCOW. – 1996. - №16
- Кречетов
Н. Информационные хранилища //COMPUTERWORLD
MOSCOW. – 1995. - №12
- Кристин
К. Корпоративная отчетность. Серверная
архитектура для
распределенного доступа к информации //Открытые Системы - 1999 - №1.
- Кузин Ф.А. Магистерская диссертация. Методика написания, правила оформления и процедура защиты.Практическое пособие для студентов-магистрантов. – М.: Ось-98, 1997. – 304 с.
- Липаев
В.В. Системное проектирование сложных
программных средств для
информационных систем. – М.: СИНТЕГ, 1999. – 224 с.
- Львов В.
Создание систем поддержки принятия
решений на основе
хранилищ данных // СУБД. – 1997. - №3
- Маклаков С.В. CASE-средства разработки информационных систем: BPwin, ERwin. – М.: ДИАЛОГ-МИФИ, 2000. – 256 с.
- Наталья
Д. Устройство и назначение хранилищ
данных // Открытые
Системы. - 1998. - №4-5
- Найгель
П. Истоки сегодняшних продуктов OLAP.(перевод
Абушаева Ш)
// THE OLAP REPORT. – 1999