Автор работы: Пользователь скрыл имя, 19 Марта 2011 в 16:09, дипломная работа
История развития. Автором концепция Хранилищ Данных является W.H. Inmon, который изложил в 1992 году предложения по организации данных, которые затем постепенно переросли в технологию Хранилищ Данных (Data Warehouse). Эта идея была дополнена в 1993 году концепцией оперативной аналитической обработки данных (OLAP) Э.Кодда, и в результате их развития за прошедшее десятилетие было разработано около десятка различных архитектур корпоративных информационных систем на основе хранилищ данных, предназначенных для поддержки принятия решений и аналитических исследований.
Введение 4
1. глава Обзор технологии Хранилищ Данных,
подходов и имеющихся решений. 10
Информационные системы. 10
Концепция Хранилищ Данных. 13
Основные идеи концепции Хранилищ Данных 13
Свойства Хранилищ Данных. 16
Взаимное соотношение концепции ХД и
концепций анализа данных 19
Технологии и средства реализации 23
Вопросы реализации Хранилищ Данных 23
Основные компоненты Хранилищ Данных. 31
Подходы и имеющиеся решения 33
Data Warehouse Framework 33
A Data Warehouse Plus. 35
Warehouse Technology Initiative 36
Warehouse WORKS. 39
2. глава Исследование методов организации
структуры Хранилищ Данных. 41
2.1 СУБД для аналитических систем 41
2.1.1 РСУБД 41
2.1.2 МСУБД 48
2.2 Витрина Данных. 51
2.3. Выбор структуры Хранилища Данных 53
3. глава Проектирование Хранилищ Данных. 59
3.1 Технология проектирования Хранилищ Данных 59
3.1.1 Планирование и проектирование 59
3.1.2 Разработка 60
3.1.3 Установка системы и эксплуатация 60
3.1.4 Анализ протекающих процессов в системе 60
3.2 Тестовый проект по созданию витрины данных. 61
Заключение. 70
Библиографический список. 71
Далее рассматривается многоуровневое решение:
первый уровень - общекорпоративная БД на основе РСУБД с нормализованной или слабо денормализованной схемой (детализированные данные);
второй уровень - БД уровня подразделения (или конечного пользователя), реализуемые на основе МСУБД (агрегированные данные);
третий уровень - рабочие места конечных пользователей, на которых непосредственно установлен аналитический инструментарий;
Именно оно постепенно становится стандартом де-факто, позволяя наиболее полно реализовать и использовать достоинства каждого из подходов:
Далее рассматривается выбор модели и структуры Хранилища Данных. Дается понятие подхода к поиску и выборке данных, называемого Оперативной Аналитической Обработкой (On-line Analytical Processing, OLAP). В зависимости от того в каком виде данные хранятся на физическом уровне описываются системы ROLAP, HOLAP, MOLAP.
1
глава. Обзор технологии
Хранилищ Данных,
подходов и имеющихся
решений.
В области информационных технологий всегда существовали два взаимодополняющих друг друга направления развития (рис.1):
Рисунок
1. Направления развития информационных
систем
Еще до недавнего прошлого, когда говорилось о стремительном вхождении в нашу жизнь информационных технологий и росте числа реализаций информационных систем, прежде всего имелись в виду системы, ориентированные исключительно на операционную обработку данных. И такое опережающее развитие одного из направлений вполне объяснимо.
На
первых этапах автоматизации требовалось
и требуется навести порядок
именно в процессах повседневной
рутинной обработки (переработки) данных,
на что и ориентированы
Рассмотрим причины кризиса оперативного анализа. Ниже представлены лишь основные из них.
Существует несколько путей преодоления кризиса. Один из них –создание шлюзов между отдельными системами. Это, однако, приводит лишь к объединению нескольких OLTP систем в одну и никак не решает проблему высокой детализации данных.
Данные,
порожденные в результате функционирования
корпоративных СОД, служат основой
для построения СППР, но как уже
указано выше строить такую систему
непосредственно поверх СОД не эффективно,
а при большом количестве малосвязанных
СОД – это становится практически невозможно.
Поскольку
СППР предъявляют особые требования к
организации данных предназначенных для
аналитической обработки: интеграция,
непротиворечивость, достоверность, охват
продолжительного периода времени.
Для удовлетворения этим требованиям в начале 90-х годов и возникла концепция Хранилищ Данных.
Рисунок
2. Архитектура СППР на основе Хранилища
Данных.
1.2 Концепция Хранилищ Данных.
Хранилище
Данных (Data Warehouse) – предпредметно-
1.2.1 Основные идеи концепции ХД
В основе концепции Хранилищ Данных лежат две основополагающие идеи:
Цель концепции ХД – прояснить отличия в характеристиках данных в операционных и аналитических системах (таблица 1), определить требования к данным (таблица 2), помещаемым в целевую БД Хранилища Данных, определить общие принципы и этапы ее построения.
Наиболее распространенной на сегодня ошибкой является попытка найти в концепции Хранилищ Данных некий законченный рецепт реализации информационной аналитической системы. Тем более, это не некий готовый программный продукт или некое готовое универсальное решение.
|
Таблица 1. Сравнение характеристик данных в информационных системах,
ориентированных
на операционную и аналитическую
обработку данных.
|
Таблица 2. Основные требования к данным в Хранилище Данных.
Предметом концепции ХД служат сами данные. Данные рассматриваются как самостоятельный объект предметной области, порожденные в результате функционирования ранее созданных информационных систем.
Для правильного понимания данной концепции необходимо уяснение следующих принципиальных моментов:
Концепция Хранилищ Данных предполагает не просто единый логический взгляд на данные организации (как иногда это трактуется), а реализацию единого интегрированного источника данных.
Последний пункт достаточно принципиален, поэтому рассмотрим его более детально. Сегодня достаточно популярны решения, предполагающие интеграцию различных СОД на основе единого справочника метаданных (поддерживающего единый логический взгляд на данные организации), но не единого интегрированного источника данных. При этом по каждому новому запросу предполагается динамическая выгрузка данных из различных операционных источников (СОД), их динамическое согласование, агрегация и транспортировка к пользователю.
Очевидно, что для определенных классов приложений это решение вполне корректно. Но следует заранее понимать все накладываемые им ограничения.
Кроме
единого справочника
Без поддержки хронологии (наличия исторических данных) нельзя говорить о решении задач прогнозирования и анализа тенденций. Но наиболее критичными и болезненными оказываются вопросы, связанные с согласованием данных.
Основным
требованием аналитика является
даже не столько оперативность, сколько
достоверность ответа. Но достоверность,
в конечном счете, и определяется согласованностью.
Пока не проведена работа по взаимному
согласованию значений данных из различных
источников, сложно говорить об их достоверности.
1.2.2 Свойства Хранилищ Данных.
1 Предметная ориентация
В отличие от БД в традиционных OLTP-системах, где данные подобраны в соответствии с конкретными приложениями, информация в DW ориентирована на задачи поддержки принятия решений.. Для системы поддержки принятия решений требуются "исторические" данные - факты продаж за определенные интервалы времени. Хорошо спроектированные структуры ХД отражают развитие всех направлений бизнеса компании во времени.
Поскольку
в технологии ХД объекты данных выходят
на первый план, то особые требования предъявляются
к структурам БД, используемым для создания
информационных хранилищ. Принципиально
отличаются и структуры баз данных для
OLTP сиитем и систем ХД. Во втором случае
в них помещается только та информация,
которая может быть полезной для работы
систем поддержки принятия решений (DSS).