Автор работы: Пользователь скрыл имя, 19 Марта 2011 в 16:09, дипломная работа
История развития. Автором концепция Хранилищ Данных является W.H. Inmon, который изложил в 1992 году предложения по организации данных, которые затем постепенно переросли в технологию Хранилищ Данных (Data Warehouse). Эта идея была дополнена в 1993 году концепцией оперативной аналитической обработки данных (OLAP) Э.Кодда, и в результате их развития за прошедшее десятилетие было разработано около десятка различных архитектур корпоративных информационных систем на основе хранилищ данных, предназначенных для поддержки принятия решений и аналитических исследований.
Введение 4
1. глава Обзор технологии Хранилищ Данных,
подходов и имеющихся решений. 10
Информационные системы. 10
Концепция Хранилищ Данных. 13
Основные идеи концепции Хранилищ Данных 13
Свойства Хранилищ Данных. 16
Взаимное соотношение концепции ХД и
концепций анализа данных 19
Технологии и средства реализации 23
Вопросы реализации Хранилищ Данных 23
Основные компоненты Хранилищ Данных. 31
Подходы и имеющиеся решения 33
Data Warehouse Framework 33
A Data Warehouse Plus. 35
Warehouse Technology Initiative 36
Warehouse WORKS. 39
2. глава Исследование методов организации
структуры Хранилищ Данных. 41
2.1 СУБД для аналитических систем 41
2.1.1 РСУБД 41
2.1.2 МСУБД 48
2.2 Витрина Данных. 51
2.3. Выбор структуры Хранилища Данных 53
3. глава Проектирование Хранилищ Данных. 59
3.1 Технология проектирования Хранилищ Данных 59
3.1.1 Планирование и проектирование 59
3.1.2 Разработка 60
3.1.3 Установка системы и эксплуатация 60
3.1.4 Анализ протекающих процессов в системе 60
3.2 Тестовый проект по созданию витрины данных. 61
Заключение. 70
Библиографический список. 71
Государственный комитет Российской Федерации по высшему образованию
Казанский Государственный Технический Университет им. А.Н. Туполева
Ризаев
И.С. доцент, к.т.н.
КАЗАНЬ 2000
О Г Л А В Л Е Н И Е.
1. глава Обзор
технологии Хранилищ Данных,
подходов и имеющихся решений.
10
2. глава
Исследование методов организации
структуры Хранилищ Данных.
2.1 СУБД для аналитических систем
2.1.2 МСУБД
2.2 Витрина
Данных.
2.3. Выбор структуры Хранилища Данных
3.
глава Проектирование Хранилищ
Данных.
3.1 Технология проектирования Хранилищ Данных 59
3.1.1 Планирование и проектирование
3.1.2 Разработка
3.1.3 Установка системы и
3.1.4 Анализ протекающих процессов в системе 60
3.2 Тестовый проект по созданию витрины данных. 61
Заключение.
Библиографический
список.
Приложения.
ВВЕДЕНИЕ
Актуальность темы. Сегодня, практически в любой организации сложилась хорошо всем знакомая ситуация - информация вроде бы где-то и есть, её даже слишком много, но она неструктурированна, несогласованна, разрознена, не всегда достоверна, её практически невозможно найти и получить. Почему она возникла? Дело в том, что, во-первых, основное назначение таких систем - оперативная обработка данных и отражение только текущего состояния и построить аналитические системы на их основе чрезвычайно сложно. Во- вторых обычно в любой организации функционирует несколько различных, несвязанных или слабо связанных систем, а выгруженные из них данные, как правило, имеют различную структуру, формат, стандарты представления.
Поэтому является весьма актуальным рассмотрение проблем интеграции, согласованности и достоверности информации. Именно на решение этих задача и на преодоление ситуации «отсутствия информации при ее наличии и даже избытке» и нацелена концепция Хранилищ Данных (Data Warehouse).
Цель работы. Повышение эффективности методов хранения информации предназначенной для аналитической обработки.
Объект исследования. Технология Хранилищ Данных.
История развития. Автором концепция Хранилищ Данных является W.H. Inmon, который изложил в 1992 году предложения по организации данных, которые затем постепенно переросли в технологию Хранилищ Данных (Data Warehouse). Эта идея была дополнена в 1993 году концепцией оперативной аналитической обработки данных (OLAP) Э.Кодда, и в результате их развития за прошедшее десятилетие было разработано около десятка различных архитектур корпоративных информационных систем на основе хранилищ данных, предназначенных для поддержки принятия решений и аналитических исследований.
Недостатки объекта исследования Нет общих подходов к организации ХД. Высокая стоимость внедрения технология. Высокая сложность внедрения технологии. Все это препятствует широкому распространению этой технологии.
Практическая ценность. Результаты работы позволили:
Реализация результатов работы. Результаты данной работы использованы при разработке проекта комплекса сетевого программного обеспечения подготовки экономической и аналитической информации в САО «Росгосстрах-Татарстан» .
Публикации. По теме диссертации опубликованы тезисы докладов на студенческих конференциях.
// VIII Всероссийские Туполевские чтения студентов. 1998.
Объем работы. Работа состоит из введения, трех глав и заключения, изложенных на 85 страницах, содержит 6 рисунков, 13 таблиц, включает 37 наименований отечественной и зарубежной литературы, 1 приложение.
Аннотация диссертационной работы по главам.
В первой главе дается обзор технологии Хранилищ Данных, подходов и имеющихся решений.
Рассматриваются и сравниваются два направления развития информационных систем:
Указывается на текущее состояние СОД – накоплены огромные массивы информации, преимущественно в архивном виде, но на их основе очень затруднено или невозможно выполнение задач динамического анализа развития, прогнозирования и др.
Как
решение данной проблемы предлагается
рассмотреть концепцию Хранилищ
Данных, как предпредметно-
Цель концепции ХД – прояснить отличия в характеристиках данных в операционных и аналитических системах, определить требования к данным, помещаемым в целевую БД Хранилища Данных, определить общие принципы и этапы ее построения.
Предметом
концепции ХД служат сами данные. Данные
рассматриваются как
Рассматриваются следующие
Для четкости понимания концепции Хранилищ Данных, анализируется ее взаимосвязь с концепций анализа данных.
Далее
рассматриваются вопросы
В конце приводятся подходы и имеющиеся решения: Data Warehouse Framework (Microsoft), A Data Warehouse Plus (IBM), Warehouse Technology Initiative (Oracle), Warehouse WORKS (Sybase).
Сравниваются три варианта реализации центральной БД в Хранилище данных. На основе РСУБД, МСУБД и многоуровневый смешанный вариант.
Подчеркивается, что исходно ориентированные на реализацию систем операционной обработки данных, РСУБД оказались менее эффективными в задачах аналитической обработки. Среди причин указываются: жесткие ограничения накладываемые существующей реализацией языка SQL, регламентированность запросов и отчетов,
высокая степень нормализации. Указывается, что со временем появляются новации, которые смягчают эти ограничения. Например, схема организации данных звезда. Далее рассматриваются плюсы и минусы вертикальной и горизонтальной фрагментации БД в целях оптимизации.
Более
просто и эффективно аналитические
системы реализуются средствами
специализированных баз данных, основанных
на многомерном представлении
Очевидно, что такое решение требует большей суммарной памяти для хранения данных, больших затрат времени при их загрузке и является менее гибким при необходимости модификации структур данных. Но, как уже было сказано выше, в аналитических задачах все это окупается за счет более быстрого поиска и выборки данных, отсутствия необходимости в многократном соединении различных таблиц и многократного вычисления агрегированных значений. И, как правило, среднее время ответа на нерегламентированный аналитический запрос при использовании многомерной СУБД обычно на один-два порядка меньше, чем в случае реляционной СУБД с нормализованной схемой данных. Но МСУБД не приспособлены работать с очень большим объемом данных.
Показывается, что МСУБД однозначно хороши только при выполнении двух требований:
Уровень агрегации данных в БД достаточно высок, и, соответственно, объем БД не очень велик (не более нескольких гигабайт).
В качестве граней многомерного куба выбраны достаточно стабильные во времени реквизиты (с точки зрения неизменности их взаимосвязей), и, соответственно, число несуществующих значений относительно невелико.