Технология хранилищ данных

Автор работы: Пользователь скрыл имя, 19 Марта 2011 в 16:09, дипломная работа

Описание работы

История развития. Автором концепция Хранилищ Данных является W.H. Inmon, который изложил в 1992 году предложения по организации данных, которые затем постепенно переросли в технологию Хранилищ Данных (Data Warehouse). Эта идея была дополнена в 1993 году концепцией оперативной аналитической обработки данных (OLAP) Э.Кодда, и в результате их развития за прошедшее десятилетие было разработано около десятка различных архитектур корпоративных информационных систем на основе хранилищ данных, предназначенных для поддержки принятия решений и аналитических исследований.

Содержание работы

Введение 4
1. глава Обзор технологии Хранилищ Данных,
подходов и имеющихся решений. 10
Информационные системы. 10
Концепция Хранилищ Данных. 13
Основные идеи концепции Хранилищ Данных 13
Свойства Хранилищ Данных. 16
Взаимное соотношение концепции ХД и
концепций анализа данных 19
Технологии и средства реализации 23
Вопросы реализации Хранилищ Данных 23
Основные компоненты Хранилищ Данных. 31
Подходы и имеющиеся решения 33
Data Warehouse Framework 33
A Data Warehouse Plus. 35
Warehouse Technology Initiative 36
Warehouse WORKS. 39
2. глава Исследование методов организации
структуры Хранилищ Данных. 41
2.1 СУБД для аналитических систем 41
2.1.1 РСУБД 41
2.1.2 МСУБД 48
2.2 Витрина Данных. 51
2.3. Выбор структуры Хранилища Данных 53
3. глава Проектирование Хранилищ Данных. 59
3.1 Технология проектирования Хранилищ Данных 59
3.1.1 Планирование и проектирование 59
3.1.2 Разработка 60
3.1.3 Установка системы и эксплуатация 60
3.1.4 Анализ протекающих процессов в системе 60
3.2 Тестовый проект по созданию витрины данных. 61
Заключение. 70
Библиографический список. 71

Файлы: 1 файл

ТЕХНОЛОГИЯ ХРАНИЛИЩ ДАННЫХ.doc

— 571.00 Кб (Скачать файл)

1.3.2 Основные компоненты  Хранилищ Данных. 

      Основными компонентами Хранилищ Данных являются:

1) ПО  промежуточного слоя.

      Обеспечивает  сетевой доступ и доступ к базам  данных. Сюда относятся сетевые и  коммуникационные протоколы, драйверы, системы обмена сообщениями и  пр.

2) Транзакционные  БД и внешние источники информации.

      Базы  данных OLTP-систем исторически предназначались  для эффективной обработки структур данных в относительно небольшом  числе четко определенных транзакций. Из-за ограниченной целевой направленности "учетных" систем применяемые  в них структуры данных плохо подходят для систем поддержки принятия решений. Кроме того, возраст многих установленных OLTP-систем достигает 10 - 15 лет.

3) Уровень  доступа к данным.

      Относящееся сюда ПО обеспечивает общение конечных пользователей с информационным хранилищем и загрузку требуемых данных из транзакционных систем. В настоящее время универсальным языком общения служит язык структурированных запросов (SQL).

4) Загрузка  и предварительная обработка. 

      Этот  уровень включает в себя набор  средств для загрузки данных из OLTP-систем и внешних источников. Выполняется, как правило, в сочетании с дополнительной обработкой: проверкой данных на чистоту, консолидацией, форматированием, фильтрацией и пр.

5) Информационное  хранилище. 

      Представляет  собой ядро всей системы - один или несколько серверов БД.

6) Метаданные.

      Метаданные (репозиторий, "данные о данных"). Играют роль справочника, содержащего  сведения об источниках первичных данных, алгоритмах обработки, которым исходные данные были подвергнуты, и т. д.

7) Уровень информационного доступа

      Обеспечивает  непосредственное общение пользователя с данным DW посредством стандартных  систем манипулирования, анализа и  предоставления данных типа MS Excel, MS Access, Lotus 1-2-3 и др.

8) Уровень  управления (администрирования)

      Отслеживает выполнение процедур, необходимых для  обновления информационного хранилища  или поддержания его состояния. Здесь программируются процедуры  подкачки данных, перестройки индексов, выполнения итоговых (суммирующих) расчетов, репликации данных, построения отчетов, формирования сообщений пользователям, контроля целостности и др.  

1.4 Подходы и имеющиеся  решения 

1.4.1 Data Warehouse Framework 

       Архитектура Microsoft Data Warehousing Framework представляет собой  план разработки и интеграции продуктов, базирующихся на платформе Microsoft. В рамках этой инфраструктуры предоставляется объектно-ориентированный комплект компонентов, обеспечивающих                                      Рисунок 3. Data Warehousing Framework

управление  информацией в распределенной среде

      Data Warehousing Framework описывает связи между  различными компонентами, используемыми  в процессе создания, использования  и администрирования хранилища  данных. Ядром Data Warehousing Framework является  набор продуктивных технологий, включающий в себя уровень транспортировки данных (OLE DB) и интегрированный репозитарий метаданных. Эти две технологии обеспечивают интегрируемость множества продуктов и инструментальных средств, используемых в процессе построения хранилища данных.

      Создание  хранилища данных требует применения набора инструментальных средств для описания логической и физической структуры источников данных и мест их назначения в хранилищах или киосках данных. Оперативные данные должны пройти этап очистки и преобразования перед помещением в хранилище или киоск данных, чтобы соответствовать сформированным на этапе проектирования спецификациям. Такой процесс поэтапной обработки данных на практике часто бывает многоуровневым, особенно в архитектурах, использующих общекорпоративные хранилища, но на приведенной выше схеме он изображен для экономии места в упрощенном виде.

      Для обеспечения доступа к информации хранилища данных применяются инструменты  конечных пользователей. В идеальном  случае, пользовательский доступ осуществляется через некоторое средство работы с каталогами, предоставляющее возможность поиска именно тех данных, которые нужны пользователю для решения вопросов бизнеса, а также обеспечивающее необходимый уровень защиты, лежащий между пользователями и серверными системами.

      Центром интеграции метаданных ("данных о данных"), совместно используемых разнообразными инструментами, участвующими в процессе построения хранилища данных, служит репозитарий Microsoft Repository. Эти совместно используемые метаданные обеспечивают прозрачную интеграцию множества инструментальных средств различных производителей, устраняя необходимость в специализированных интерфейсах между каждой парой продуктов.  

1.4.2 A Data Warehouse Plus. 

        Решение компании IBM называется A Data Warehouse Plus. Целью компании является обеспечение интегрированного набора программных продуктов и сервисов, основанных на единой архитектуре. Основой хранилищ данных является семейство СУБД DB2. Преимуществом IBM является то, что данные, которые нужно извлечь из оперативной базы данных и поместить в хранилище данных, находятся в системах IBM. Поэтому естественная тесная интеграция программных продуктов.

Предлагаются  три решения для хранилищ данных:

(1) Изолированная витрина данных. Предназначен для решения отдельных задач вне связи с общим хранилищем корпорации.

(2) Зависимая витрина данных. Аналогичен изолированной витрине данных, но источники данных находятся под централизованным контролем.

(3) Глобальное хранилище данных. Корпоративное хранилище данных, которое полностью централизовано контролируется и управляется. Глобальное хранилище данных может храниться централизовано или состоять из нескольких распределенных в сети рынков данных.  
 
 
 
 
 
 
 
 
 
 
 

1.4.3 Warehouse Technology Initiative 

      Решение компании Oracle в области хранилищ данных основывается на двух факторах: широкий ассортимент продуктов самой компании и деятельность партнеров в рамках программы Warehouse Technology Initiative. Корпорация Oracle исходит из того, что Хранилище данных – это  архитектура и технология, а не готовый продукт или семейство продуктов.  

   Общая архитектура решения представлена на рис.4

   

   Рисунок.4. Архитектура СППР 

      Oracle Data Marts Builder -- специализированный инструментарий, предназначенный для автоматизации процессов выгрузки, транспортировки и преобразования данных(рис.5).

          Рисунок 5. Структура метаданных Oracle Data Marts Builder

      Выгрузка, транспортировка и согласование данных осуществляется в автоматическом  
режиме, на основе Планов и Расписаний, составленных на этапе разработки системы. Вся информация необходимая для реализации этих процедур хранится в виде единого справочника метаданных в БД Oracle.

      Средство  обеспечивает возможность определения  множества различных источников данных, в качестве которых могут  выступать различные СУБД, а так  же плоские файлы.

Проектирование процедур выгрузки, транспортировки и согласования данных осуществляется в следующей последовательности.

      1. Определяются сетевые адреса  серверов, из которых, будет выполняться  выгрузка и транспортировка данных. В частом случае, это может  быть тот же север на котором выполняется Oracle Data Marts Builder.

      2. Для каждого источника данных  автоматически формируется отдельный  Базовый взгляд. Для этого Oracle Data Marts Builder связывается, через ODBC или напрямую, с БД источником  и выгружает оттуда описания (структуру таблиц, типы полей и, если они определены, отношения типа - основной/внешний ключ) целевых структур данных. В дальнейшем, эти описания запоминаются и хранятся в соответствующих разделах базы метаданных Oracle Data Marts Builder.

      3. На основе одного или нескольких Базовых взглядов формируется обобщённый Мета взгляд. При этом, маскируется тот факт, что различные таблицы данных на физическом уровне хранятся в различных узлах и с помощью различных средств. На этом же этапе, проектировщик имеет возможность:

удалить из описаний структур поля, не используемые в процедурах преобразования, согласования и загрузки данных;

добавить  к описаниям структур, новые вычисляемые  поля и определить формулы, по которым  будут формироваться их значения.

      4. Определяются процедуры (Планы) преобразования и согласования данных. Планы составляются на специальном высокоуровневом языке).

При составлении  плана используется набор настраиваемых  встроенных функций, В состав стандартного набора входит более 20 различных функций, например, таких как:

    • выбрать данные из плоского файла с разделителями;
    • выбрать данные из таблицы БД;
    • удалить колонку из таблицы;
    • найти и заменить один набор символов на другой;
    • выполнить сортировку;
    • заменить значение (текстовый дескриптор) его идентификатором (кодом),
    • ранящимся во внешней таблице;
    • выполнить сортировку;
    • сформировать значение ключевого поля типа время;
    • расщепить входной поток данных на два;
    • объединить два потока данных в один;
    • добавить данные в целевую таблицу;
    • вызвать SQL Loader и передать данные на его вход;
    • запомнить данные в виде плоского файла с разделителями;
    • вывести данные на печать;

обеспечивающих  возможность выборки, преобразования, согласования и загрузки данных. При  необходимости этот набор может  быть расширен самим разработчиком.

6. Для  каждого Плана (или группы Планов) составляется расписание их выполнения).  
При составлении расписания, разработчик имеет возможность определить действия, которые должны быть выполнены при возникновении различных сбойных или ошибочных ситуаций.
 

1.4.4 Warehouse WORKS.

      В реальной жизни процессу создания хранилища  данных зачастую предшествует разработка прототипа - небольшой системы, призванной продемонстрировать новые возможности, чтобы, попробовав систему в работе, сделать выводы о необходимости продолжения дальнейшей разработки.

      Такая система, называемая далее витриной данных (ВД) - это небольшое хранилище, обеспечивающее потребности одного из подразделений компании, или одного из направлений бизнеса. ВД не требует, хотя и не исключает, наличие корпоративного ХД, охватывающей сразу все аспекты ее жизнедеятельности организации. Как правило, она доступна ограниченному кругу аналитиков, для работы которых она и создавалась. Стоимость разработки такой ВД намного ниже, чем корпоративного ХД, а результат ее внедрения может окупиться много быстрее. Параллельно с созданием ВД, может идти процесс проектирования корпоративного ХД.

      Sybase выпустила интегрированный комплект  базовых программных продуктов  для ХД под названием Warehouse Studio для решения всех задач, связанных с созданием, управлением и развитием ХД и ВД. Среди этих продуктов - сервера для хранения и управления бизнес-информации, связующее ПО для доступа к распределенным источникам данных, средства разработки для построения систем поддержки принятия решений.

      Корпоративная архитектура ХД компании Sybase представляет собой интегрированный набор  программных продуктов Sybase и ее партнеров, позволяющих  создавать масштабируемые приложения для DSS в рамках единой архитектуры, способной сохранить целостность и непротиворечивость данных, а также обеспечить свое развитие ХД в будущем.

      Компонентная  адаптивная архитектура Sybase (ImpactNOW) обеспечивает наиболее широкие возможности по повторному использованию стандартных  компонент, причем всех основных форматов объектов -- ActiveX, JavaBeans, CORBA. Кроме того, она позволяет использовать их на любой уровне: клиента, сервера баз данных, промежуточного слоя. Это обеспечивает быструю разработку приложений, их высокую производительность, расширяемость и надежность.

Информация о работе Технология хранилищ данных