Автор работы: Пользователь скрыл имя, 11 Сентября 2011 в 18:15, курсовая работа
Целью курсовой работы является изучение технологии OLAP, понятие ее реализации и структуры.
В современном мире компьютерные сети и вычислительные системы позволяют анализировать и обрабатывать большие массивы данных.
11. Гибкие возможности получения отчетов — OLAP-система должна поддерживать различные способы визуализации данных, т. е. отчеты должны представляться в любой возможной ориентации. Средства формирования отчетов должны представлять синтезируемые данные или информацию, следующую из модели данных в ее любой возможной ориентации.
12. Неограниченная размерность и число уровней агрегации — исследование о возможном числе необходимых измерений, требующихся в аналитической модели, показало, что одновременно может использоваться до девятнадцать измерений. Отсюда вытекает настоятельная рекомендация, чтобы аналитический инструмент мог одновременно предоставить не меньше пятнадцати измерений, а предпочтительнее двадцати измерений. Более того, каждое из общих измерений не должно быть ограничено по числу определяемых пользователем-аналитиком уровней агрегации и путей консолидации4.
Набор этих требований, послуживших де-факто определением OLAP, достаточно часто вызывает различные нарекания, например, правила 1, 2, 3, 6 являются требованиями, а правила 10, 11 — неформализованными пожеланиями. Таким образом, перечисленные 12 требований Кодда не позволяют точно определить OLAP. В 1995 г. Кодд добавил еще шесть правил:
13. Пакетное извлечение против интерпретации — OLAP-система должна в равной степени эффективно обеспечивать доступ как к собственным, так и к внешним данным.
14. Поддержка всех моделей OLAP-анализа — OLAP-система должна поддерживать все четыре модели анализа данных, определенные Коддом: толковательную, стереотипную, категориальную и умозрительную.
15. Обработка ненормализованных данных — OLAP-система должна быть интегрирована с ненормализованными источниками данных. Модификации данных, выполненные в среде OLAP, не должны приводить к изменениям данных, хранимых в исходных внешних системах.
16. Сохранение результатов OLAP: хранение их отдельно от исходных данных — OLAP-система, работающая в режиме чтения-записи, после модификации исходных данных должна сохранять результаты отдельно друг от друга, т.е. обеспечивать безопасность всех исходных данных.
17. Исключение отсутствующих значений — OLAP-система, представляя данные пользователю, должна отбрасывать все отсутствующие значения, т.е. они должны отличаться от нулевых значений.
18. Обработка отсутствующих значений — OLAP-система должна игнорировать все отсутствующие значения без учета их источника. Эта особенность связана с 17-м правилом.
Кроме того, Кодд разбил все восемнадцать правил на четыре группы, и назвал их особенностями. Группы получили названия: В, S, R и D.
Основные особенности (В) включают следующие правила:
Специальные особенности (S):
Особенности представления отчетов (R):
Управление измерениями (D):
Определенные
ранее особенности
Fast (Быстрый) — OLAP-система должна обеспечивать выдачу большинства ответов пользователям в пределах приблизительно пяти секунд. При этом самые простые запросы обрабатываются в течение одной секунды, и очень немногие более двадцати секунд. Конечные пользователи воспринимают процесс неудачным, если результаты не получены на протяжении тридцати секунд. Они способны нажать комбинацию клавиш <Ctrl>+<Alt>+<Del>, если система не предупредит их, что обработка данных требует большего времени. Даже если система предупредит, что процесс будет длиться существенно дольше, пользователи могут отвлечься и потерять мысль, после чего качество анализа сильно страдает. Такой скорости трудно достигнуть с большим количеством данных, в особенности при специальных очень быстрых вычислениях. Для достижения такой цели используются разные методы, включая применение аппаратных платформ с большей производительностью.
Analysis (Анализ) — OLAP-система должна справляться с любым логическим и статистическим анализом, характерным для данного приложения, и обеспечивать его сохранение в виде, доступном для конечного пользователя. Система должна позволять пользователю определять новые специальные вычисления как часть анализа и формировать отчеты любым желаемым способом без необходимости программирования. Все требуемые функциональные возможности анализа должны обеспечиваться понятным для конечных пользователей способом.
Shared (Разделяемой) — OLAP-система должна выполнять все требования защиты конфиденциальности. Если множественный доступ для записи необходим, обеспечивается блокировка модификаций на соответствующем уровне. Обработка множественных модификаций должна выполняться своевременно и безопасным способом.
Multidimensional (Многомерной) — OLAP-система должна обеспечить многомерное концептуальное представление данных, включая полную поддержку для иерархий и множественных иерархий, обеспечивающих наиболее логичный способ анализа. Это требование не устанавливает минимальное число измерений, которые должны быть обработаны, поскольку этот показатель зависит от приложения. Оно также не определяет используемую технологию БД, если пользователь действительно получает многомерное концептуальное представление информации.
Information
(Информации) — OLAP-система должна обеспечивать
получение необходимой информации в условиях
реального приложения. Мощность различных
систем измеряется не объемом хранимой
информации, а количеством входных данных,
которые они могут обработать. В этом смысле
мощность продуктов сильно различается.
Большие OLAP-системы могут оперировать
в тысячу раз большим количеством данных
по сравнению с простыми версиями OLAP-систем.
При этом следует учитывать множество
факторов, включая дублирование данных,
использование дискового пространства,
эксплуатационные показатели, требуемую
оперативную память, интеграцию с информационными
хранилищами и т. п5.
Многомерность в OLAP-приложениях представляют в виде трех уровней:
Во всех OLAP-системах первые два уровня присутствуют обязательно, а третий уровень не обязательно присутствует в них, хотя и является широко распространенным, так как данные для многомерного представления могут извлекаться и из обычных реляционных структур, и тогда процессор многомерных запросов будет транслировать многомерные запросы в SQL-запросы, которые выполняются реляционной СУБД.
OLAP-продукты, чаще всего, представляют собой OLAP-сервер, многомерную серверную СУБД (такую как, Microsoft OLAP Services или Oracle Express Server) или же OLAP-клиент, средство многомерного представления данных (такое как, Pivot Tables в Excel 2000 фирмы Microsoft или ProClarity фирмы Knosys)6.
OLAP-сервер обеспечивает хранение данных, выполнение над ними необходимых операций и формирование многомерной модели на концептуальном уровне.
OLAP-клиент обеспечивает пользователю возможность удобно манипулировать данными для выполнения задач анализа, представляя пользователю интерфейс к многомерной модели данных7.
Слой многомерной обработки обычно бывает встроен в OLAP-клиент и/или в OLAP-сервер, но так же этот слой может быть выделен в чистом виде, как, например, компонент Pivot Table Service фирмы Microsoft.
OLAP-серверы, или серверы многомерных БД, могут хранить свои многомерные данные по-разному. В любом ХД как в обычном так и в многомерном вместе с детальными данными, извлекаемыми из оперативных систем, хранятся и суммарные показатели (агрегированные показатели, агрегаты), такие, как суммы объемов продаж по месяцам, по категориям товаров и т. п. Агрегаты хранятся в явном виде с единственной целью - ускорить выполнение запросов.
Как детальные данные, так и агрегаты могут храниться либо в реляционных, либо в многомерных структурах. Многомерное хранение позволяет обращаться с данными как с многомерным массивом, благодаря чему обеспечиваются одинаково быстрые вычисления суммарных показателей и различные многомерные преобразования по любому из измерений. Некоторое время назад OLAP-продукты поддерживали либо реляционное, либо многомерное хранение. Сегодня, как правило, один и тот же продукт обеспечивает оба этих вида хранения, а также третий вид - смешанный. Способ реализации хранения данных очень важен, т. к. от него зависят такие характеристики, как занимаемые ресурсы и в следствии производительность. Выделяют три основных способа реализации:
Каждый из этих способов имеет свои преимущества и недостатки и должен применяться в зависимости от различных условий - объема данных, мощности реляционной СУБД и т. д.
При
хранении данных в многомерных структурах
возникает потенциальная
Таким образом, в ходе рассматриваемой темы мы узнали, что системами поддержки принятия решений может быть построена на подсистеме оперативного анализа. Для реализации которой и применяется технология оперативной аналитической обработки данных OLAP (On-line analytical processing), использующая концепцию многомерного представления данных.
Узнали, что множественность измерений предполагает представление данных в виде многомерной модели. Измерение — это последовательность значений одного из анализируемых параметров. По измерениям в многомерной модели откладывают параметры, относящиеся к анализируемой предметной области.