Системы OLAP сравнительные характеристики и применение в бизнесе

Автор работы: Пользователь скрыл имя, 08 Апреля 2011 в 01:27, курсовая работа

Описание работы

Механизм OLAP является одним из популярных методов анализа данных. Термин OLAP - расшифровывается как Online Analytical Processing. То есть примерно можно перевести как “Обработка данных в реальном времени”. Интерактивная аналитическая обработка (OLAP) позволяет получать доступ к статистическим и организованным данным из источников бизнес-данных, например хранилищ данных, в многомерной структуре, именуемой куб.

Содержание работы

1. Введение
2. Хранилище данных
2.1 Что такое хранилище данных
2.2 Структура хранилищ даных
2.3 Таблица факторов
2.4 Таблица измерений
3. Основные понятия OLAP
3.1 Что такое OLAP
3.2 Тест FAMSI
3.3 Многомерные кубы
3.3.1 ”Резание” куба
3.3.2 Метки
3.3.3 Иерархии и уровни
4. OLAP на клиенте и на сервере
5. Технические аспекты многомерного хранения
6. Архитектура OLAP приложений
7. Системы оперативной обработки транзакций или оперативные системы – OLTP, сравнительные характеристики
7.1 сравнение OLAP, OLTP, хранилище данных
8. Получение практических навыков.
9. Заключение

Файлы: 1 файл

системы OLAP сравнительные характеристики и применение в бизнесе.doc

— 113.00 Кб (Скачать файл)

       3. Основные понятия OLAP

     3.1 Что такое OLAP.

     Идея  обработки многомерных данных возникла в 1962 году, когда К.Айверсон опубликовал свою работу «Язык программирования. APL – это математически определенный язык с многомерными переменными и изящными, но довольно абстрактными операторами. В 70-е и 80-е годы он активно использовался во многих деловых приложениях, функционально схожих с современными OLAP-системами.

     В 1970 г. впервые появился прикладной программный  продукт для многомерного анализа  данных – Express. Определенные модификации  данного продукта широко используется в современных OLAP приложениях, однако изначальные концепции 70-х годов остались далеко позади. В 1992 году был выпущен Essbase – первый OLAP продукт, получивший масштабный. В 1993 году выходит в свет статья Е.Ф.Кодда, в которой впервые было дано формальное определение OLAP-технологии. Эта работа получила большой резонанс и привлекла внимание к возможностям многомерного анализа. В статье были описаны двенадцать правил OLAP, к которым чуть позже (в 1995 году) были добавлены еще несколько. Все эти правила были разделены на четыре группы и названы «характеристиками». К таким правилам относятся:

     основные  характеристики: многомерность модели данных, интуитивные механизмы манипулирования данными, доступность данных, пакетное извлечение данных, архитектура «клиент-сервер», прозрачность, многопользовательская работа

     специальные характеристики: обработка ненормализованных данных, хранение результатов отдельно от исходных данных, выделение отсутствующих данных, обработка отсутствующих значений.

     характеристики  построения отчетов: гибкое построение отчетов, стабильная производительность при построении отчетов, автоматическое регулирование физического уровня

     управление  размерностью: общая функциональность, неограниченное число измерений и уровней агрегирования. [1, с.10-11]

     3.2 Test Fasmi

     Универсальным критерием определения OLAP как инструмента является тест FASMI (Fast Analysis of Shared Multidimensional Information). Перевести данное понятие можно как - быстрый анализ разделяемой многомерной информации. Рассмотрим детально каждую из составляющих этой аббревиатуры.

     Fast(быстрый). Данное свойство означает, что система должна обеспечивать ответ на запрос пользователя в среднем за 5 секунд. При этом большинство запросов обрабатываются в пределах 1 сек., а самые сложные – в пределах 20 сек.

     Analysis (аналитический). Система должна справляться с любым логическим и статистическим анализом, характерным для бизнес-приложений, и обеспечивает сохранение результатов в виде, доступном для конечного пользователя. Средства анализа могут включать процедуры анализа временных рядов, распределения затрат, конверсии валют, моделирования изменений организационных структур.

     Shared(разделяемый). Система должна предоставлять широкие возможности разграничения доступа к данным и одновременной работы многих пользователей.

     Multidimensional(многомерный). Система должна обеспечивать концептуально многомерное представление данных, включая полную поддержку множественных иерархий.

     Information (информация). Мощность различных программных продуктов характеризуется количеством обрабатываемых входных данных. Разные OLAP-системы имеют разную мощность: передовые OLAP-решения могут оперировать, по крайней мере, в тысячу раз большим количеством данных по сравнению с самыми маломощными. При выборе OLAP-инструмента следует учитывать целый ряд факторов, включая дублирование данных, требуемую оперативную память, использование дискового пространства. [4]

     3.3. многомерные кубы

     OLAP предоставляет удобные быстродействующие  средства доступа, просмотра и  анализа деловой информации. Пользователь получает естественную, интуитивно понятную модель данных, организуя их в виде многомерных кубов. Осями многомерной системы координат служат основные атрибуты анализируемого бизнес-процесса. Например, для продаж это могут быть товар, регион, тип покупателя. В качестве одного из измерений используется время. На пересечениях осей - измерений  - находятся данные, количественно характеризующие процесс - меры. Пользователь, анализирующий информацию, может “разрезать” куб по разным направлениям, получать сводные (например, по годам) или, наоборот, детальные (по неделям) сведения и осуществлять прочие манипуляции, которые ему придут в голову в процессе анализа. 

       

     3.3.1 «разрезание» куба

     Двумерное представление куба можно получить, “разрезав” его поперек одной или нескольких осей (измерений): мы фиксируем значения всех измерений, кроме двух, - и получаем обычную двумерную таблицу. В горизонтальной оси таблицы (заголовки столбцов) представлено одно измерение, в вертикальной (заголовки строк) - другое, а в ячейках таблицы - значения мер. При этом набор мер фактически рассматривается как одно из измерений - мы либо выбираем для показа одну меру (и тогда можем разместить в заголовках строк и столбцов два измерения), либо показываем несколько мер (и тогда одну из осей таблицы займут названия мер, а другую - значения единственного “неразрезанного” измерения).

     3.3.2 метки

     Значения, “откладываемые” вдоль измерений, называются членами или метками (members). Метки используются как для “разрезания” куба, так и для ограничения (фильтрации) выбираемых данных - когда в измерении, остающемся “неразрезанным”, нас интересуют не все значения, а их подмножество, например три города из нескольких десятков. Значения меток отображаются в двумерном представлении куба как заголовки строк и столбцов

     3.3.3 иерархия в измерении

     Метки могут объединяться в иерархии, состоящие  из одного или нескольких уровней (levels). Например, метки измерения “Магазин” (Store) естественно объединяются в иерархию с уровнями:

     All (Мир)

     Country (Страна)

     State (Штат)

     City (Город)

     Store (Магазин).

     В соответствии с уровнями иерархии вычисляются  агрегатные значения, например, объем продаж для USA (уровень “Country”) или для штата California (уровень “State”). В одном измерении можно реализовать более одной иерархии - скажем, для времени: {Год, Квартал, Месяц, День} и {Год, Неделя, День}.

     Иерархии могут быть сбалансированными, как, например, иерархия, а также иерархии, основанные на данных типа "дата—время", и несбалансированными. Типичный пример несбалансированной иерархии — иерархия типа "начальник—подчиненный".Существуют также иерархии, занимающие промежуточное положение между сбалансированными и несбалансированными (они обозначаются термином ragged — "неровный"). Обычно они содержат такие члены, логические "родители" которых находятся не на непосредственно вышестоящем уровне.  Несбалансированные и «неровные» иерархии поддерживаются далеко не всеми OLAP – средствами. Например в Microsoft Analysis Services 2000 поддерживаются оба типа иерархии, а в Microsoft OLAP Services 7.0 – только сбалансированные. Различным в разных OLAP – средствах  может быть и число уровней иерархии, и максимально допустимое число членов одного уровня, и максимально возможное число самих измерений. [1, с.18-25], [7, с.33-45]

     4. OLAP на клиенте и на сервере

     Многомерный анализ данных может быть произведен с помощью различных средств, которые условно можно разделить  на клиентские и серверные OLAP-средства.

     Клиентские OLAP-средства представляют собой приложения, осуществляющие вычисление агрегатных данных (сумм, средних величин, максимальных или минимальных значений) и их отображение, при этом сами агрегатные данные содержатся в кэше внутри адресного пространства такого OLAP-средства.

     Если  исходные данные содержатся в настольной СУБД, вычисление агрегатных данных производится самим OLAP-средством. Если же источник исходных данных — серверная СУБД, многие из клиентских OLAP-средств посылают на сервер SQL-запросы, содержащие оператор GROUP BY, и в результате получают агрегатные данные, вычисленные на сервере.

     Как правило, OLAP-функциональность реализована  в средствах статистической обработки  данных и в некоторых электронных таблицах. В частности, неплохими средствами многомерного анализа обладает Microsoft Excel 2000. С помощью этого продукта можно создать и сохранить в виде файла небольшой локальный многомерный OLAP-куб и отобразить его двух- или трехмерные сечения.

     Отметим, что клиентские OLAP-средства применяются, как правило, при малом числе  измерений (обычно рекомендуется не более шести) и небольшом разнообразии значений этих параметров, — ведь полученные агрегатные данные должны умещаться  в адресном пространстве подобного средства, а их количество растет экспоненциально при увеличении числа измерений. Поэтому даже самые примитивные клиентские OLAP-средства, как правило, позволяют произвести предварительный подсчет объема требуемой оперативной памяти для создания в ней многомерного куба.

     Многие  клиентские OLAP-средства позволяют сохранить  содержимое кэша с агрегатными данными  в виде файла, что, в свою очередь, позволяет не производить их повторное вычисление. Отметим, что нередко такая возможность используется для отчуждения агрегатных данных с целью передачи их другим организациям или для публикации. Типичным примером таких отчуждаемых агрегатных данных является статистика заболеваемости в разных регионах и в различных возрастных группах, которая является открытой информацией, публикуемой министерствами здравоохранения различных стран и Всемирной организацией здравоохранения. Идея сохранения кэша с агрегатными данными в файле получила свое дальнейшее развитие в серверных OLAP-средствах, в которых сохранение и изменение агрегатных данных, а также поддержка содержащего их хранилища осуществляются отдельным приложением или процессом, называемым OLAP-сервером. Клиентские приложения могут запрашивать подобное многомерное хранилище и в ответ получать те или иные данные. Некоторые клиентские приложения могут также создавать такие хранилища или обновлять их в соответствии с изменившимися исходными данными.

     Преимущества  применения серверных OLAP-средств по сравнению с клиентскими OLAP-средствами сходны с преимуществами применения серверных СУБД по сравнению с настольными: в случае применения серверных средств вычисление и хранение агрегатных данных происходят на сервере, а клиентское приложение получает лишь результаты запросов к ним, что позволяет в общем случае снизить сетевой трафик, время выполнения запросов и требования к ресурсам, потребляемым клиентским приложением. Отметим, что средства анализа и обработки данных масштаба предприятия, как правило, базируются именно на серверных OLAP-средствах. Поскольку все ведущие производители серверных СУБД производят (либо лицензировали у других компаний) те или иные серверные OLAP-средства, выбор их достаточно широк и почти во всех случаях можно приобрести OLAP-сервер того же производителя, что и у самого сервера баз данных.

     Отметим, что многие клиентские OLAP-средства (в частности, Microsoft Excel 2000, Seagate Analysis и др.) позволяют обращаться к серверным OLAP-хранилищам, выступаяв этом случае в роли клиентских приложений, выполняющих подобные запросы. Помимо этого имеется немало продуктов, представляющих собой клиентские приложения к OLAP-средствам различных производителей.[1, с.35-43]

     5. технические аспекты многомерного хранения

     В многомерных хранилищах данных содержатся агрегатные данные различной степени  подробности, например, объем продаж по дням, месяцам, годам. Цель хранения агрегатных данных – сократить время выполнение запросов, поскольку в большинстве случаях для анализа и прогнозов интересны не детальные, а суммарные данные.

     Обсуждая  тему OLAP, следует упомянуть и о разновидностях многомерного хранения данных. Дело в том, что информационные массивы, логически упорядоченные по аналитическим направлениям и, таким образом, являющиеся многомерными с точки зрения конечных пользователей вовсе не обязательно являются многомерными с точки зрения технологической реализации. Как правило, выделяют три разновидности хранения данных:

     многомерный OLAP (multidimensional OLAP, MOLAP) представляет собой «OLAP в чистом виде», т.е. технологию, основанную на хранении данных под управлением специализированных многомерных СУБД;

     реляционный OLAP (relational OLAP, ROLAP) — технология, основанная на хранении многомерной информации в реляционных базах данных, на основе одной или нескольких схем типа «звезда» или «снежинка»

Информация о работе Системы OLAP сравнительные характеристики и применение в бизнесе