Автор работы: Пользователь скрыл имя, 06 Апреля 2011 в 12:28, курсовая работа
Хранилища данных – это процесс сбора, отсеивания и предварительной обработки данных с целью представления результирующей информации пользователям для статистического анализа и аналитических отчетов. Ральф Кинболл (автор концепции хранилищ данных) описывал хранилища данных как «место, где люди могут получить доступ к своим данным».
Введение…………………………………………………………………….…..5
1 Хранилища данных…………………………………………………………..8
1.1 Принципы построения……………………………………………………..8
1.2 Основные компоненты хранилища данных……………………………...10
2 Технологии управления информацией…………………………………......12
2.1 OLАP-технология……………………………………………………….....12
2.2 Создание баз данных, создание запросов и отчётов ……………............14
Заключение…………………………………………………………………......20
Глоссарий……………………………………………………………………....23
Список используемых источников……………………………………….......25
Приложение………………………………………………………………….…27
Версия шаблона | 2.1 |
Филиал | УП «Нагорная» |
Вид работы | Курсовая работа |
Название дисциплины | База данных |
Тема | Хранилища данных |
Фамилия студента | Карпов |
Имя студента | Сергей |
Отчество студента | Алексеевич |
№ контракта | 27200070602004 |
Введение…………………………………………………………
1 Хранилища
данных…………………………………………………………..
1.1 Принципы
построения……………………………………………………
1.2 Основные компоненты хранилища данных……………………………...10
2 Технологии
управления информацией…………………………………......
2.1 OLАP-технология………………………………………
2.2 Создание баз данных, создание запросов и отчётов ……………............14
Заключение……………………………………………………
Глоссарий………………………………………………………
Список
используемых источников……………………………………….....
Приложение……………………………………………………
Рассмотрим фирму,
которая ведет некую
Повседневная деятельность такой фирмы сопровождается ежедневным внесением в базу данных десятков счетов, накладных и других оперативных документов. Реляционные СУБД, рассмотренные выше, проектировались и используются для выполнения именно такой работы – для управления большим потоком транзакций, каждая из которых связана с внесением небольших изменений в оперативные данные предприятия. Системы такого типа называются системами оперативной обработки транзакций или OLTP (Online Transaction Processing) Будем называть их просто оперативными системами.
Известно,
что структура БД оперативных
систем в высокой степени
Потребности в оперативных документах краткосрочны. С оперативными документами работают в течение какого-то времени: отслеживают оплату счета, приход денег, поставку товара и т.д. Для контроля данного процесса периодически формируются отчеты, которые имеют несколько стандартных для фирмы разновидностей и строятся путем выборки данных непосредственно из БД торговой системы. Оперативный документ, сыграв свою роль, далее в рамках торговой системы, как правило, больше не используется. Со временем растущий объем данных начинает замедлять выполнение операций, что порождает естественное желание избавиться от старых неиспользуемых данных.
Между тем в накопленных данных содержится история развития предприятия, история его взаимоотношений с поставщиками и покупателями. Данные, накопленные в предприятии, – уникальный ресурс. В результате их анализа можно было бы получить ценнейшую информацию, позволяющую принимать эффективные управленческие решения. Ценность информации, а, следовательно, и глубина анализа еще более возрастут, если использовать объединенную информацию всего предприятия, всех его систем. Но для этого руководителю может потребоваться исследование десятков тысяч комбинаций данных, не укладывающихся в имеющийся набор готовых отчетных форм.
Следует отметить, что подобные исследования редко проводятся самим руководителем. Чаще он приглашает или выращивает в своей фирме аналитика, который хочет извлечь из данных все, что можно. Например, понять, какой тип клиентов наиболее перспективен для фирмы, или какие скидки будут оптимальными этой весной. Но сделать это оказывается не так-то просто.
Традиционный анализ, который, как правило, осуществляется при помощи изучения набора готовых отчетных форм, а его результатом является принятие одного из стандартных бизнес-решений, здесь явно не поможет. Если считать, что в распоряжении аналитика имеется только традиционная СУБД, то при выполнении возложенных на него обязанностей он столкнется с рядом проблем:
Построение
сводных отчетов над
Для построения систем ОLАР используются специализированные многомерные БД либо надстройки над обычными реляционными БД. До последнего времени ОLАР-технология ассоциировалась с большими проектами по хранению массивов данных и сложными приложениями для их анализа. Сложный и дорогой ОLАР-инструментарий был доступен только очень крупным компаниям.
И
все же в последнее время ситуация
на рынке резко изменилась. Произошло
это благодаря тому, что было найдено компромиссное
решение: укомплектовать полноценным
ОLАР-сервером хорошо зарекомендовавшие
себя недорогие программные продукты.
К таким продуктам относится, например,
МS SQL-сервер баз данных, начиная с версии
7 и позднее, который во всем мире активно
используется для построения хранилищ
данных. Компания Microsoft предпринимает
ряд серьезных мер, чтобы обеспечить наилучшую
поддержку хранилищ данных и построения
информационных систем. Вследствие указанного
изменения ситуации современные OLАР-системы
анализа данных стали действительно доступны
малому и среднему бизнесу.
1 Хранилища данных
1.1 Принципы построения
Хранилища данных – это процесс сбора, отсеивания и предварительной обработки данных с целью представления результирующей информации пользователям для статистического анализа и аналитических отчетов. Ральф Кинболл (автор концепции хранилищ данных) описывал хранилища данных как «место, где люди могут получить доступ к своим данным». Он же сформулировал основные требования к хранилищам данных:
– поддержка высокой скорости данных из хранилища;
– поддержка внутренней непротиворечивости данных;
– возможность получения и сравнения данных;
– наличие удобных утилит просмотра данных хранилища;
– полнота и достоверность хранимых данных;
– поддержка качественного процесса пополнения данных.
Всем
перечисленным требованиям
Информация,
которая загружается в
– высокая степень суммаризации;
– низкая степень суммаризации;
– текущая детальная информация.
Хранилища можно рассматривать как набор моментальных снимков состояния данных: можно восстановить картинку на любой момент времени. Атрибут времени всегда явно присутствует в структурах данных хранилища.
Попав
однажды в хранилище, данные уже
никогда не изменяются, а только
пополняются новыми данными из оперативных
систем, где данные постоянно меняются.
Новые данные по мере поступления
обобщаются с уже накопленной
информацией в хранилище данных.
1.2 Основные компоненты
хранилища данных
Использование технологии хранилищ данных предполагает наличие в системе следующих компонентов:
– оперативных источников данных;
– средств переноса и трансформации данных;
– метаданных – включают каталог хранилища и правила преобразования данных при загрузке их из оперативных баз данных;
– реляционного хранилища;
– OLAP-хранилища;
– средств доступа и анализа данных.
Назначение
перечисленных компонентов
Важнейшим элементом хранилища являются метаданные, т.е. данные о структуре, размещении, трансформации данных, которые используются любыми процессами хранилища. Метаданные могут быть востребованы для различных целей, например: извлечения и загрузки данных; обслуживании хранилища и запросов. Метаданные для различных процессов могут иметь различную структуру, т.е. для одного и того же элемента данных может существовать несколько вариантов метаданных.
Итак, хранилища данных являются структурированными. Они содержат базовые данные, которые образуют единый источник для обработки данных во всех системах поддержки принятия решений. Элементарные данные, присутствующие в хранилище, могут быть представлены в различной форме. Хранилища данных исключительно велики, поскольку в них содержатся интегрированные и детализированные данные.
Эти
характеристики являются общими для
всех хранилищ данных. Но, несмотря на
то что хранилища обладают общими
свойствами, разные типы хранилищ имеют
свои индивидуальные особенности.
2 Технологии управления информацией
2.1 OLAP-технология
Для работы с хранилищем данных используются СУБД, к которым предъявляются специальные требования. Поскольку в ходе обсуждения проблем хранилищ данных эти требования либо уже обсуждались, либо присутствие их в перечне и без обсуждения интуитивно понятно, просто перечислим их:
– высокая производительность загрузки данных;
– возможность обработки данных на уровне загрузки;
– наличие средств управления качеством данных;
– высокая производительность запросов;
– широкая масштабируемость по размеру и количеству пользователей;
– возможность организации сети хранилищ данных;
– наличие средств администрации хранилищ данных;
– поддержка интегрированного многомерного анализа;
– расширенный набор функциональных средств запросов.
OLAP – это технология комплексного многомерного анализа данных, это ключевой компонент организации хранилищ данных. В 1993 г. эта технология была описана Эдгером Коддом. Для упрощения анализа была предложена и разработаны концепция хранилища данных. Предполагается что такое хранилище содержит сведения, поступающие от разных источников, а так же интегрированные данные, получаемые в результате анализа первичных данных. Естественно, для поддержки предложенной концепции потребовались специальные средства управления процессом хранения и обработки информации, к которым относятся инструментальные средства OLAP-технологии.