У вас вопросы?
У нас ответы:) SamZan.net

Тема 4. Базы и хранилища данных 1

Работа добавлена на сайт samzan.net:

Поможем написать учебную работу

Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

от 25%

Подписываем

договор

Выберите тип работы:

Скидка 25% при заказе до 28.12.2024

Тема 4. Базы и хранилища данных

1. Основные этапы проектирования базы данных (БД), логическая и физическая модели данных, трехуровневая архитектура ANSI/SPARC.

2. Модели баз данных (иерархическая, сетевая реляционная и др.).

3. Формализованное описание отношений, ER-диаграмма.

4. Манипулирование данными в реляционной модели, операции реляционной алгебры.

5. Оптимизация схем отношений, нормальные формы, построение рациональной схемы отношений путем нормализации.

6. Язык SQL, типы данных и основные категории команд языка SQL.

7. Проектирование реляционных баз данных с использованием семантических моделей.

8. Основы технологии хранилищ данных (ХД). Транзакционные (OLTP) и аналитические (DSS) системы.

Предисловие: Для того чтобы обеспечить возможность анализа накопленных данных, организации стали создавать хранилища данных, которые представляют собой интегрированные коллекции данных, которые собраны из различных систем оперативного доступа к данным.

Концепция хранилища данных была задумана как технология, способная удовлетворить требования систем поддержки принятия решений и базирующаяся информации, поступающей из нескольких различных источников оперативных данных.

Определение: Хранилище данных - Предметно-ориентированный, интегрированный, привязанный ко времени и неизменяемый набор данных, предназначенный для поддержки  принятия решений.

Хранилища данных становятся основой для построения систем принятия решений. Несмотря на различия в подходах и реализациях, всем хранилищам данных свойственны следующие общие черты:

  1.  Предметная ориентированность. Информация в хранилище данных организована в соответствии с основными аспектами деятельности предприятия (заказчики, продажи, склад и т.п.); это отличает хранилище данных от оперативной БД, где данные организованы в соответствии с процессами (выписка счетов, отгрузка товара и т.п.). Предметная организация данных в хранилище способствует как значительному упрощению анализа, так и повышению скорости выполнения аналитических запросов. Выражается она в использовании иных, чем в оперативных системах, схемах организации данных. В случае хранения данных в реляционной СУБД применяется схема "звезды" (star) или "снежинки" (snowflake). Кроме того, данные могут храниться в специальной многомерной СУБД в n-мерных кубах.
  2.  Интегрированность. Исходные данные извлекаются из оперативных БД, проверяются, очищаются, приводятся к единому виду, в нужной степени агрегируются (то есть вычисляются суммарные показатели) и загружаются в хранилище. Такие интегрированные данные намного проще анализировать.
  3.  Привязка ко времени. Данные в хранилище всегда напрямую связаны с определенным периодом времени. Данные, выбранные из оперативных БД, накапливаются в хранилище в виде "исторических слоев", каждый из которых относится к конкретному периоду времени. Это позволяет анализировать тенденции в развитии бизнеса.
  4.  Неизменяемость. Попав в определенный "исторический слой" хранилища данные уже никогда не будут изменены. Это также отличает хранилище от оперативной БД, в которой данные все время меняются, "дышат", и один и тот же запрос, выполненный дважды с интервалом в 10 минут, может дать разные результаты. Стабильность данных также облегчает их анализ.

ХД - базовая технология современных СППР.

Перечисленные технологии не являются взаимонезависимыми и используются совместно, дополняя друг друга специфическими функциями.

Предпосылки создания ХД: При обработке информации  (финансовой, бухгалтерской, банковской, маркетинговой и др.) традиционным является разделение существующих задач на два широких класса:

  1.  №1 операционная обработка данных
  2.  №2 анализ данных или задача принятия решений (ППР).
  3.  Они принципиально различны, требуют разных подходов к своему решению, но при этом взаимно дополняют друг друга.
  4.  Разные виды обработки данных требуют разного подхода к хранению и представлению данных

№1. Операционная обработка данных и транзакционные системы

Определение: Транзакционные Системы (ТС) - системы или части информационных систем, ориентированные на операционную (системы операционной обработки данных), или транзакционную обработку данных;
(ПРОИЗВОДЯТ КУЧУ МУСОРА-ДАННЫХ)

Определение: Транзакция – логически целостная операция по обработке данных,  обеспечивающаяся последовательностью взаимно обусловленных (логически связанных) простых операций с данными. В базе данных транзакция предполагает цепочку логически связанных изменений данных (обработка информации или происходит, т.е. вся последовательность операций выполнена), или не происходит (любая из последовательности операции выполнена быть не может). Во втором случае состояние базы данных возвращается к исходному состоянию).
Примеры: Учетные системы часто выполняют подобные цепочки операций, поэтому их часто называют транзакционными.

К этому классу относятся любые автоматизированные бухгалтерские или банковские системы, которые осуществляют учет и хранение первичной информации по работе предприятия или банка: операция перевода денежных средств с одного счета на другой предполагает согласованное изменение данных одного счета и второго. Операция состоит из двух элементарных – уменьшить значение одного счета и увеличить значение другого.

OLTP: Системы обработки транзакций в реальном времени называются On-line Transaction Processing Systems (OLTP).

Для чего нужны: Системы OLTP предназначены для автоматизации повседневных задач, решаемых персоналом «нижнего» звена финансовых органов, банков  или других учреждений (учет платежей в бюджет, учет расходов бюджета, клиентов, договоров, заказов, взаиморасчетов, запасов и пр.). Типичным примером OLTP – систем является «1С-Бухгалтерия».

Что делают: OLTP системы производят "горы" информации и соответственно оптимизированы на обработку больших объемов данных, выполнение сложных транзакций и интенсивных операций чтения/записи небольших порций данных.

№2. Задача  анализа данных или задача принятия решений

Решением задач этого вида занимаются Аналитические системы.

Определение: Аналитические Системы (АС) - системы или составляющие части информационных систем, ориентированные на анализ данных. Их часто называют системами поддержки принятия решений (СППР).

Определение: Это совокупность интеллектуальных информационных приложений и инструментальных средств, которые используются для манипулирования данными, их анализа и предоставления результатов такого анализа конечному пользователю.

ХД – большая «куча мусора», в которой ищутся модели закономерностей инструментами BI (Business intelligence).

Для чего нужны: Основная цель - помочь управляющему персоналу организации принять правильное и своевременное решение (в зарубежной литературе им соответствует термин DSS - Decision Support System).

Требования к информации для AС:

  1.  Информация, на основе которой принимается решение, должна быть достоверной, полной, непротиворечивой и адекватной.
  2.  Поэтому при проектировании СППР возникает вопрос о том, на основе каких данных эта система будет работать и в каком виде данные необходимо представить лицу принимающему решение (ЛПР).

9. Логические и физические модели данных ХД для аналитических информационных систем.

Логическая модель

  1.  «Многомерный куб» (гиперкуб) dimensional

Физическая модель

  1.  «Звезда»
  2.  «Снежинка»

Физическая модель:

Одним из направлений  развития РБД для  систем принятия решений является разработка таблиц с денормализованной  структурой (схемы «звезда» и «снежинка»).
Структура такой базы данных не будет чисто реляционной - это будет пространственная база данных, построенная с целью анализа данных, а не оптимизации выполнения транзакций и занимаемого места на носителях данных.

Звезда: В многомерном моделировании существует стандарт физической модели, называемый схемой звезда (star schema), которая обеспечивает высокую скорость выполнения запроса посредством денормализации и разделения данных.
Схема звезда строится так, чтобы обеспечить наивысшую производительность при выполнении одного самого важного запроса, либо для группы похожих запросов.

Схема звезда обычно содержит одну большую таблицу, называемую таблицей фактов (fact table), помещенную в центр, и окружающие ее меньшие таблицы, называемые таблицами размерности (dimensional table), соединенные с таблицей факта в виде звезды радиальными связями. В этих связях таблицы размерности являются родительскими, таблица факта - дочерней.
Схема звезда может иметь также консольные таблицы (outrigger table), присоединенные к таблице размерности. Консольные таблицы являются родительскими, таблицы размерности - дочерними.

Таблица фактов и таблицы размерности связаны идентифицирующими связями, при этом первичные ключи таблицы размерности мигрируют в таблицу факта в качестве внешних ключей. Таблица фактов, как правило, содержит уникальный составной ключ, объединяющий первичные ключи таблиц измерений. Таблицы измерений содержат неизменяемые либо редко изменяемые данные (типа справочник).

Снежинка: Если хотя бы одно измерение содержится в нескольких связанных таблицах, такая схема хранилища данных носит название «снежинка» (snowflake schema).
Дополнительные таблицы измерений в такой схеме, обычно соответствующие верхним уровням иерархии измерения и находящиеся в соотношении «один ко многим» в главной таблице измерений, соответствующей нижнему уровню иерархии, иногда называют консольными таблицами (outrigger table).

Консольные таблицы могут быть связаны только таблицами размерности, причем консольная таблица в этой связи родительская, а таблица размерности - дочерняя. Связь может быть идентифицирующей или неидентифицирующей.

Консольная таблица не может быть связана таблицей факта. Она используется для нормализации данных в таблицах размерности.

Нормализация данных полезна при моделировании реляционной структуры, но она уменьшает эффективность выполнения запросов к хранилищу данных. В размерной модели главной целью является обеспечение высокой эффективности просмотра данных и выполнения сложных запросов.

Схема снежинка обычно препятствует эффективности, потому что требует объединения многих таблиц для построения результирующего набора данных, что увеличивает время выполнения запроса. Поэтому при проектировании не следует злоупотреблять созданием множества консольных таблиц.

Гиперкуб:

  1.  Моделирование Dimensional сходно с моделированием связей и сущностей для реляционной модели, но отличаются целями.
  2.  Реляционная модель акцентируется на целостности и эффективности ввода данных.
  3.  Многомерная (Dimensional) модель ориентирована в первую очередь на выполнение сложных аналитических  запросов к БД.

Определение: Гиперкуб OLAP - это структура, в которой хранятся совокупности данных, полученные из базы данных OLAP путем всех возможных сочетаний значений измерений с фактами в таблице фактов. Исходя из этого, создание окончательного отчета выполняется гораздо эффективнее, поскольку не требует выполнения никакого сложного запроса.

В многомерной модели  измерения (dimensions) соответствуют  осям куба, а анализируемые переменные(меры) (measures) или показатели – индивидуальным ячейкам куба.
Многомерная модель позволяет делать плоские срезы куба данных и поворачивать  его нужной гранью любым удобным нам образом.
Используя многомерную модель, аналитик может легко получить представление данных в соответствии с собственными интересами.

Основные составляющие логической модели «Многомерный гиперкуб»

Данные, в гиперкубе, можно поделить на четыре категории:

  1.  меры,
  2.  измерения,
  3.  атрибуты,  
  4.  иерархии (эти типы данных помогают определить логическую структуру витрины данных).

Мера (факты) — это численное значение (числовой показатель), выражающее определенный аспект деятельности организации и , используемые в базовой и возвратной информации, поэтому таблицы, содержащие данные мер, называются таблицами фактов.

Показатель - это величина (обычно числового типа), которая собственно и является предметом анализа (информация, представляемая этим значением, используется для принятия решения или оценки эффективности работы организации).

Ячейка (cell) - атомарная структура куба, соответствующая конкретному значению некоторого показателя.

Измерение (dimension) — это способ ранжирования данных, используемый для разделения агрегированных мер на составляющие их части.

Измерения позволяют ранжировать агрегированную меру. Ранжирование дает возможность видеть составные элементы агрегированных мер. Например, меру «общая сумма продаж» можно разделить на суммы продаж за каждый год, месяцы, дни.

Измерение (dimension) - это множество объектов одного или нескольких типов, организованных в виде иерархической структуры и обеспечивающих информационный контекст числового показателя. Измерение принято визуализировать в виде ребра многомерного куба.

Измерения играют роль индексов, используемых для идентификации значений показателей, находящихся в ячейках гиперкуба.

Атрибут (attribute) — это дополнительный элемент информации, относящийся к измерению и не являющийся при этом уникальным идентификатором или описанием этого измерения.

Атрибуты также служат для хранения информации, которая может применяться для ограничения или фильтрации записей, выбираемых из витрины данных в ходе анализа данных. Атрибуты хранятся в дополнительных столбцах таблиц измерений.

Иерархии необходимы для определения порядка и возможности агрегации и детализации значений показателей. Иерархии применяются для организаций измерений в многоуровневые структуры.

Если меры определяют что хотят видеть аналитики, то измерения и иерархии определяют, как они это хотят видеть.

Существуют следующие типы иерархий:

  1.  Сбалансированные (balanced);
  2.  Несбалансированные (unbalanced);
  3.  Неровные (balanced).

Архитектуры OLAP (отличаются  методами хранения кубов данных)

  1.  многомерный OLAP-формат
    (
    Multi-dimensional OLAP - MOLAP);
  2.  реляционный OLAP-формат
    (Relational OLAP - ROLAP);
  3.  гибридный OLAP-формат
    (Hybrid OLAP - HOLAP).

MOLAP является многомерным форматом хранения данных, который отличается высоким быстродействием. Помимо поддержки OLAP самих кубов данных при выборе данного формата данные будут храниться в многомерных структурах на OLAP-сервере (OLAP-структуры).

MOLAP обеспечивает наилучшее быстродействие выполнения запросов, поскольку этот формат специально оптимизирован для многомерных запросов к данным.

ROLAP. Реляционные хранилища OLAP содержат данные, передаваемые в кубы данных, вместе с агрегациями данных куба, причем данные хранятся в реляционных таблицах, размещенных в реляционном ХД.

HOLAP. Гибридная архитектура, которая объединяет технологии ROLAP и MOLAP. Серверы HOLAP применяют подход ROLAP для разреженных областей многомерного пространства и подход MOLAP — для плотных областей.

Серверы HOLAP разделяют запрос на несколько подзапросов, направляют их к соответствующим фрагментам данных, комбинируют результаты, а затем предоставляют результат пользователю.

10. Программные средства реализации OLAP систем и их использование при построении аналитических информационных систем.

В настоящее время на рынке представлено большое количество OLAP-систем, производимых разными фирмами:

  1.  Oracle Express 6.3,
  2.  SQL Server 2005 Microsoft Analysis Services ,
  3.  Cognos PowerPlay 6.6,
  4.  Cristal Analysis Holos 8.5,
  5.  Speedware Media,
  6.  Applix iTM1 7,
  7.  Hyperion Essbase 6.1 и т.д.

SQL 2005 – компоненты:

  1.  реляционная база данных (Relation Database) - безопасное, надежное, масштабируемое высокодоступное ядро с улучшенной производительностью, позволяющее работать как со структурированными, так и с неструктурированными (XML) данными, а также обеспечивающее поддержку .NET CLR (создание хранимых процедур, функций и триггеров на управляемом коде) и ADO;
  2.  сервисы репликаций (Replication Services) - репликация данных для распределенных и мобильных приложений обработки информации, высокая доступность систем, масштабируемый параллелизм со вторичными хранилищами для отчетных решений предприятия и интеграция с разнородными системами, включая существующие базы данных Oracle;
  3.  сервисы нотификаций (Notification Services) - развитые возможности уведомлений для разработки и внедрения масштабируемых приложений, способных доставлять своевременные персонализированные обновления информации множеству соединенных и мобильных устройств;
  4.  сервисы интеграции (Integration Services) - возможности извлечения, преобразования и загрузки информации для хранилищ данных и интеграции данных в масштабе предприятия;
  5.  аналитические сервисы (Analysis Services) - аналитическая обработка в реальном времени (OLAP) для быстрого и сложного анализа больших и смешанных наборов данных, при которой используется многомерное хранение кубов, и решение задач Data Mining (извлечение знаний);
  6.  сервисы отчетов (Reporting Services) - исчерпывающее решение для управления как традиционными бумажными, так и интерактивными отчетами, основанными на Web-технологиях, а также для их создания и доставки;
  7.  инструменты управления - SQL Server включает средства управления для настройки баз данных и развитого управления ими, обеспечивает тесную интеграцию с такими инструментами, как Microsoft Operations Manager (MOM) и Microsoft Systems Management Server (SMS). Стандартные протоколы доступа к данным существенно уменьшают время, необходимое для интеграции SQL Server с существующими системами. В дополнение встроена поддержка Web-служб для обеспечения взаимодействия с другими приложениями и платформами;
  8.  инструменты разработки - SQL Server предлагает интегрированные инструменты разработки для ядра базы данных, извлечения, трансформации и загрузки данных, извлечения информации, OLAP и отчетности, которые тесно интегрированы с Microsoft Visual Studio для предоставления сквозных возможностей разработки приложений.

В комплекс средств интеллектуальной обработки данных SQL Server 2005 : 

  1.  Integration Services, Analysis Services OLAP, Analysis Services Data Mining и Reporting Services
  2.  Кроме того, в SQL Server 2005 добавлены два новых средства разработки и управления: SQL Server Management Studio и SQL Server Business Intelligence Development Studio, простроенных на базе интегрированной среды Visual Studio 2005 IDE.
  3.  Пакету BI Development Studio отводится основная роль в создании BI-решений, он полностью реализует функциональность возможности администрирования реляционных и многомерных баз данных, добавляя к ней возможности загрузки и преобразования информации, управления отчетами и извлечения знаний.
  4.  В его среде можно создавать и другие проекты Visual Studio (с использованием Visual C#, Visual Basic NET и т. д.), что позволит разработчикам создавать действительно сквозные приложения.




1. тема закономерно развивается переходя от равновесного состояния к неравновесному и т
2. тематикалы~ диктант
3. а для каждой точки АТ отображение А-ТV определяется по закону АВ АВ является биекцией [иньективно- В] если
4. Права и обязанности аудиторских организаций
5. Основные проблемы законодательной регламентации организации и проведения публичных мероприятий в Росси
6. Автоматизация системы учета товаров в торговле
7. Проверка состояния внутреннего контроля в организации
8. то отважилось предпринять действия против зла охватившего Балканы
9. ТЕМА- МИРОВЫЕ РЕЛИГИИ
10. Реферат- Ларинготрахеобронхит
11. 042008 15-27 Проблема захисту людини від небезпеки у різних умовах її перебування виникла одночасно із появою
12. а МОБУ СОШ с
13. РЕФЕРАТ дисертації на здобуття наукового ступеня кандидата медичних наук Хар
14. Исследование линейных систем
15. Театральная
16. Дмитрий Дмитриевич Шостакович
17. Тема- Облицовочные работы Вопросы- 1.
18. реферат дисертації на здобуття наукового ступеня доктора медичних наук Одеса ~
19. Вариант 1 ЧАСТЬ А А1 Характеристика какого из социальных институтов приводится ниже- В рамках данно
20.  Промышленный переворот в Англии4 1