二、数据仓库中的数据组织
数据仓库中数据的四个基本特征在本章§1中已经介绍过了,下面就要分析清楚这些问题:数据仓库存储哪些数据呢?数据如何组织,存储?组织形式有哪些?等等。通过对数据仓库中存放的数据内容及其组织形式的介绍,本节将对这些问题做出回答,以加深对数据仓库数据四个基本特征的理解。
2.1 数据仓库的数据组织结构
一个典型的数据仓库的数据组织结构如图1.2所示:
数据仓库中的数据分为四个级别:早期细节级、当前细节级、轻度综合级、高度综合级。源数据经过综合后,首先进入当前细节级,并根据具体需要进行进一步的综合,从而进入轻度综合级乃至高度综合级,老化的数据将进入早期细节级由此可见,数据仓库中存在着不同的综合级别,一般称之为"粒度"。粒度越大,表示细节程度越低,综合程度越高。
数据仓库中还有一种重要的数据--元数据(metadata)。元数据是"关于数据的数据",如在传统数据库中的数据字典就是一种元数据。在数据仓库环境下,主要有两种元数据:第一种是为了从操作性环境向数据仓库转化而建立的元数据,包含了所有源数据项名、属性及其在数据仓库中的转化;第二种元数据在数据仓库中是用来和终端用户的多维商业模型/前端工具之间建立映射,此种元数据称之为DSS元数据,常用来开发更先进的决策支持工具。
关于元数据,下面的章节还会做进一步的阐述。
图1.2 DW数据组织结构
2.2 粒度与分割
1. 粒度
粒度是数据仓库的重要概念。粒度可以分为两种形式,第一种粒度是对数据仓库中的数据的综合程度高低的一个度量,它既影响数据仓库中的数据量的多少,也影响数据仓库所能回答询问的种类。在数据仓库中,多维粒度是必不可少的。由于数据仓库的主要作用是DSS分析,因而绝大多数查询都基于一定程度的综合数据之上的,只有极少数查询涉及到细节。所以应该将大粒度数据存储于快速设备如磁盘上,小粒度数据存于低速设备如磁带上。
还有一种粒度形式,即样本数据库。它根据给定的采样率从细节数据库中抽取出一个子集。这样样本数据库中的粒度就不是根据综合程度的不同来划分的,而是有采样率的高低来划分,采样粒度不同的样本数据库可以具有相同的数据综合程度。
2. 分割
分割是数据仓库中的另一个重要概念,它的目的同样在于提高效率。它是将数据分散到 各自的物理单元中去,以便能分别独立处理。有许多数据分割的标准可供参考:如日期、地 域、业务领域等等,也可以是其组合。一般而言,分割标准总应包括日期项,它十分自然而且分割均匀。
分享到:
相关推荐
传统的数据库技术是以单一的数据资源,即数据库为中心,进行事务处理、批处理、决策分析等各种数据处理工作,主要的划分为两大类:操作型处理和分析型处理(或信息型处理)。 操作型处理也叫事务处理,是指对数据库...
数据仓库技术简介.doc
6.11 在多种层次上建造数据仓库 134 6.12 多个小组建立当前细节级 136 6.12.1 不同层不同需求 138 6.12.2 其他类型的细节数据 140 6.12.3 元数据 142 6.13 公用细节数据采用多种平台 142 6.14 小结 143 第7章 高级...
本书主要是面向数据仓库的设计、开发和管理人员,以及构造和使用现代信息系统的人员,也适于信息处理方面的高校师生和从事传统数据库系统技术工作的人阅读。 目录 译者序 审、译者简介 前言 第1章 决策支持系统的...
Teradata 简介 架构设计原理 整体架构说明 ETL
3.2. 数据仓库技术架构 4 3.3. 数据仓库数据架构 5 3.4. 数据仓库应用架构 6 4. ETL设计与工具介绍 6 4.1. ETL概念 6 4.2. ETL的模式 6 4.3. ETL任务与任务拆分原则 7 4.4. 业界主流ETL工具简介 7 5. 数据仓库前端...
6.11 在多种层次上建造数据仓库 134 6.12 多个小组建立当前细节级 136 6.12.1 不同层不同需求 138 6.12.2 其他类型的细节数据 140 6.12.3 元数据 142 6.13 公用细节数据采用多种平台 142 6.14 小结 143 ...
1.12 监控数据仓库环境 17 1.13 小结 19 第2章 数据仓库环境 20 2.1 数据仓库的结构 22 2.2 面向主题 23 2.3 第1天到第n天的现象 26 2.4 粒度 28 2.4.1 粒度的一个例子 29 2.4.2 粒度的双重级别 31 2.5 ...
本书主要是面向数据仓库的设计、开发和管理人员,以及构造和使用现代信息系统的人员,也适于信息处理方面的高校师生和从事传统数据库系统技术工作的人阅读。 目录 译者序 审、译者简介 前言 第1章 决策支持系统的...
数据仓库技术介绍(PPT 100页).ppt
6.11 在多种层次上建造数据仓库 134 6.12 多个小组建立当前细节级 136 6.12.1 不同层不同需求 138 6.12.2 其他类型的细节数据 140 6.12.3 元数据 142 6.13 公用细节数据采用多种平台 142 6.14 小结 143 第7章 高级...
数据仓库的设计介绍,理念的描述.数据仓库基本结束,不同分层的介绍。
主要介绍数据仓库的简单描述还有与数据仓库相关技术
技术基础包括数据仓库技术、数据挖掘技术、联机分析技术(OLAP)以及先进的决策支持与报表工具。具体地,在硬件层面,系统采用一台 IBM RS6000M80 小型机分两个 LPAR,一个 LPAR 作为数据存储服务器和 ETL 服务器,...
构建数据仓库: 抽取数据简介 构建数据仓库的ETL (Extraction, Transformation, and Loading)概述 ETL任务, 重点和代价 解释如何去检查数据源 Oracle的ETL流程解决方案 答疑 第二天上午 元数据简介 数据仓库元...
资源名称:点击流数据仓库内容简介:本书解释了构建点击流数据仓库所需要的Web技术和IT基础设施,并对设计、实现点击流数据仓库的整个过程提供全面的指导,包括:计划、人员分工以及管理整个工程;使用创新的元模式...