`
housen1987
  • 浏览: 340390 次
  • 性别: Icon_minigender_1
  • 来自: 长沙
社区版块
存档分类
最新评论

数据仓库

阅读更多

企业常见的数据处理工作:


  • OLTP(On-line Transaction Processing,联机事务处理)

传统的关系型数据库的主要应用。

  • OLAP(On-line Analysical Processing,联机分析处理)

数据仓库的主要应用,支持复杂的分析操作,侧重决策支持,提供直观易懂的查询结果。

 

1 OLAP

OLTP是传统关系型数据库的重要应用,主要是日常的事务处理,如银行交易、电信计费、民航订票等,对相应时间要求比较高,强调的是密集数据更新处理的性能和系统的可靠性以及效率。OLTP用短小或中等复杂程度的查询语句,读取或修改数据库中比较小的部分,数据访问方式是小的随机磁盘访问。

OLTP是事件驱动、面向应用的。

基本特点:


  • 对相应时间要求高
  • 用户数据量庞大,主要是操作人员
  • 各种操作基于索引
  • 对数据库的事务已预先定义,查询简单,一般不涉及多表操作。


OLAP使得数据分析人员能够从多角度对数据进行快速、一致、交互地存取,从而获得对数据更深入的了解。OLAP的目标是满足决策支持或在多维环境下特定的查询和报表需求。


OLTP OLAP
用户 操作人员,低层管理人员 决策人员,高级管理人员
功能 日常操作处理 分析决策
DB设计 面向应用 面向主题
数据 当前的,最新细节的,二维分布的 历史的,聚集的,多维集成的,统一的
存取 读写数十条记录 读上百万记录
主要工作 简单的事务处理 复杂的查询
用户数 上千 百位以下
DB大小 100MB-GB 100GB-PB


OLAP的技术核心是“维”的概念。

维是人们观察客观世界的角度,是一种高层次的类型划分。

维一般包含着层次关系,通过把一个实体的多项重要的属性定义为多个维,使用户能对不同维上的数据进行比较。

OLAP是多维数据分析工具的集合。

OLAP的基本多维分析操作:

  • 钻取:改变维的层次,变换分析的粒度,包括向上钻取和向下钻取。向上钻取是在某一维上将低层次的细节数据概括到高层次的汇总数据,或减少维数。向下钻取是从汇总数据深入到细节数据进行观察或增加新维度。
  • 切片和切块:在一部分维度上选定值后,关心度量数据在剩余维度上的分布,如果剩余维度为2个,则为切片,3个或3个以上为切块。
  • 旋转:变换维度的方向,如行列互换。
OLAP的实现方式:
  • ROLAP(Relational OLAP):以关系数据库为核心,以关系型结构进行多维数据的表示和存储。ROLAP将多维数据库的多维结构划分成2类表:事实表(用来存储数据和维度关键字),维度表(对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息)。维度表和事实表通过主外关键字结合,形成星型模型,对于层次复杂的维度,为了避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模型的扩展成为“雪花模型”。灵活性好。
  • MOLAP(Multidimensional OLAP):以多维数据库组织方式为核心,MOLAP使用多维数组存储数据,多维数据在存储中将形成立方块(Cube)的结构,在MOLAP中对立方体的旋转、切块、切片等式产生多维数据报表的主要技术。(IBM收购的Cognos系列产品就是典型的MOLAP)。响应速度快。
  • HOLAP(Hybrid OLAP):低层是关系型的,高层是多维矩阵型的或者反之。这种方式具有更好的灵活性。

OLAP工具是针对特定问题的联机数据访问和分析,通过多维的方式对数据进行分析、查询和报表。多维分析是指以多维形式组织起来的数据采取切片、切块、钻取、旋转等分析操作,以求剖析数据,使用户从多角度、多侧面观察数据库中的数据,从而深入理解包含在数据中的信息。

 

2 数据仓库的概念


数据仓库(Data Warehouse)是一个面向主题的、集成的、相对稳定的、且随时间变化的数据集合,用于支持管理决策。

数据仓库特征:


  • 面向主题:操作型数据库组织面向事务处理任务(面向应用),各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点,一个主题通常与多个操作型信息系统相关。例如一个保险公司所进行的事务处理(应用问题)可能包括汽车保险、人寿保险、健康保险等,而公司的主要主题范围可能事顾客、保险单、保险费和索赔等。
  • 集成的:最重要的特征。
  • 相对稳定的(非易失的)。操作型数据库中的数据更新频度快。数据仓库的数据主要供企业决策分析所用,所涉及的数据操作主要是数据查询。通常只需要定期加载、刷新。
  • 随时间变化。数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时间点到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。


数据仓库反映历史变化的属性表现在:

 

  1. 数据仓库中的数据时间期限要远远长于传统操作型数据系统中的数据时间期限,传统操作型数据系统中的数据时间期限可能为数十天或数个月,数据仓库中的数据时间期限可能为数年甚至几十年。
  2. 传统操作型数据系统中的数据含有“当前值”的数据,而数据仓库中的数据仅仅是一系列某一时刻生成的复杂的快照。
  3. 传统操作型数据系统中可能包含时间元素,如年、月、日等,而数据仓库中一定包含时间元素。

数据仓库分类:

 

  • 企业仓库:收集跨越整个企业的各个主题的所有信息,提供全企业范围的数据集成,数据通常来自多个操作型数据库和外部信息提供者,并且是跨多个功能范围的,通常包含详细数据和汇总数据。
  • 数据集市:对特定用户有用的,企业范围数据的一个子集,范围限定为选定的主题。
  • 虚拟仓库:操作型数据库上视图的集合。

数据聚集和立方:

数据仓库中多维的交点就是数据仓库用户要观察的事务。

聚集是指按照维度粒度、指标和计算元的不同,依据实际分析需要对底层数据进行记录行压缩、表连接、属性合并等预处理,是对底层的详细数据进行相应的统计的数据加工形式,包括求和、求平均值等。


聚集计算的结果是根据用户可能的查询预先计算好的汇总数据。汇总可以沿着数据仓库中的多维数据的任何一维或多维进行。给定维度集合的所有方体形成的方体格成为该维集合的数据立方(data cube)。数据立方的建立是通过聚集实现的。数据仓库中的立方也成为多维立方,数据立方的维数超过3时成为超立方体或超维数聚集。


数据聚集用于提升数据仓库系统进行OLAP时的性能。通过在问题提出之前就准备好答案来缩短查询相应时间,是OLAP技术能够快速相应的基础。聚集降低了直接访问基础数据对前段应用的影响,减少了对基础数据的重复计算,使用聚集可以在一定程度上保证数据一致性。


数据仓库的结构


数据仓库系统要包含数据源、数据准备区、数据仓库数据库、数据集市/知识挖掘库以及各种管理工具和应用工具。

数据仓库建立后,首先要从数据源中抽取相关的数据到数据准备区,在数据准备区中经过净化处理后再加载到数据仓库数据库,最后根据用户的需求将数据导入数据集市和知识挖掘库中。当用户使用数据仓库时,可以利用OLAP在内的多种数据仓库应用工具向数据集市/知识挖掘库或者数据仓库进行决策查询分析或知识挖掘。数据仓库的创建、应用可以利用各种数据仓库管理工具辅助完成。

  • 数据仓库的参考框架

数据仓库的参考框架由数据仓库基本功能层、数据仓库管理层和数据仓库环境支持层组成。

(1)数据仓库基本功能层。包含数据源、数据准备区、数据仓库结构、数据集市或知识挖掘库,以及存储和使用部分。本层的功能是从数据源抽取数据,对所抽取的数据进行筛选、清理,将处理过的数据导入或者加载到数据仓库中,根据用户的需求设立数据集市,完成数据仓库的复杂查询、决策分析和知识的挖掘等。

 

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics