`
student_lp
  • 浏览: 429469 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

数据仓库简介---组成

阅读更多
   数据仓库的组成部分有:针对数据源的分析、数据的迁移、数据的存储结构、元数据管理等。
  • 数据源分析:业务系统的源数据通常来自企业的内部信息和外部信息。内部信息指来自企业的生产数据和历史归档数据;而企业的生产数据有可能来自于不同的业务系统,如何将这些业务数据进行标准化,转换成数据仓库可以存储的数据,从而保证数据仓库中数据的一致性,这是数据源分析最重要的一步。(归档历史数据一般是指将大量的、不常用的历史数据以在线的方式或者以离线的方式存储在数据库中或者磁带机中,这些历史数据有可能会成为数据仓库系统分析未来趋势和探究根本原因的宝贵财富。外部信息一般包括企业的法律法规、该行业的市场信息和该企业竞争对手的信息,例如该企业竞争对手的市场占有率信息)
  • 数据的迁移部分主要包括数据的抽取、转换和加载3个部分。
  • 数据仓库的存储和管理:它按照主体的形式对业务源数据进行抽取、转换、加载和集成的。在数据仓库中,存储了大量的历史数据,将这些宝贵的历史数据转换成可以分析的、稳定的数据是数据仓库的根本任务和目的。
  • 元数据的管理主要包括技术元数据和业务元数据的管理。
一、数据源分析     
   数据源是数据仓库系统所有信息的源头,主要是操作型业务应用系统存放的数据集合。数据源分析是指对业务数据源中的原始数据进行分析,得到数据的范围、格式,以及其更新方式、更新频率、质量等方面的信息。     
   在分析的过程中,需要确定业务源数据中哪些数据需要被抽取。为了确定合适的抽取方式,需要在抽取之前对数据源进行分析,分析的范围一般包括数据的格式、数据的范围、更新的方式、数据质量的好坏。在分析的过程中,应该尽可能获取分析的结果,形成数据源分析报告,在仔细研究分析报告后,再选择合适的抽取、加载方式。     
   在分析时,应该抛弃实际的应用系统,在逻辑上重新确定目标表中需要哪些业务数据,然后再根据业务系统的实现方式,分析业务源数据的存储格式、更新频率、更新方式和数据质量。     
   可以得出这样的结论:所谓数据源分析,就是对源数据进行分析和总结,得出源数据的范围、格式、更新方式、更新频率和质量好坏的过程。
   数据源分析的过程分为范围分析、格式分析、更新方式分析、质量分析4个方面:
  • 范围分析是指分析数据的范围。用户需要确定数据仓库系统需要数据源中的哪些原始数据。
  • 格式分析是指对原始数据在数据库中的物理存储方式进行分析。内容包括在数据库中的存储类型、存储长度、数据精度等指标。
  • 更新方式分析是指对原始数据在应用系统中的更新方式、更新频率、更新内容进行分析判断。内容包括原始数据何时更新、更新方式、具体更新哪些内容等。
  • 质量分析是指分析业务源数据的质量。主要分析数据完整性、数据准确性、数据一致性等内容。一般步骤包括:设计数据质量定义文档,内容包括数据质量验收的依据,数据质量等级的划分,数据质量检查的流程等内容;再根据数据质量定义文档进行数据质量检查,最终形成质量报告;根据数据质量报告进行深入分析,将分析结果提交给相关人员,协助设计人员完成数据清洗规则的制定。通常,质量分析是数据源分析中最重要、工作量最多的部分。
  • 除以上所述的对数据源进行分析外,还需要对各项指标数据的确切含义,统计口径等信息进行明确的界定,以避免产生二义性。
二、数据迁移
1、数据抽取
  • 数据抽取前需要清楚以下内容:数据源来自于哪几个业务系统,各个业务系统的数据库管理系统分别是什么,是否存在手工录入的情况。
  • 在确定数据抽取方式时,根据不同情况,不同业务源数据的抽取方式可能不相同。在对数据抽取方式进行设计时,首先根据数据抽取的范围,估算出每次抽取的数据量;然后再从实际的业务系统数据库服务器当前的运行情况,ETL服务器与业务系统数据库服务器之间的网络连接情况,客户对数据实时性的要求等方面考虑,选择最合适的抽取方式。
  • 数据抽取可以有两种方式:直接抽取方式、间接抽取方式。
  • 在进行数据抽取时,先明确每个数据表采用何种数据抽取方式。直接抽取方式是指数据抽取过程中直接从业务源数据库到目标库,中间没有经历过任何过渡。但是直接抽取方式必须确定业务系统数据库为ETL过程提供的数据库用户名、授权给该用户访问的表名称,对该用户授权的方式、数据抽取时相关的安全措施等内容。间接抽取方式是指采用文件交换的方式进行数据抽取,需要考虑网络连接、数据库的分布等客观因素。在文件交换的过程中,需要确定文件交换的位置、文件的格式、对文件完整性的检查、文件传输的方式、文件是否传输完毕的标记、文件重新传递的标记等内容。间接抽取方式也称做异步ETL方式
2、数据转换
  • 数据转换的含义是将业务系统内的各种源数据,通过自定义的转换脚本或者其他一些计算方法,将源数据转换成符合数据仓库要求的数据。转换过程包含了对数据不一致性的转换,数据粒度的转换和满足一些计算指标的转换。
  • 如果转换的目标表是针对数据集市中的表,那么当每一个字段确定好转换规则后,需要对同一表中的所有字段进行综合,以SQL语句的方式记录下来。这期间包含了将业务系统数据按照数据仓库粒度进行聚合的过程。对于比较复杂的转换规则,无法在一个SQL语句中完整地表现一个表所有字段的,可以拆分为多个SQL语句。
  • 在这一步,需要形成转换规则文档。内容包括数据集市中的所有字段如何关联到业务系统中的各个字段,以及每个字段的运算转换函数及参数,转换的方法,还包括每个表的SQL转换语句等内容。
3、数据装载
  • 数据经过转换、清洗后,需要装载到目标数据库中。数据装载的方式有多种:全表对比方式、时间戳方式、日志表的方式、全表删除后再插入的方式。

三、数据存储结

   在设计数据存储结构时,需要考虑:存储的时间、存储空间的利用率和数据维护的成本。

四、元数据

   元数据主要包括技术元数据与业务元数据

1、技术元数据

   技术元数据是存储关于商业智能系统技术细节的数据,是用于开发和管理商业智能系统使用的数据。它主要包括以下信息:商业智能系统结构的描述,包括对数据源、数据转换、抽取过程、数据加载策略以及对目标数据库的定义等内容;还包括数据仓库使用模式、视图、维度、层次结构、类别和属性的定义,以及立方体的存储模式等信息。

   总之,技术元数据提供给系统管理人员和数据仓库开发人员使用,管理人员需要了解操作环境到商业智能环境的映射关系(即ETL数据抽取的映射关系),数据的刷新规则,数据的安全性,数据库优化和任务调度等内容。数据仓库开发人员需要了解度量值和维度定义的算法。在实际商业智能开发过程中,业务元数据和技术元数据是相互关联的,对元数据的深刻理解是数据仓库应用和维护的基础。

2、业务元数据

   业务元数据从业务角度描述了商业智能系统中的数据,是介于使用者和真实系统之间的语义层,使得不懂计算机技术的业务人员也能够理解商业智能系统中的数据。业务元数据使用业务名称、定义、描述等信息表示数据仓库中各种属性和概念。业务元数据主要包括以下信息:用户的业务术语和他们表达的数据模型信息、对象名称及其属性,数据的来源信息和数据访问的规则信息,商业智能系统提供的各种分析方法以及报表展示的信息。业务元数据使数据仓库管理人员和用户更好的理解和使用数据仓库,用户通过查看业务元数据可以清晰的理解各指标的含义,指标的计算方法等信息。

   元数据的作用包括:便于商业智能系统的集成和可重用,保证数据仓库数据质量和可维护性,帮助业务人员和技术人员更好的理解当前业务和系统数据,提高商业智能系统的管理效率。

分享到:
评论

相关推荐

    数据仓库-3-数据仓库的基本结构.pdf

    2015/6/3 1 第三章 数据仓库的基本结构 Data Warehouse 2015/6/3 2 一个完整的数据仓库的体系结构一般由三个层次 组成,它们是: 1) 数据源(Data Source) 2) 数据仓库(Data Warehouse) 3) 数据集市(Data Mart)...

    数据仓库,数据仓库入门

    1.12 监控数据仓库环境 17 1.13 小结 19 第2章 数据仓库环境 20 2.1 数据仓库的结构 22 2.2 面向主题 23 2.3 第1天到第n天的现象 26 2.4 粒度 28 2.4.1 粒度的一个例子 29 2.4.2 粒度的双重级别 31 2.5 分割问题 34 ...

    数据仓库与数据挖掘实验报告--.doc

    数据仓库和数据挖掘总结 38 4.1关联规则总结 38 4.2决策树总结 38 4.3聚类分析总结 40 第1章 数据仓库和数据挖掘简介 1.1数据简介 我的数据集是由两个不同的数据库组成,因为做关联规则的时候,影响小学生自控能 力...

    数据仓库设计说明书

    1.12 监控数据仓库环境 17 1.13 小结 19 第2章 数据仓库环境 20 2.1 数据仓库的结构 22 2.2 面向主题 23 2.3 第1天到第n天的现象 26 2.4 粒度 28 2.4.1 粒度的一个例子 29 2.4.2 粒度的双重级别 31 2.5 分割问题 34 ...

    本书论述在设计和建造数据仓库中涉及的所有主要问题,论述分析型环境(决策支持系统环境)以及在这种环境中的数据构造。主要内容包括数据仓库的设计与建造步骤,传统系统到数据仓库的迁移,数据仓库的数据粒度、数据分割、元数据管理、外部数据与非结构化数据,分布式数据仓库、高级管理人员信息系统和数据仓库的设计评审等。

    主要内容包括数据仓库的设计与建造步骤,传统系统到数据仓库的迁移,数据仓库的数据粒度、数据分割、元数据管理、外部数据与非结构化数据,分布式数据仓库、高级管理人员信息系统和数据仓库的设计评审等。...

    数据仓库教程.rar

    8.1 数据仓库中的外部数据/非结构化数据 157 8.2 元数据和外部数据 158 8.3 存储外部数据/非结构化数据 159 8.4 外部数据/非结构化数据的不同 组成部分 160 8.5 建模与外部数据/非结构化数据 160 8.6 ...

    s数据仓库资料数据仓库资料

    主要内容包括数据仓库的设计与建造步骤,传统系统到数据仓库的迁移,数据仓库的数据粒度、数据分割、元数据管理、外部数据与非结构化数据,分布式数据仓库、高级管理人员信息系统和数据仓库的设计评审等。...

    数据仓库简介

    数据仓库 1 目 录 1 1 1 产生背景 2 1 2 定义 3 1 3 特点 4 1 2 1 面向主题 5 1 2 2 集成的 5 1 2 3 相对稳定的 5 1 2 4 反映历史变化 5 1 4 数据库和数据仓库 6 1 5 实现方式 6 1 6 体系结构 7 1 6 1 数据源 7 1 6 ...

    Oracle数据仓库架构

    Oracle的数据仓库系统的逻辑体系架构是由3层组成: 数据获取层:实现如何从所有源系统中获得原始的业务数据,并对其进行一致性处理,按主题进行数据重组和格式转换,然后传送并装载到数据仓库系统中。 数据管理层:...

    大数据仓库与大数据挖掘--决策树实验.doc

    勾选从现有关系数据库或数据仓库,继续下一步 图14 选择定义方法 14. 选择microsoft 决策树,继续下一步 图15 创建数据挖掘模型结构 15. 下一步 图16 选择数据源视图 16. 勾选事例,继续下一步 图17 指定表类型 17....

    数据仓库与数据挖掘实践 高清

    本书系统地介绍了数据仓库和数据挖掘技术,全本由两部分组成,第1章到第3章介绍数据仓库的基本概念和相关技术,第4章到第11章介绍数据挖掘的基本概念和各种算法,包括数据仓库构建、OLAP技术、分类方法、聚类方法、...

    BI-商业智能-数据仓库

    主要内容包括数据仓库的设计与建造步骤,传统系统到数据仓库的迁移,数据仓库的数据粒度、数据分割、元数据管理、外部数据与非结构化数据,分布式数据仓库、高级管理人员信息系统和数据仓库的设计评审等。...

    数据仓库数据仓库组成部分PPT学习教案.pptx

    数据仓库数据仓库组成部分PPT学习教案.pptx

    数据仓库(原书中文第四版)

    学习数据仓库的好书,很经典。 目录: 目录 译者序 审、译者简介 前言 第1章 决策支持系统的发展 1 1.1 演化 1 1.2 直接存取存储设备的产生 2 1.3 个人计算机/第四代编程语言技术 3 1.4 进入抽取程序 3 1.5 蜘蛛网 4...

    数据仓库使用手册

    数据仓库是多维数据库,它扩展了关系数据库模型,以星型架构为主要结构方式的,并在它的基础上,扩展出理论雪花形架构和数据星座等方式,但是不管是哪一种架构,维度表、事实表和事实表中的度量都是必不可少的组成...

    数据仓库数据集市BI数据分析介绍.pptx

    几个相关的概念 广州市品高软件开发有限公司 5 BIBusiness Intelligence,即商业智能,一类由数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其...

    货物发送的数据流程图-业务流程图-可行性分析报告与数据字典.doc

    入库单 简述:经收货处理后发出入库单 数据流来源:收货处理模块 数据流去向:仓库保管员 数据流组成:入库单编号+日期+产品代码+产品名称+产品数量+单价+总金额+单位+经手 人 数据流量:约30张/日 高峰流量:约40张...

    数据仓库(Building+the+Data+Warehouse

    资源简介本书论述在设计和建造数据仓库中涉及的所有主要问题,论述分析型环境(决策支持系统环境)以及在这种环境中的数据构造。主要内容包括数据仓库的设计与建造步骤,传统系统到数据仓库的迁移,数据仓库的数据粒度...

    论文研究-空间数据仓库的概念框架和认知过程.pdf

    其次设计出了空间数据仓库的概念框架,着重描述了空间数据仓库的外部结构、内部结构以及各组成模块的工作流程,设计出了空间数据仓库认知过程的概念框图,并对认知的基本概念进行了描述,表述了认知过程14个世界模型...

    仓库管理系统需求分析

    1)仓库状态信息又分为两个数据表F1-1仓库基本信息文件,F1-2仓库出租信息 文件名:F1-1仓库基本信息 组成:仓库号+容量+型号+是否出租+状态+备注 备注:记录仓库整体的情况,是否被租用 文件名:F1-2仓库出租...

Global site tag (gtag.js) - Google Analytics