2.3 数据仓库的数据组织形式
这里简单介绍数据仓库中常见的数据组织形式:
1. 简单堆积文件: 它将每日由数据库中提取并加工的数据逐天积累并存储起来。
2. 轮转综合文件: 数据存储单位被分为日、周、月、年等几个级别。在一个星期的七天中,数据被逐一记录在每日数据集中;然后,七天的数据被综合并记录在周数据集中;接下去的一个星期,日数据集被重新使用,以记录新数据。同理,周数据集达到五个后,数据再一次被综合并记入月数据集。以此类推。轮转综合结构十分简捷,数据量较简单堆积结构大大减少。当然,它是以损失数据细节为代价的,越久远的数据,细节损失越多。
3. 简化直接文件: 它类似于简单堆积文件,但它是间隔一定时间的数据库快照,比如每隔一星期或一个月作一次。
4. 连续文件: 通过两个连续的简化直接文件,可以生成另一种连续文件,它是通过比较两个简单直接文件的不同而生成的。当然,连续文件同新的简单直接文件也可生成新的连续文件。
对于各种文件结构的最终实现,在关系数据库中仍然要依靠"表"这种最基本的结构。
2.4 数据仓库的数据追加
如何定期向数据仓库追加数据也是一个十分重要的技术。我们知道,数据仓库的数据是 来自OLTP的数据库中,问题是我们如何知道究竟哪些数据是在上一次追加过程之后新生成 的。常用的技术和方法有:
·时标方法: 如果数据含有时标,对新插入或更新的数据记录,在记录中加更新时的时标,那么只需根据时标判断即可。但并非所有的数据库中的数据都含有时标。
·DELTA文件: 它是由应用生成的,记录了应用所改变的所有内容。利用DELTA文件效率 很高,它避免了扫描整个数据库,但同样的问题是生成DELTA文件的应用并不普遍。此外,还有更改应用代码的方法,使得应用在生成新数据时可以自动将其记录下来。但应用成千上万,且修改代码十分繁琐,这种方法很难实现。
·前后映象文件的方法: 在抽取数据前后对数据库各作一次快照,然后比较两幅快照的不同从而确定新数据。它占用大量资源,对性能影响极大,因此并无多大实际意义。
·日志文件: 最可取的技术大概是利用日志文件了,因为它是DB的固有机制,不会影响O LTP的性能。同时,它还具有DELTA文件的优越性质,提取数据只要局限日志文件即可,不用扫描整个数据库。当然,原来日志文件的格式是依据DB系统的要求而确定的,它包含的数据对于数据仓库而言可能有许多冗余。比如,对一个记录的多次更新,日志文件将全部变化过程都记录下来;而对于数据仓库,只需要最终结果。但比较而言,日志文件仍然是最可行的一种选择。
分享到:
相关推荐
传统的数据库技术是以单一的数据资源,即数据库为中心,进行事务处理、批处理、决策分析等各种数据处理工作,主要的划分为两大类:操作型处理和分析型处理(或信息型处理)。 操作型处理也叫事务处理,是指对数据库...
数据仓库技术简介.doc
第5章 数据仓库和技术 96 5.1 管理大量数据 96 5.2 管理多介质 97 5.3 索引/监视数据 97 5.4 多种技术的接口 97 5.5 程序员/设计者对数据存放位置的控制 98 5.6 数据的并行存储/管理 99 5.7 元数据管理 99 5.8 语言...
第5章 数据仓库和技术 96 5.1 管理大量数据 96 5.2 管理多介质 97 5.3 索引/监视数据 97 5.4 多种技术的接口 97 5.5 程序员/设计者对数据存放位置的控制 98 5.6 数据的并行存储/管理 99 5.7 元数据管理 99 5.8 语言...
Teradata 简介 架构设计原理 整体架构说明 ETL
第5章 数据仓库和技术 96 5.1 管理大量数据 96 5.2 管理多介质 97 5.3 索引/监视数据 97 5.4 多种技术的接口 97 5.5 程序员/设计者对数据存放位置的控制 98 5.6 数据的并行存储/管理 99 5.7 元数据...
本文对数据库技术做一个概括性的介绍,并对国内外金融行业数据仓库技术的应用现状做一个简单分析。主要内容: 1. 前言 1 2. 数据仓库概念 1 2.1. DW的提出 1 2.1.1. 需求 1 2.1.2. DW概念的提出 1 2.2. DW的四个特征...
第5章 数据仓库和技术 96 5.1 管理大量数据 96 5.2 管理多介质 97 5.3 索引/监视数据 97 5.4 多种技术的接口 97 5.5 程序员/设计者对数据存放位置的控制 98 5.6 数据的并行存储/管理 99 5.7 元数据管理 99 5.8 语言...
数据仓库技术介绍(PPT 100页).ppt
第5章 数据仓库和技术 96 5.1 管理大量数据 96 5.2 管理多介质 97 5.3 索引/监视数据 97 5.4 多种技术的接口 97 5.5 程序员/设计者对数据存放位置的控制 98 5.6 数据的并行存储/管理 99 5.7 元数据管理 99 5.8 语言...
1.12 监控数据仓库环境 17 1.13 小结 19 第2章 数据仓库环境 20 2.1 数据仓库的结构 22 2.2 面向主题 23 2.3 第1天到第n天的现象 26 2.4 粒度 28 2.4.1 粒度的一个例子 29 2.4.2 粒度的双重级别 31 2.5 ...
数据仓库的设计介绍,理念的描述.数据仓库基本结束,不同分层的介绍。
主要介绍数据仓库的简单描述还有与数据仓库相关技术
技术基础包括数据仓库技术、数据挖掘技术、联机分析技术(OLAP)以及先进的决策支持与报表工具。具体地,在硬件层面,系统采用一台 IBM RS6000M80 小型机分两个 LPAR,一个 LPAR 作为数据存储服务器和 ETL 服务器,...
构建数据仓库: 抽取数据简介 构建数据仓库的ETL (Extraction, Transformation, and Loading)概述 ETL任务, 重点和代价 解释如何去检查数据源 Oracle的ETL流程解决方案 答疑 第二天上午 元数据简介 数据仓库元...
资源名称:点击流数据仓库内容简介:本书解释了构建点击流数据仓库所需要的Web技术和IT基础设施,并对设计、实现点击流数据仓库的整个过程提供全面的指导,包括:计划、人员分工以及管理整个工程;使用创新的元模式...