实现ETL过程,一般可以从以下四个方面考虑:
(一)、准备区的运用(ODS)
在构建数据仓库时,如果数据源位于一台服务器上,数据仓库在另一台服务器端,考虑到数据源Server端访问频繁,并且数据量大,需要不断更新,所以可以建立准备区数据库(ODS)。先将数据抽取到准备区中,然后基于准备区中的数据进行处理,这样处理的好处是防止了在原OLTP系统中频繁访问,进行数据运算或聚合等操作。如果系统中存在多种不同类型的数据库系统,ODS可以简化ETL的开发技术。
(二)、时间戳的运用
时间维度对于某一事实主题来说十分重要,因为不同的时间有不同的统计数据信息,那么按照时间记录的信息将发挥很重要的作用。在ETL中,时间戳有其特殊的作用,在上面提到的缓慢变化维度中,我们可以使用时间戳标识维度成员;在记录数据库和数据仓库的操作时,我们也将使用时间戳标识信息。例如:在进行数据抽取时,我们将按照时间戳对OLTP系统中的数据进行抽取,比如在午夜0:00取前一天的数据,我们将按照OLTP系统中的时间戳取GETDATE到GETDATE减一天,这样得到前一天数据。
(三)、日志表的运用
在对数据进行处理时,难免会发生数据处理错误,产生出错信息,那么我们如何获得出错信息并及时修正呢? 方法是我们使用一张或多张Log日志表,将出错信息记录下来,在日志表中我们将记录每次抽取的条数、处理成功的条数、处理失败的条数、处理失败的数据、处理时间等等。这样,当数据发生错误时,我们很容易发现问题所在,然后对出错的数据进行修正或重新处理。
(四)、使用调度
在对数据仓库进行增量更新时必须使用调度,即对事实数据表进行增量更新处理。在使用调度前要考虑到事实数据量,确定需要多长时间更新一次。比如希望按天进行查看,那么我们最好按天进行抽取,如果数据量不大,可以按照月或半年对数据进行更新。如果有缓慢变化维度情况,调度时需要考虑到维度表更新情况,在更新事实数据表之前要先更新维度表。
调度是数据仓库的关键环节,要考虑缜密。在ETL的流程搭建好后,要定期对其运行,所以调度是执行ETL流程的关键步骤。每一次调度除了写入Log日志表的数据处理信息外,还要使用发送Email或报警服务等,这样也方便的技术人员对ETL流程的把握,增强了安全性和数据处理的准确性。
参考http://topic.csdn.net/u/20080318/14/10b3581f-05a0-41e6-a878-e52775c66b73.html
- 浏览: 85308 次
- 性别:
- 来自: 北京
最新评论
-
xyc717:
楼主好牛叉啊
oracle 将查询结果中的一列合并为一个字符串(转)
相关推荐
ETL学习笔记8.1
ETL学习笔记之Kettle下载与部署与使用,安装与操作说明。
Informatica ETL学习笔记 8.1
ETL学习笔记 Kettle基本知识交流
本人学习数据仓库的总结,包括数据仓库和ETL。
ETL课程笔记
数据仓库和ETL学习笔记..docx
数据仓库和ETL学习笔记..doc
ETL工具 ,基于Kettle实现的Web版ETL工具,实现简单的数据抓取功能
BI项目中ETL设计与思考.docx DataStage(ETL)技术总结.docx ETL增量抽取.docx ETL增量抽取方式.docx ETL工具点评.docx ETL常见性能瓶颈.docx ETL构建企业级数据仓库五步法.docx ETL高级教程.docx 三大主流ETL工具选型...
etl学习笔记······················································································
实时数仓实践
1.什么是ETL 2.BI项目中ETL设计与思考 3.DataStage(ETL)技术总结 4.ETL常见性能瓶颈 5.ETL高级教程 6.ETL工具点评 7.ETL构建企业级数据仓库五步法 8.ETL增量抽取 9.ETL增量抽取方式 10.三大主流ETL工具选型 11.商务...
ETL过程中转换功能的设计与实现,车燕京,,通过对现有ETL(Extract、Transformation、Loading)工具的分析与研究,本文提出了一种实现ETL过程中转换功能的解决方案,并对该解决方案进行测
讨论了一种基于异构数据源通用ETL工具的设计方法和实现过程,它能实现异种数据源的数据转换,并将数据装载到中心数据库中,具有一定易用性、灵活性和扩展性。该工具根据索引库来获得目标数据库与源数据库的映射关系...
Kettle是开源的ETL工具,如果您在学习或使用ETL开发,请先从Kettle着手,当然也要从Kettle使用着手,希望本资料给你提供帮助。
常见网站日志生成过程业务详解 企业数据采集方案介绍 Flume拦截器、channel选择器、...ETL实现思路分析 ETL中Driver类的实现 ETL中自定义Key的实现 ETL日志解析类的代码实现 ETL开发Mapper代码开发实现 ETL程序打包测试
ETL详细教程+笔记.zip ETL概念 ETL讲解 数据仓库 ETL开发 ...
基于Hadoop的ETL系统的设计与实现_______.caj