通常认为ETL就是数据抽取,转换,加载的过程,完全正确.就像数据库就是存储和管理数据的工具一样,然而数据库并不全部是数据的存储,最重要的是管理,即数据的并发性一致性可恢复性管理,包括一系列的进程和内存的管理等等.ETL工具本身也是同样的问题.如果只是抽取转换加载,相信通过PowerBuilder的数据管道技术并加以封装或者一系列的语言工具编码可以做到,并非很难的事情.
之所以思考,是因为阅读了一下<DataStage企业版产品白皮书>,当然也只是粗略的看了一下,其实所有成熟的ETL工具都是相类似的,都是在相互借鉴中不断的完善的结果.
简单的总结一下:
Ø元数据管理,不管通过DBMS进行存储也好,通过XML或者自己的管理系统也好.元数据的管理是必须的,提供了一个可视化的数据字典.
Ø和配置工具的集成,或者内置一个配置库管理工具.
Ø项目化管理和集成环境,统一对系统内的工作流和任务进行管理
Ø任务包中都包含源数据,目标数据的管理,其中也包括关系数据库,平面文件,XML文件,WebService,COBOL等文件的管理
Ø任务包中提供了一系列的排序,转换,合并,连接,过滤,聚合,查找表,复制,分裂,条件分割等等一些通用的数据转换.
Ø数据流架构和流水线即工作流管理,几乎所有的ETL工具都是根据时序进行任务流的处理,这也符合数据仓库的过程化处理要求.其中包括错误处理方式,错误报表,并行处理,时序等待等等.
Ø可伸缩硬件环境支持,最大限度的利用硬件的支持.
Ø并行支持,发挥DBMS的优势,或者通过内置的内存管理进行处理.
不过我有些怀疑ETL的功效,据权威人士统计80%的时间和IO消耗是集中在ETL的抽取和加载环节,而抽取和加载的速度是由DBMS或者其他数据源所决定的,也就是说无论怎么优化,ETL工具的优化也只有20%的余地.有个玩笑:ETL工具执行的效率肯定比不上最好的程序员写的代码的效率,但是起码要比最差的程序员写的代码要强.
也许ETL工具本身就是一个管理的平台,它的意义在于屏蔽底层编码的细节和异构数据源,通过图形化的方式实现数据流程的调度,从而提供开发和管理上的效率,而并非程序执行效率.
分享到:
相关推荐
ETL工具 ,基于Kettle实现的Web版ETL工具,实现简单的数据抓取功能
etl工具箱 中文版etl工具箱 中文版etl工具箱 中文版
ETL工具下载,本人博客有简单操作手册,如有问题请谅解,
ETL工具相关信息整理,包含ETL基本架构,Kettle工具基本使用,常用ETL工具对比等
ETL工具对比分析,good
数据仓库ETL工具箱 Data Warehouse ETL Toolkit
阿里开源ETL工具DATAX
一款纯国产自研核心Java语言开发的ETL工具(非包装开源—Beeload),Beeload所有功能均可图形化配置,无需额外写代码实现,如Kettle中的增量抽取功能需写代码。当下各所院校内部各部门各自为政,需数据共享,信息...
数据仓库ETL工具箱 Data Warehouse ETL Toolkit.rar
ETL工具箱pdf版,ETL必备的一本书,具体介绍了ETL及相关使用方法
北京灵蜂ETL工具 高端系列 BeeDI V10.0 技术白皮书 2021版 涵盖 产品功能:数据转换、数据联邦、数据同步、大数据集成、Kafka消息流、Web交互、文件同步、工作流调度、Web集成、脚本调度、作业调度、远程调度、集群...
中文版 数据仓库ETL工具箱
对当前几大主流etl工具,informatica powercenter,IBM datastage,Business Objects,Cognos,Insight,IBM MetaData Workbench + Metadata server,石竹 MetaOne进行横向的分析比较.
开源ETL工具Kettle的相关文档,详细描述了Kettle的相关信息
Kettle 是一款开源的、元数据驱动的ETL工具集,是开源 ETL 工具里功能比较强大的一个。 Kettle 是”Kettle E.T.T.L. Envirnonment”只取首字母的缩写,这意味着它被设计 用来帮助你实现你的ETTL 需要:抽取、转换、...
ETL工具KETTLE实例手册.手把手教你使用kettle
kettle中文版,一个很好用的etl工具 kettle是几乎全部数据库,数据流可视化操作工具,简单上手,轻松易学
回答:1、ETL 在数数据仓库角色 2、为什么建数据仓库需要ETL工具 3、如何选择ETL工具 4、ETL工具厂商的价值 5、拥有15年以上知名商用ETL工具历程
ETL 工具 设计 很实用,概括程度高。