开源ETL工具和商业ETL工具比较(译文)
http://hackfisher.info/blog/2011/07/open-source-etl-compare-commencial-etl-tool-translate/
因为我对开源ETL工具也不太了解,正好最近再做这方面的研究,发现了这篇文章概括的还蛮仔细,就翻译过来了,能对现有的开源ETL工具有个初步了解。因为文章好像是08年的,可能已经过时了,以为已经过去快3年了,世事发展变化很快。
——————————————
——————————————
开源ETL工具和商业ETL工具比较
作者:jonathanlevin
译者:Yangtsefisher
原文地址:http://www.jonathanlevin.co.uk/2008/03/open-source-etl-tools-vs-commerical-etl.html
发表日期:2008年
最近,公司要求我用一个开源ETL工具来代替商业的数据整合工具,Informatica PowerCente
r的案例。所以我尽我最大的努力,做了很多研究,并且假设我既没有用过开源工具,也没有用过商业工具。
我找到了很多 Pentaho Kettle 和 Talend之间比较的信息,这是我本来打算研究的两个开源工具。现在,我打算简短的比较一下它们的优劣。声明一下,这些比较是基于我在网上的研究,而非我使用这些工具的经验(事实上,我也没有用过)。
Pentaho Kettle vs Talend
Pentaho
Pentaho是一个商业开源的BI套件,有一个数据整合的产品叫做Kettle。
它创新的采用了元驱动的方法,并且拥有一个很强和很好用的GUI。
这个公司开始于2001年(2002左右Kettle被整合进去)。
它有一个13,500注册用户的强大社区。
它有一个独立的Java引擎来运行处理不同数据库和文件之间数据转换的作业和任务。
它可以调度任务(需要一个像cron的调度器)。
它可以运行部署在其他机器上“slave servers”的远程任务。
它拥有数据质量特征: 在它的GUI上,可以写自定义的SQL查询,JavaScript,和正则表达式。
Talend
Talend是一个开源的数据整合工具(不是BI套件)。
它使用代码生成的方法。有一个GUI,但是在Eclipse RC里面。
它开始于2006年10月。
它有一个比Pentaho小得多的社区,但是有两个金融公司支持。
它生成可以在你服务器上运行的Java和Perl代码。
它可以调度任务(需要一个像cron的调度器)。
数据质量特征:界面上可以写自定义的SQL查询和Java。
比较
- (就我的理解)
Pentaho比Talend更快(两倍也许)。
Pentaho的GUI比Talend的GUI更容易,所以可以花更少的时间学习。
印象
Pentaho的GUI更易用一些。
Talend更像是给那些已经用Java写程序的人,希望可以通过一个工具自动给他们生成代码,从而节省很多时间。
假设Pentaho 晋级下一轮...
Pentaho Kettle vs Informatica
Informatica
Informatica是一个非常优秀的数据整合商业套件。
成立于1993年。
它是分享市场的领导者(Gartner 数据来源)。
它有2600多个客户。其中有财富100强,道琼斯上市公司和政府部门。
公司的核心业务就是数据整合。
它用一个非常大的包,整合进企业的系统,清洗他们的数据,并且可以连接到相当多当前的和传统的系统。
它非常贵,需要对你的雇员进行培训后才能使用,甚至有时需要请咨询(听说Informatica的咨询顾问薪资很高)。
它非常的快,并且可以适应大规模的系统。它有一个采用了ELT方法的"下推优化
",使用数据库来做转化操作,比如Oracle仓库构建。
比较
Pentaho的Javascipt在写数据整合任务的时候非常强大。
Informatica有很多的企业级特性,比如数据库之间的负载均衡。
Pentaho的界面相较于Informatica来说需要的培训要少很多。
Penatho不需要像Informatica那样大的前期投入。
Informatica比Pentaho更快。Informatica有下推优化,但是如果对Pentaho做一些调整,并且有更多对数据库的了解,你可以改进Pentaho的速度。
你可以在许多不同的服务器上部署Pentaho(只要你愿意,免费的),把它当作一个个集群。
Informatic比Pentaho有好的多的监控工具。
印象
Infomatica真的是一个非常好的企业级ETL套件,但是非常大且昂贵。
如果你的系统足够小,我更愿意尝试Pentaho,并且有很多大公司使用Pentaho的案例(一个机场,一个医院)。
结论
我觉得matt casters
有一句话说的好:
开源软件的潮流正在慢慢冲走专有软件的空间。
如果你想补充(或更正)我在这里写的内容,就尽管做吧,因为我自己仍然在试图理解这些产品。
你的观点是有价值的。
谢谢阅读。
Published:
July
07
2011
分享到:
相关推荐
阿里开源ETL工具DATAX
PDI构建开源ETL解决方案_.pdf、开源ETL工具-PentahoKettle使用入门.pdf
ETL工具下载,本人博客有简单操作手册,如有问题请谅解,
开源ETL工具Kettle的相关文档,详细描述了Kettle的相关信息
《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》主要介绍如何使用开源ETL工具来完成数据整合工作。 《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》介绍的PDI(Kettle)是一种开源的 ETL 解决方案...
解决方案:使用PDI构建开源ETL解决方案-460页.pdf
《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》主要介绍如何使用开源ETL工具来完成数据整合工作。 《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》介绍的PDI(Kettle)是一种开源的 ETL 解决方案,...
Kettle解决方案:使用PDI构建开源ETL解决方案 kettle介绍,使用,内容完善,是哥非常不错的内容
《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》主要介绍如何使用开源ETL工具来完成数据整合工作。 《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》介绍的PDI(Kettle)是一种开源的 ETL 解决方案,...
开源ETL工具kettle系列之常见问题开源ETL工具kettle系列之常见问题开源ETL工具kettle系列之常见问题
解决方案:使用PDI构建开源ETL解决方案源码示例,书中PDI示例和SQL
Kettle 是一款开源的、元数据驱动的ETL工具集,是开源 ETL 工具里功能比较强大的一个。 Kettle 是”Kettle E.T.T.L. Envirnonment”只取首字母的缩写,这意味着它被设计 用来帮助你实现你的ETTL 需要:抽取、转换、...
开源ETL工具-kettle API 使用手册 下载,帮助您了解kettle
ETL工具Kettle用户手册5.0,开源etl工具kettle,Java源码.zip
解决方案:使用PDI构建开源ETL解决方案.pdf 完整中文版,带目录,460页
开源ETL工具-PentahoKettle使用入门
《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》介绍的PDI(Kettle)是一种开源的 ETL 解决方案,书中介绍了如何使用PDI来实现数据的剖析、清洗、校验、抽取、转换、加载等各类常见的ETL类工作。 除了ODS/DW...
《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》主要介绍如何使用开源ETL工具来完成数据整合工作。 《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》介绍的PDI(Kettle)是一种开源的 ETL 解决方案,...