原创文章,转载请注明出处:http://qq85609655.iteye.com/blog/2205156
hadoop上要跑Apache Spark作业
使用的ETL工具是Kettle(PDI)
目前能够执行像mapreduce一样执行作业,插件以及demo在附近中

将附件解压

使用Apache Spark最大的原因是基于内存运算速度较快,性能较好,在实际应用中,Hive的使用范围比较广,需要将Hive基于Mapreduce的运算引擎切换为Apache Spark,在Apache Spark安装好后,执行如下命令,启动SparkSQL thrift JDBC/ODBC Server
./sbin/start-thriftserver.sh --master yarn --executor-memory 512m --hiveconf hive.server2.thrift.port=10050
使用Hive Driver JDBC连接SparkSQL和查询数据



相关推荐
2020年2月官方9.0最新版Kettle,百度网盘地址含取件码,可在Linux/Windows/Mac上解压后直接运行。
pentaho kettle PDI 9.2下载
kettle7.1.0新版[ETL工具,可以在Windows、Linux、Unix上运行],kettle 7.1(pdi-ce-7.1.0)安装软件-百度网盘地址
pentaho kettle PDI 9.2下载
Pentaho Data Integration(原名 kettle),业界使用最广泛的企业级开源可视化 ETL 数据清洗系统,特别适合企业数据研究人员、DBA 等,用于企业内部系统间数据集成、搭建数据仓库等,既可处理主流数据库,也能处理...
kettle2019版8.3.0.0-371压缩版本,pdi-ce-8.3.0.0-371.rar 源文件1.05G,超出最大上传文件大小 上传的文件是解压后通过WinRAR重新压缩的,如果不能使用请及时回复
Kettle工具pdi-ce-7.1.0.12最新版百度网盘下载,CSDN上传有大小限制,
共5个(part1/2/3/4/5)分包,全部下载后用命令 “copy /b pdi-ce-8.3.0.0-371.zip.rm1+pdi-ce-8.3.0.0-371.zip.rm2+pdi-ce-8.3.0.0-371.zip.rm3+pdi-ce-8.3.0.0-371.zip.rm4+pdi-ce-8.3.0.0-371.zip.rm5 pdi-ce-8.3...
PDI Kettle 最权威的最佳实践,让你的ETL 开发少走弯路
PDI.zip,PDI,dbg_dbg01_generateInputFile.ktr
2020年2月官方9.0最新版Kettle,百度网盘地址含取件码,可在Linux/Windows/Mac上解压后直接运行。
kettle9.2.0版本
pdi-ce-9.3.0.0-428.zip Kettle
【资源情况】PDF文件大小为113 MB,共487页,清晰度尚可。...【资源介绍】PDI(Kettle)是一种开源的 ETL 解决方案,书中介绍了如何使用PDI来实现数据的剖析、清洗、校验、抽取、转换、加载等各类常见的ETL类工作。
《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》主要介绍如何使用开源ETL工具来完成数据整合工作。 《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》介绍的PDI(Kettle)是一种开源的 ETL 解决方案,...
kettle (PDI) 4.3在以java web start编译时,缺少一些jar包,同时build.xml要做一些修改,具体的编译过程参考我的博客。
kettle故障中断后采用循环方式重试
共5个(part1/2/3/4/5)分包,全部下载后用命令 “copy /b pdi-ce-8.3.0.0-371.zip.rm1+pdi-ce-8.3.0.0-371.zip.rm2+pdi-ce-8.3.0.0-371.zip.rm3+pdi-ce-8.3.0.0-371.zip.rm4+pdi-ce-8.3.0.0-371.zip.rm5 pdi-ce-8.3...
关于Kettle 转换、作业日志自动配置的解决方案