在kettle常常有处理从一个源数据中做转换.做转换的时候, 需要去查另一个数据库.
这种问题遇到数据小时候还好办. 但是数据魇 时候就麻烦来了.
下面针对三种情况做具体情况的选择办法
先上一个图
[img]
[/img]
1. 当需要转换的数据特别大的时候, 例如: 10W条以上.或者100W条以上时.
上图中,hadoop数据导入,导入的数据如果够多,例如100W条以上,其中一个字段需要查询数据库中查询,而这个字段的类型并不多,例如只有10个类型或者数据库中就只有这10个类型.那么,可以走线路2, 并且线路2中的 "使用缓存" 可以打勾,也可以不打.当然你这个源里的数据太多,打上当然最好了.因为省得再去你的数据库里再查.
但是当源里的数据类型还是只有10个类型,但是你的数据库里面存了有10000条记录时,怎么办?
有两种解决办法:
1).线路2:并且查询节点中的 "使用缓存" 不能打勾.
2).线路1,并在"带条件的结果查询供流查询使用" 这个结点中,用一个SQL,过滤一下数据,然后尽可能地把那里包括的这些记录查出来.这样在流里的比对时.也很快很多.必竟是在内存里做运算了
2. 查另一个数据库的数据量大时,而你的源数据不大.
最好的选择是
线路1,并在"带条件的结果查询供流查询使用" 这个结点中,用一个SQL,过滤一下数据,然后尽可能地把那里包括的这些记录查出来.这样在流里的比对时.也很快很多.必竟是在内存里做运算了
3. 当两个数据源都非常大时(最不想遇到的)
这种情况是最不想遇到的办法
一种选择:
1).线路2中的 "使用缓存" 打勾.
当然还有别的更复杂但是会更快的办法.适用场景比较少,不再详细写了.
- 大小: 30.3 KB
分享到:
相关推荐
利用kettle实现动态计算当前页码以及总页数,循环抽取大数据级数据到目标数据库中;
基于Kettle+Clickhouse+Superset构建亿级大数据实时数据分析平台视频教程,该系统以热门的互联网电商实际业务应用场景为案例讲解,对电商数据的常见实战指标处理使用kettle等工具进行了详尽讲解,具体指标包括:流量...
尚硅谷Kettle笔记
学习kettle的小伙伴可以去看看,有相关介绍和详细的操作步骤
本课件只要是帮助想要学习大数据技术的同学了解数据处理的方法,重点针对kettle数据处理进行学习。
大数据ETL工具 Kettle 常用输入输出.docx
大数据ETL工具 Kettle 入门实践.docx
kettle使用es、大数据插件jar包
通过示例学习kettle动态查询,可以使用问号占位符或命名参数,并详细说明两者的区别。
大数据Excel通过Kettle 穿插javascript进行数据清洗 在将数据导入Excel里
hadoop,spark,hive,flume,sqoop等等等,收集了很多大数据的学习文档,恰同学少年风华正茂,挥斥方遒
kettle 开发视频文档,大数据 高可用 kettle 研究深入 视频
课程分享——基于Kettle+Clickhouse+Superset构建亿级大数据实时数据分析平台视频课程,该系统以热门的互联网电商实际业务应用场景为案例讲解,对电商数据的常见实战指标处理使用kettle等工具进行了详尽讲解,具体...
(1)Kettle数据抽取---全量抽取
kettle_使用中的一些常见问题.pdf Kettle_命令行使用.pdf kettle中文文档之output.pdf Kettle例子.pdf Kettle关于平面数据的导入.pdf Kettle初探.pdf Kettle命令行使用说明.pdf Kettle培训.ppt KETTLE基本...
旨在解决企业数据抽取业务场景中,无法通过web方式配置、调度、监控kettle的痛点。通过该项目,开发者可以学习并实践Springboot微服务和前端技术,为后续的大数据调度服务监控平台开发奠定基础。系统界面友好,易于...
大数据系列2020-数据迁移工具资料汇总(sqoop、kettle、datax).zip
一个作业,两个转换,第一个使用【查询分析】的组件接收sql查询结果的字段数据, 第二个转换根据上一个转换的结果为条件执行循环的业务步骤。 提示:请留意第二个转换的属性设置,需要添加命名参数以及勾选复制上...
kettle8 模拟表输入查询表名,然后在另一个表输入中使用变量使用kettle8 模拟表输入查询表名,然后在另一个表输入中使用变量使用