工作中,有个业务,需要将这个表每个月增加和修改的记录不断追加到这个表内:
sql如下:
f_courtannoucement_party: 法院公告
fct_pdffilename: pdf文件名称
fct_name: 公告名称
insert overwrite table f_courtannoucement_party
select * from f_courtannoucement_party_add_modify union all
select a.* from f_courtannoucement_party left out join f_courtannoucement_party_add_modify b
on
1=1 and a.fct_pdffilename=b.fct_pdffilename and a.fct_name=b.fct_name
where 1=1 and b.fct_pdffilename is null and b.fct_name is null;
这里以
fct_pdffilename: pdf文件名称
fct_name: 公告名称
作为核准原表和增量表(增加和修改的记录)中审核的标准,以下图为例 下图用 stu1原表 stu2增量表模拟上面业务:
以业务主键为关联条件,案例如下:
得到原表中没有 修改和新增的记录(即没有变更的记录):
然后这个数据在和 增量表 stu2 union all 后在 insert overwrite table1 得到需要的结果:
insert overwrite table stu1 select * from stu2 union all select a.* from stu1 left join stu2 b on 1=1 and a.id=b.id where b.id is null;
总结写法规律:
insert overwrite table 原表
select * from 增量表 union all
select a.* from 原表 a left join 增量表 b on 1=1 and a.业务不会变化的字段=b.业务不会变化的字段 where b.业务不会变化的字段 is null;
相关推荐
hive造数据
Ambari搭建hadoop环境下,hive的数据导入
《Hive数据仓库案例教程》教学课件 第5章 Hive数据操作.pdf《Hive数据仓库案例教程》教学课件 第5章 Hive数据操作.pdf《Hive数据仓库案例教程》教学课件 第5章 Hive数据操作.pdf《Hive数据仓库案例教程》教学课件 第...
hive的表数据,可以到我的博客,有建表语句,我的链接是 https://blog.csdn.net/qq_43662627/article/details/121033176
Hive表生成工具,Hive表生成工具Hive表生成工具
支持hive 源数据、表结构导出
1.将Mysql中的数据迁移到Hdfs文件系统中,然后通过Hive加载HDFS文件系统中的数据值 2.将Hive中的数据迁移到指定Mysql数据库中 注意点: 1.数据迁移的过程中,由于hive的Null值存储为"\N",Mysql存储为NULL值,二者...
09_Hive中数据文件的存储格式介绍及对比 10_常见的压缩格式及MapReduce的压缩介绍 11_Hadoop中编译配置Snappy压缩 12_Hadoop及Hive配置支持snappy压缩 13_Hive中的常见调优 14_Hive中的数据倾斜及解决方案-三种join...
Hive.sql
datax数据从hive表导入mysql表,数据缺失解决
【hive增量更新】步骤.sql
Hive表分区,里面有比较详细的Hive表分区方法,希望能够有所帮助。
解决kettle使用表输出到hive2时,批量提交不起作用导致速度非常慢的问题,重新编译big-data-plugin插件使表输出支持对hive2批量提交,速度由几十条每秒提升到三千条每秒。
(3)sqoop数据迁移,完成HIve与MySQL数据库中的数据交互 (4)Echarts搭建动态可视化大屏 (5)SpringBoot搭建可视化后台系统,完成前端与后台的数据传递与交互。 (6)基于Cenots7 搭建虚拟机,配置Hadoop、HDFS、...
项目背景RDS的数据实时同步到HDFS下,并映射到Hive原理通过解析RDS的binlog将RDS的增量数据同步到HDFS下,并映射加载到Hive外部分区表由于RDS表中的第二个字段都为datetime字段,所以刚才以该字段作为Hive的分区字段...
因为你不知道将Hive的数据导入到了ElasticSearch后,数据量是否准确,所以需要钉钉报警校验ElasticSearch和Hive数据仓库内的数据质量,注意,这个项目打包后,最好另起一个进程调用,并且开始时间为文章1或者2最大...
hive表修改分区数据
Hive的数据存储模式Hive的数据存储模式Hive的数据存储模式Hive的数据存储模式
建立Hive和Hbase的映射关系,通过Spark将Hive表中数据导入ClickHouse对应的jar包
spark或mr引擎插入的数据,hive表查询数据为0