hive增量对比后将增量数据插入原表 - 后知后觉的it路 - ITeye博客

`

chengjianxiaoxue

浏览: 1284422 次
性别:
来自: 北京

最近访客更多访客>>

liu_shui8

happy2012

nddht

yhtppp

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

jaingbei：可以通过继承FileOutputFormat来简化相关代码
自定义OutputFormat
star12396：楼主，那hbase结合hive使用，这种架构稳定不？机器的内存 ...
hbase+hive结合使用
atMe0804： ...
kafka集群搭建和使用Java写kafka生产者消费者
ztao2333： thanks
eclipse 设置自动补全快捷键
Will_forme：你好最近在使用kylin的时候有点疑问，我安装这些都没问题 ...
kylin 搭建和简单测试结果

hive增量对比后将增量数据插入原表

博客分类：

hive

阅读更多

工作中，有个业务，需要将这个表每个月增加和修改的记录不断追加到这个表内：

sql如下：

f_courtannoucement_party: 法院公告

fct_pdffilename: pdf文件名称

fct_name: 公告名称

insert overwrite table f_courtannoucement_party

select * from f_courtannoucement_party_add_modify union all

select a.* from f_courtannoucement_party left out join f_courtannoucement_party_add_modify b

on

1=1 and a.fct_pdffilename=b.fct_pdffilename and a.fct_name=b.fct_name

where 1=1 and b.fct_pdffilename is null and b.fct_name is null;

这里以

fct_pdffilename: pdf文件名称

fct_name: 公告名称

作为核准原表和增量表(增加和修改的记录)中审核的标准，以下图为例下图用 stu1原表 stu2增量表模拟上面业务：

以业务主键为关联条件，案例如下：

得到原表中没有修改和新增的记录(即没有变更的记录)：

然后这个数据在和增量表 stu2 union all 后在 insert overwrite table1 得到需要的结果：

insert overwrite table stu1 select * from stu2 union all select a.* from stu1 left join stu2 b on 1=1 and a.id=b.id where b.id is null;

总结写法规律：

insert overwrite table 原表

select * from 增量表 union all

select a.* from 原表 a left join 增量表 b on 1=1 and a.业务不会变化的字段=b.业务不会变化的字段 where b.业务不会变化的字段 is null;

分享到：

solr属性multivalued使用 | YARN内存使用优化配置

2016-04-29 09:17
浏览 8387
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

hive构造测试数据方法: hive造数据

Hive几种数据导入方式: Ambari搭建hadoop环境下，hive的数据导入

《Hive数据仓库案例教程》教学课件第5章 Hive数据操作.pdf: 《Hive数据仓库案例教程》教学课件第5章 Hive数据操作.pdf《Hive数据仓库案例教程》教学课件第5章 Hive数据操作.pdf《Hive数据仓库案例教程》教学课件第5章 Hive数据操作.pdf《Hive数据仓库案例教程》教学课件第...

Hive的表数据,一共1165w条数据: hive的表数据，可以到我的博客，有建表语句，我的链接是 https://blog.csdn.net/qq_43662627/article/details/121033176

Hive表生成工具，Hive表生成工具Hive表生成工具: Hive表生成工具，Hive表生成工具Hive表生成工具

hive 表结构导出: 支持hive 源数据、表结构导出

DataX数据的迁移（MySQL、HDFS，Hive）: 1.将Mysql中的数据迁移到Hdfs文件系统中，然后通过Hive加载HDFS文件系统中的数据值 2.将Hive中的数据迁移到指定Mysql数据库中注意点： 1.数据迁移的过程中，由于hive的Null值存储为"\N"，Mysql存储为NULL值，二者...

利用Hive进行复杂用户行为大数据分析及优化案例: 09_Hive中数据文件的存储格式介绍及对比 10_常见的压缩格式及MapReduce的压缩介绍 11_Hadoop中编译配置Snappy压缩 12_Hadoop及Hive配置支持snappy压缩 13_Hive中的常见调优 14_Hive中的数据倾斜及解决方案-三种join...

Hive.sql，hive的元数据: Hive.sql

datax数据从hive导入mysql数据缺失解决: datax数据从hive表导入mysql表,数据缺失解决

【hive增量更新】步骤.sql: 【hive增量更新】步骤.sql

Hive表分区: Hive表分区，里面有比较详细的Hive表分区方法，希望能够有所帮助。

kettle批量插入hive2，解决表输出速度慢问题: 解决kettle使用表输出到hive2时，批量提交不起作用导致速度非常慢的问题，重新编译big-data-plugin插件使表输出支持对hive2批量提交，速度由几十条每秒提升到三千条每秒。

Hive数据仓库之垃圾分类数据分析系统: （3）sqoop数据迁移，完成HIve与MySQL数据库中的数据交互（4）Echarts搭建动态可视化大屏（5）SpringBoot搭建可视化后台系统，完成前端与后台的数据传递与交互。（6）基于Cenots7 搭建虚拟机，配置Hadoop、HDFS、...

Binlog2Hive:MySQL增量数据实时同步到HDFSHive: 项目背景RDS的数据实时同步到HDFS下，并映射到Hive原理通过解析RDS的binlog将RDS的增量数据同步到HDFS下，并映射加载到Hive外部分区表由于RDS表中的第二个字段都为datetime字段，所以刚才以该字段作为Hive的分区字段...

项目实战——钉钉报警校验ElasticSearch和Hive数据仓库内的数据质量（Java版本）: 因为你不知道将Hive的数据导入到了ElasticSearch后，数据量是否准确，所以需要钉钉报警校验ElasticSearch和Hive数据仓库内的数据质量，注意，这个项目打包后，最好另起一个进程调用，并且开始时间为文章1或者2最大...

修改hive表分区名称: hive表修改分区数据

Hive的数据存储模式: Hive的数据存储模式Hive的数据存储模式Hive的数据存储模式Hive的数据存储模式

建立Hive和Hbase的映射关系，通过Spark将Hive表中数据导入ClickHouse: 建立Hive和Hbase的映射关系，通过Spark将Hive表中数据导入ClickHouse对应的jar包

spark或mr引擎插入的数据，hive表查询数据为0: spark或mr引擎插入的数据，hive表查询数据为0

Global site tag (gtag.js) - Google Analytics