`
samuschen
  • 浏览: 398536 次
  • 性别: Icon_minigender_2
  • 来自: 北京
社区版块
存档分类
最新评论

hive mapjoin

    博客分类:
  • hive
阅读更多

 

insert overwrite table crosstest
select  /*+MAPJOIN(a)*/ a.ra,a.dec,b.ra,b.dec
from  rosat2rc  a  join  tycho2rc  b
on (a.dec>83 and a.dec<93 and b.dec>83 and b.dec<93)
where 3.5*3.5/1200/1200>((a.ra-b.ra)*cos((a.dec+b.dec)*3.14/180/2))*((a.ra-b.ra)*cos((a.dec+b.dec)*3.14/180/2))+(a.dec-b.dec)*(a.dec-b.dec)

 

 

当要连接的两个表其中一个表非常小的时候,可以考虑使用mapjoin。mapjoin会将小表拷贝到每个运行map的节点上,并将其cache到内存 中,然后在map阶段连接大表。由于省去了reduce过程,效率会提高不少。使用mapjoin之后,join会执行两个map-reduce Job,不用mapjoin则只有一个。问了下少杰,原来hive.merge.mapfiles这个参数设置为true了。因为只有map而没有 reduce,map的数量又不好控制,可能导致大量的map任务,这样会生成许多文件。hive.merge.mapfiles为true时,会启动另 外一个map-reduce Job来合并小文件。

 

 

common join 则只有一个mapreduce任务,map扫描排序表数据,reduce进行join操作。

分享到:
评论

相关推荐

    Hive on Spark EXPLAIN statement

    Hive on Spark EXPLAIN statement : 讲述了 Common Join / Map join / Bucket Map Join / Sorted Merge Bucket Map Join / skew join 在explain 中的 树结构 。In Hive, command EXPLAIN can be used to show the ...

    hive 中join和Group的优化

    set hive.map.aggr = true; //是否在 Map 端进行聚合,默认为 True ;该设置会消耗更多的内存。 set hive.groupby.mapaggr.checkinterval = 100000000; //在 Map 端进行聚合操作的条目数目 set hive.groupby....

    分布式数据仓库Hive大全

    7. HIVE 的MAP/REDUCE 41 7.1 JOIN 41 7.2 GROUP BY 42 7.3 DISTINCT 42 8. 使用HIVE注意点 43 8.1 字符集 43 8.2 压缩 43 8.3 count(distinct) 43 8.4 JOIN 43 8.5 DML操作 44 8.6 HAVING 44 8.7 子查询 44 8.8 ...

    Hive用户指南

    7. HIVE 的MAP/REDUCE 41 7.1 JOIN 41 7.2 GROUP BY 42 7.3 DISTINCT 42 8. 使用HIVE注意点 43 8.1 字符集 43 8.2 压缩 43 8.3 count(distinct) 43 8.4 JOIN 43 8.5 DML操作 44 8.6 HAVING 44 8.7 子查询 44 8.8 ...

    hadoop Join代码(map join 和reduce join)

    展示使用MR方式实现表连接的代码示例。利用HIVE PIG之类的高层工具也可以实现,本代码旨在展示手工连接的流程

    基于统计方法的Hive数据仓库查询优化实现

    Map/Reduce是海量离线数据分析中广泛应用的并行编程模型.Hive数据仓库基于Map/Reduce实现了查询处理引擎,然而Map/Reduce框架在处理偏斜数据时会出现工作负载分布不均的问题.均衡计算模型(computation balanced model...

    大数据框架(HADOOP、HIVE、HBASE)优化和简历项目编写(视频+讲义+笔记)

    05_Hive重点知识回顾总结及小表与大表关联时MapJoin优化 06_Hive中大表与大表关联时SMB Join优化 07_Hive中高级优化及数据倾斜处理(一) 08_Hive中高级优化及数据倾斜处理(二 09_Hive中groupBy数据倾斜面试...

    Hive性能优化

    本文来自于cnblogs,赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍:继续《那些年使用Hive踩过的坑》一文中的剩余部分.首先,我们来看看Hadoop的计算框架特性,在此...

    HiveQueryMRJoin:使用减少端连接将Hive查询转换为Java MapReduce

    map输出的键必须是join键减速器1.Reducer将使用通用密钥从所有文件中获取随机数据。 2.根据标签属性组合两个记录。 问题陈述 : 查找购买总金额以及每个客户的交易次数。 客户表将具有唯一的客户ID以及客户的其他...

    大数据场景化解决方案.pdf

    ⽇常使⽤过程中,容易造成数据倾斜的原因可以归纳为如下⼏点: group by distinct count(distinct xx) join 调优参数: 在map中会做部分聚集操作,效率更⾼但需要更多的内存。 set hive.map.aggr=true; 此时⽣成的...

    Hadoop硬实战 [(美)霍姆斯著][电子工业出版社][2015.01]_PDF电子书下载 带书签目录 高清完整版.rar )

    技术点26 在HDFS、MapReduce、Pig 和Hive 中使用数据压缩 技术点27 在MapReduce、Hive 和Pig 中处理可分割的LZOP 5.3 本章小结 6 诊断和优化性能问题 6.1 衡量MapReduce 和你的环境 6.1.1 提取作业统计...

    Hadoop实战(第2版)

    join 7.3 本章小结8 结合R 和Hadoop 进行数据统计8.1 比较R 和MapReduce 集成的几种方法8.2 R 基础知识 8.3 R 和Streaming 8.3.1 Streaming 和map-only R 技术点57 计算股票日平均值8.3.2 Streaming...

    CompositeInputFormat:了解 MapReduce 中的数据连接

    复合输入格式了解 MapReduce 中的数据连接摘要:该项目演示了如何使用 CompositeInputFomat 实现 Map side join。 为什么要花时间学习如何连接数据,而使用在更高抽象级别工作的工具(如 Hive 或 Pig)可以更好地...

Global site tag (gtag.js) - Google Analytics