Hive 的join

tobyqiu

浏览: 39273 次
性别:
来自: 上海

最近访客更多访客>>

lvtt

caodaoxi

zcw3895653

nalnait

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hadoop sqoop hive

直接就总结了

1. join 中不能包含不等的操作( 大于，小于，不等)

select * from a 
inner join b
on a.a>b.a

2.Join 中也不能有 OR 这种谓词

3.小表在前，大表在后

4.但是也可以颠倒，但是要用 STREAMTABLE来指定那个是大表

SELECT /*+ STREAMTABLE(a) */ a.val, b.val, c.val 
FROM a 
JOIN b ON (a.key = b.key1) 
JOIN c ON (c.key = b.key1)

5.join比where的优先级高，

-- post-filtered
SELECT a.val, b.val 
FROM a
LEFT OUTER JOIN b ON (a.key=b.key)
WHERE a.ds='2009-07-07' AND b.ds='2009-07-07'


-- pre-filtered
SELECT a.val, b.val 
FROM a LEFT OUTER JOIN b
ON (a.key=b.key AND b.ds='2009-07-07' AND a.ds='2009-07-07')

5.hive 会把多表join中用到相同key的SQL合并成一个MR

--会合并成一个MR
SELECT a.val, b.val, c.val 
FROM a JOIN b ON (a.key = b.key1) 
JOIN c ON (c.key = b.key1)

--不会合并
SELECT a.val, b.val, c.val 
FROM a JOIN b ON (a.key = b.key1) 
JOIN c ON (c.key = b.key2)
--结合第四点，a是大表，所以会把b,c放进reducers的内存中，然后和 a join
SELECT /*+ STREAMTABLE(a) */ a.val, b.val, c.val 
FROM a JOIN b ON (a.key = b.key1) 
JOIN c ON (c.key = b.key1)

6.NOT IN，IN 这种语句hive 中不能执行，改用 LEFT SEMI JOIN

---不合法的
SELECT a.key, a.value
FROM a
WHERE a.key in
 (SELECT b.key
  FROM B);


--应该这么写
--但是b的列不能出现在select 中
SELECT a.key, a.val
FROM a 
LEFT SEMI JOIN b on (a.key = b.key)

7.很小的表可以放进内存，就用MapJoin 但是会有很多的限制.不是加了hint 就能用的

Mapjoin 的SQL 只有map 没有reduce 和 STREAMTABLE 是有本质区别的

--MapJoin 只有map端 所以所有的reduce端做的操作都是不能做的
--如 Group By/Join/Sort By/Cluster By/Distribute By

--摘录官方blogs
--The following is not supported.
--Union Followed by a MapJoin
--Lateral View Followed by a MapJoin
--Reduce Sink (Group By/Join/Sort By/Cluster By/Distribute By) Followed by MapJoin
--MapJoin Followed by Union
--MapJoin Followed by Join
--MapJoin Followed by MapJoin

SELECT /*+ MAPJOIN(b) */ a.key, a.value
FROM a join b on a.key = b.key

------------------------------------------------------------分割线
-- /*+ MAPJOIN(b) */  指定的是小表 （b） 
-- /*+ STREAMTABLE(a) */ 指定的是大表 （a）

SELECT /*+ STREAMTABLE(a) */ a.val, b.val
FROM a JOIN b ON (a.key = b.key1)

如果不使用hint在0.7版本以后，可以使用 hive.auto.convert.join 属性

--0.11默认是false,0.12默认变成了true
set  hive.auto.convert.join =ture;
--默认是25m 单位是字节
set hive.,mapjoin.smalltable.filesize=25000000

在多个mapjoin上使用不同的key

select /*+MAPJOIN(smallTableTwo)*/ 
idOne, idTwo, value 
FROM
  ( select /*+MAPJOIN(smallTableOne)*/ idOne, idTwo, value FROM
    bigTable JOIN smallTableOne on (bigTable.idOne = smallTableOne.idOne)          )firstjoin                                                            
  JOIN                                                                 
  smallTableTwo on (firstjoin.idTwo = smallTableTwo.idTwo)

--上面的SQL不能变成一个map job
--如果不用Hint,这个SQL 会被当做2个map-only的job执行
--如果用户事先知道，输入是足够小，适合在内存中，以下配置参数用来确保查询在单个map-reduce job中执行
--hive.auto.convert.join.noconditionaltask 就是个开关
--hive.auto.convert.join.noconditionaltask.size 表的大小小于这个size直接变成mapjoin，默认是10m

Mapjoin的步骤

Local work:

--read records via standard table scan (including filters and projections) from source on local machine

--build hashtable in memory

--write hashtable to local disk

--upload hashtable to dfs

--add hashtable to distributed cache

Map task

--read hashtable from local disk (distributed cache) into memory

--match records' keys against hashtable

--combine matches and write to output

No reduce task

MapJoin总结下

a)一个mapjoin只能处理一次一个key，它可以执行的多表连接，但只有当所有的表都加入了相同的key。（典型的星型连接不属于这一类，但是上面不支持的例子就是属于这一类）

b)就算加了hint也未必，真的是用mapjoin

c)一连串的mapjoins不会合并成一个单一的map job，除非查询写成一个级联的mapjoin（mapjoin(table, subquery(mapjoin(table, subquery....).自动转换后的也不会变成一个单一的map job。还是上面这个例子，打开了所有的开关，会把SQL 变成2个单一的map-only job 来跑

d)mapjoin 中用到的哈希表，每个子QUERY运行都会生成，先下载，再分发给map

分享到：

Hive Join 优化翻译 | sqoop 1.4.4 使用2

2014-04-01 16:02
浏览 2335
评论(0)
分类:数据库
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hive 的join

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hive 的join

评论

发表评论

相关推荐

Hive 压缩比较

Enhanced Aggregation, Cube, Grouping and Rollup 优化聚合函数

Statistics in Hive （hive的统计信息搜集） 翻译

ORC File 翻译

Hive Join 优化 翻译

sqoop 1.4.4 使用3

sqoop 1.4.4 使用2

sqoop 1.4.4 使用1

Sqoop 1.99.3 with hadoop-2.3.0 使用 3

Sqoop 1.99.3 with hadoop-2.3.0 使用 2

Sqoop 1.99.3 with hadoop-2.3.0 使用1

HIVE JDBC

CYGWIN SSH domain login

Hive 配置

hadoop WordCount 运行

hadoop 环境

最近访客更多访客>>

Statistics in Hive （hive的统计信息搜集）翻译

Hive Join 优化翻译