hive 表连接

wspiderw

浏览: 20025 次
性别:
来自: 北京

最近访客更多访客>>

megamind2012

wangning1125

pingbutianxia

坏孩子的天空

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hive

http://shiyanjun.cn/archives/588.html

生成一个MR Job

多表连接，如果多个表中每个表都使用同一个列进行连接（出现在JOIN子句中），则只会生成一个MR Job，例如：

1

SELECT a.val, b.val, c.val FROM a JOIN b ON (a.key = b.key1) JOIN c ON (c.key = b.key1)

三个表a、b、c都分别使用了同一个字段进行连接，亦即同一个字段同时出现在两个JOIN子句中，从而只生成一个MR Job。

生成多个MR Job

多表连接，如果多表中，其中存在一个表使用了至少2个字段进行连接（同一个表的至少2个列出现在JOIN子句中），则会至少生成2个MR Job，例如：

1

SELECT a.val, b.val, c.val FROM a JOIN b ON (a.key = b.key1) JOIN c ON (c.key = b.key2)

三个表基于2个字段进行连接，这两个字段b.key1和b.key2同时出现在b表中。连接的过程是这样的：首先a和b表基于a.key和b.key1进行连接，对应着第一个MR Job；表a和b连接的结果，再和c进行连接，对应着第二个MR Job。

表连接顺序优化

多表连接，会转换成多个MR Job，每一个MR Job在Hive中称为JOIN阶段（Stage）。在每一个Stage，按照JOIN顺序中的最后一个表应该尽量是大表，因为JOIN前一阶段生成的数据会存在于Reducer的buffer中，通过stream最后面的表，直接从Reducer的buffer中读取已经缓冲的中间结果数据（这个中间结果数据可能是JOIN顺序中，前面表连接的结果的Key，数据量相对较小，内存开销就小），这样，与后面的大表进行连接时，只需要从buffer中读取缓存的Key，与大表中的指定Key进行连接，速度会更快，也可能避免内存缓冲区溢出。例如：

1

SELECT a.val, b.val, c.val FROM a JOIN b ON (a.key = b.key1) JOIN c ON (c.key = b.key1)

这个JOIN语句，会生成一个MR Job，在选择JOIN顺序的时候，数据量相比应该是b < c，表a和b基于a.key = b.key1进行连接，得到的结果（基于a和b进行连接的Key）会在Reducer上缓存在buffer中，在与c进行连接时，从buffer中读取Key（a.key=b.key1）来与表c的c.key进行连接。
另外，也可以通过给出一些Hint信息来启发JOIN操作，这指定了将哪个表作为大表，从而得到优化。例如：

1

SELECT /*+ STREAMTABLE(a) */ a.val, b.val, c.val FROM a JOIN b ON (a.key = b.key1) JOIN c ON (c.key = b.key1)

上述JOIN语句中，a表被视为大表，则首先会对表b和c进行JOIN，然后再将得到的结果与表a进行JOIN。

基于条件的LEFT OUTER JOIN优化

左连接时，左表中出现的JOIN字段都保留，右表没有连接上的都为空。对于带WHERE条件的JOIN语句，例如：

1

SELECT a.val, b.val FROM a LEFT OUTER JOIN b ON (a.key=b.key)

2

WHERE a.ds='2009-07-07' AND b.ds='2009-07-07'

执行顺序是，首先完成2表JOIN，然后再通过WHERE条件进行过滤，这样在JOIN过程中可能会输出大量结果，再对这些结果进行过滤，比较耗时。可以进行优化，将WHERE条件放在ON后，例如：

1

SELECT a.val, b.val FROM a LEFT OUTER JOIN b

2

ON (a.key=b.key AND b.ds='2009-07-07' AND a.ds='2009-07-07')

这样，在JOIN的过程中，就对不满足条件的记录进行了预先过滤，可能会有更好的表现。

左半连接（LEFT SEMI JOIN）

左半连接实现了类似IN/EXISTS的查询语义，使用关系数据库子查询的方式实现查询SQL，例如：

1

SELECT a.key, a.value FROM a WHERE a.key IN (SELECT b.key FROM b);

使用Hive对应于如下语句：

1

SELECT a.key, a.val FROM a LEFT SEMI JOIN b ON (a.key = b.key)

需要注意的是，在LEFT SEMI JOIN中，表b只能出现在ON子句后面，不能够出现在SELECT和WHERE子句中。
关于子查询，这里提一下，Hive支持情况如下：

在0.12版本，只支持FROM子句中的子查询；
在0.13版本，也支持WHERE子句中的子查询。

Map Side JOIN

Map Side JOIN优化的出发点是，Map任务输出后，不需要将数据拷贝到Reducer节点，降低的数据在网络节点之间传输的开销。
多表连接，如果只有一个表比较大，其他表都很小，则JOIN操作会转换成一个只包含Map的Job，例如：

1

SELECT /*+ MAPJOIN(b) */ a.key, a.value FROM a JOIN b ON a.key = b.key

对于表a数据的每一个Map，都能够完全读取表b的数据。这里，表a与b不允许执行FULL OUTER JOIN、RIGHT OUTER JOIN。

BUCKET Map Side JOIN

我们先看两个表a和b的DDL，表a为：

1

CREATE TABLE a(key INT, othera STRING)

2

CLUSTERED BY(key) INTO 4 BUCKETS

3
ROW FORMAT DELIMITED

4

FIELDS TERMINATED BY '\001'

5

COLLECTION ITEMS TERMINATED BY '\002'

6

MAP KEYS TERMINATED BY '\003'

7

STORED AS SEQUENCEFILE;

表b为：

1

CREATE TABLE b(key INT, otherb STRING)

2

CLUSTERED BY(key) INTO 32 BUCKETS

3
ROW FORMAT DELIMITED

4

FIELDS TERMINATED BY '\001'

5

COLLECTION ITEMS TERMINATED BY '\002'

6

MAP KEYS TERMINATED BY '\003'

7

STORED AS SEQUENCEFILE;

现在要基于a.key和b.key进行JOIN操作，此时JOIN列同时也是BUCKET列，JOIN语句如下：

1

SELECT /*+ MAPJOIN(b) */ a.key, a.value FROM a JOIN b ON a.key = b.key

并且表a有4个BUCKET，表b有32个BUCKET，默认情况下，对于表a的每一个BUCKET，都会去获取表b中的每一个BUCKET来进行JOIN，这回造成一定的开销，因为只有表b中满足JOIN条件的BUCKET才会真正与表a的BUCKET进行连接。
这种默认行为可以进行优化，通过改变默认JOIN行为，只需要设置变量：

1

set hive.optimize.bucketmapjoin = true

这样，JOIN的过程是，表a的BUCKET 1只会与表b中的BUCKET 1进行JOIN，而不再考虑表b中的其他BUCKET 2~32。
如果上述表具有相同的BUCKET，如都是32个，而且还是排序的，亦即，在表定义中在CLUSTERED BY(key)后面增加如下约束：

1

SORTED BY(key)

则上述JOIN语句会执行一个Sort-Merge-Bucket (SMB) JOIN，同样需要设置如下参数来改变默认行为，优化JOIN时只遍历相关的BUCKET即可：

1

set hive.input.format=org.apache.hadoop.hive.ql.io.BucketizedHiveInputFormat;

2

set hive.optimize.bucketmapjoin = true;

3

set hive.optimize.bucketmapjoin.sortedmerge = true;

分享到：

hive分享 | 订单打印日志

2015-01-27 14:38
浏览 1172
评论(0)
分类:Web前端
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive 表连接

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive 表连接

评论

发表评论

相关推荐

hive优化

Hadoop 统计一个目录的文件大小

hive优化之-控制hive任务中的map数和reduce数

fdm2

fdm

from insert select where

hive建表

hive分享

数据 140g, 按照字段time 降序排列 选出最大的前50个

最近访客更多访客>>

数据 140g, 按照字段time 降序排列选出最大的前50个