hiveQL 优化

085567

浏览: 213586 次
性别:
来自: 北京

最近访客更多访客>>

zouhuiying

isy

zzr1000

bianqi

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hive

Mapreduce hive

1.当hive执行join内存溢出时，可以修改hive的配置文件hive-site.xml，增大内存，如下： mapred.child.java.opts -Xmx 1024m

2.hive默认建表时的路径也可以在hive-site.xml里配置，如下: hive.metastore.warehouse.dir value >/user/hive/warehouse description >location of default database for the warehouse

3.执行join操作的时候，尽量把小表放前面，大表放前面可能会因为内存溢出而出错

4.对分区表进行操作需要对分区进行过滤（如：ds=$yday）。特别是在JOIN操作的时候，分区过滤（如：ds=$yday）需要放到 ON语句或子查询里面。不能放到ON后面的WHERE里，这样会扫描所有表，最后才判断分区。也就是说程序会先执行JOIN操作，才会执行最后的WHERE操作。

5.在JOIN操作中，后面被连续JOIN且同一字段，只会执行一个mapreduce操作。 SELECT * FROM a LEFT OUTER JOIN b ON a.t=b.t LEFT OUTER JOIN c ON a.t=c.t; 推荐的 SELECT * FROM a LEFT OUTER JOIN b ON a.t=b.t LEFT OUTER JOIN c ON b.t=c.t; 效率低下的

6.当一个大表和一个很小的表进行JOIN操作的时候，使用MAPJOIN操作，这样会把小表读入内存进行JOIN，只需要一个map操作JOIN就完成了 select /*+ mapjoin(a)*/ a.c1,b.c2,b.c3 from a join b on a.c4=b.c4;

7.通过设置hive.merge.mapfiles可以关闭hive对于扫描表的优化，但有时候会提高效率。默认值为true。可以视情况设置：只含有SELECT的语句或 MAPJOIN 推荐使用

8.ALTER TABLE a SET SERDEPROPERTIES('serialization.null.format' = ''); 可以使结果表不出现\N字符串，而用空串代替

分享到：

shell 交集、并集、差集 | hive深入资料

2011-01-13 20:52
浏览 1821
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hiveQL 优化

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hiveQL 优化

评论

发表评论

相关推荐

hive中分组取前N个值的实现

hive 备忘录

Hive User Defined Functions

hive数组使用

如何获取hive建表语句

写好Hive 程序的五个提示

hive JDBC 连接

hive优化

hive综合

Hive 的扩展特性

hive与hbase整合

Hive与并行数据仓库的体系结构比较

定时将数据导入到hive中

Hive0.5中Partition简述

Hive SQL语法解读

应用mysql保存hive的metastore

hive深入资料

hive 相关

基于Hive的日志数据统计实战

Hive-0.5中UDF和UDAF简述

最近访客更多访客>>