set hive.groupby.skewindata与数据倾斜 - duncan--学无止境 - ITeye博客

`

daizj

浏览: 771018 次
性别:
来自: 广州

最近访客更多访客>>

guwq2014

snowolf

junes_yu

yuanyuan7891

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

set hive.groupby.skewindata与数据倾斜

博客分类：

hive

hive hive.groupby.skewindata 数据倾斜 distinct count

阅读更多

hive和其它关系数据库一样，支持count(distinct)操作，但是对于大数据量中，如果出现数据倾斜时，会使得性能非常差，解决办法为设置数据负载均衡，其设置方法为设置hive.groupby.skewindata参数

hive (default)> set hive.groupby.skewindata;

hive.groupby.skewindata=false

默认该参数的值为false，表示不启用，要启用时，可以set hive.groupby.skewindata=ture;进行启用。

当启用时，能够解决数据倾斜的问题，但如果要在查询语句中对多个字段进行去重统计时会报错。

hive> set hive.groupby.skewindata=true;

hive> select count(distinct id),count(distinct x) from test;

FAILED: SemanticException [Error 10022]: DISTINCT on different columns not supported with skew in data

下面这种方式是可以正常查询

hive>select count(distinct id, x) from test;

分享到：

hive打开调试信息方法 | hive:[Fatal Error] Operator FS_14 (id=14 ...

2016-03-16 10:03
浏览 12233
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hive错误之 Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask错误分析_xiaohu21的博客-CSDN博客.mht: Hive错误之 Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask错误分析_xiaohu21的博客-CSDN博客.mht

hive 中join和Group的优化: set hive.groupby.skewindata = true; //解决数据倾斜的万能钥匙当map阶段运行不了的时候，可以设置 set hive.map.aggr = false; 说明设置hive.map.aggr=true，提高HiveQL聚合的执行性能。 set hive.ma

《Hadoop系统搭建及项目实践》课件08分布式数据仓库技术 Hive.pdf: 《Hadoop系统搭建及项目实践》课件08分布式数据仓库技术 Hive.pdf《Hadoop系统搭建及项目实践》课件08分布式数据仓库技术 Hive.pdf《Hadoop系统搭建及项目实践》课件08分布式数据仓库技术 Hive.pdf《Hadoop系统搭建...

Hive.sql，hive的元数据: Hive.sql

大数据技术学习笔记之Hive.docx: 大数据技术学习笔记之Hive.docx

mysql-to-hive.ktr: 从数据库(mysql)中读取数据写入HDFS并建hive表；在该转换中，需要配置2个DB链接（Mysql和HiveServer2），配置Hadoop集群（HDFS），配置子服务器（远程执行服务器）。需要实践的元数据文件：mysql-to-hive.ktr

spark-1.6.3-bin-hadoop2.4-without-hive.tgz: spark-1.6.3-bin-hadoop2.4-without-hive.tgz 经测试，hadoop 2.8.2下可用。hive2.1.1 可用

hive--web信息检索与数据抓取-hive.pdf: hive--web信息检索与数据抓取-hive.pdf 学习资料复习资料教学资源

hive.ziphive数据迁移和数据分析: hive.ziphive数据迁移和数据分析

hadoop,spark,hive.....: hadoop,spark,hive.....

hive-jdbc-1.1.0-cdh5.4.5-standalone.jar: Caused by: java.sql.SQLException: java.lang.ClassNotFoundException: org.apache.hive.jdbc.HiveDriver at com.trs.gateway.commons.hive.HiveFeature.getConnection(HiveFeature.java:57) at ...

spark--bin-hadoop2-without-hive.tgz: spark--bin-hadoop2-without-hive.tgz

seatunnel 支持hive jdbc: driver = "org.apache.hive.jdbc.HiveDriver" user = "hive" password = "hive" table = ods_wjw_jb_gxy_hz_glk query = "select a,b,c from ods_wjw_jb_gxy_hz_glk" fetch_size = 300 } }

apache-hive-2.1.1-bin.tar.gz下的bin文件夹，包含hive.cmd: apache-hive-2.1.1-bin.tar.gz下的bin文件夹，包含hive.cmd

大数据技术之Hive.docx: 大数据技术之Hive.docx大数据技术之Hive.docx大数据技术之Hive.docx大数据技术之Hive.docx

spark-1.6.0-bin-hadoop2-without-hive.tgz: hive2.1.0 --- spark1.6.0 hive on spark的spark包，这个是已经经过./make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.4,parquet-provided"编译后的了spark-...hive.tgz

解决Hive启动失败Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient: FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient 通过控制台的...

07_尚硅谷大数据技术之Hive.doc: ·全程内容涵盖数据结构、设计模式、JVM内存结构等深度技术 ·企业级笔试面试题目深入源码级讲解，拒绝死记硬背 4.代码量更大、案例更丰富、更贴近实战： ·Java语言基础阶段：12720行代码，Java语言高级阶段：...

《Hive数据仓库案例教程》教学课件第5章 Hive数据操作.pdf: 《Hive数据仓库案例教程》教学课件第5章 Hive数据操作.pdf《Hive数据仓库案例教程》教学课件第5章 Hive数据操作.pdf《Hive数据仓库案例教程》教学课件第5章 Hive数据操作.pdf《Hive数据仓库案例教程》教学课件第...

Global site tag (gtag.js) - Google Analytics