hive中有许多配置将帮助我们提升性能,其详细配置如下:
1、hive.auto.convert.join 默认值为true
是否根据输入小表的大小,自动将 Reduce 端的 Common Join 转化为 Map Join,从而加快大表关联小表的 Join 速度。
2、hive.groupby.skewindata 默认值为false
用于决定 group by 操作是否支持倾斜的数据,即将数据进行负载均衡。原理是,在Group by中,对一些比较小的分区进行合并。
3、hive.default.fileformat 默认值为TextFile
Hive 默认的输出文件格式,与创建表时所指定的相同,可选项为 'TextFile' 、 'SequenceFile' 或者 'RCFile'
4、hive.mapred.mode 默认值为nonstrict
Map/Redure 模式,如果设置为 strict,将不允许笛卡尔积
5、hive.exec.reducers.max 默认值为999
用于设置reducer 个数的上限
6、hive.exec.compress.output 默认值为false
决定查询中最后一个 map/reduce job 的输出是否为压缩格式
7、hive.exec.parallel和hive.exec.parallel.thread.number
hive.exec.parallel用于设置job是否并行执行,默认hive.exec.parallel为false
hive.exec.parallel.thread.number 默认值为8,这个是要在hive.exec.parallel=true的情况才起效果,这个是用于设置并行度
8、hive.exec.max.dynamic.partitions 默认值为1000
所允许的最大的动态分区的个数。可以手动增加分区。
9、hive.exec.max.dynamic.partitions.pernode 默认值为 100
单个 reduce 结点所允许的最大的动态分区的个数
10、hive.exec.default.partition.name
默认的动态分区的名称,当动态分区列为''或者null时,使用此名称:'__HIVE_DEFAULT_PARTITION__'
11、set hive.exec.max.created.files 默认值为100000
这个是用于设置文件个数,当文件个数超过默认值时,程序会报如下错误:
total number of created files now is 100013, which exceeds 100000
简单解决方法是设置更大值就行
先写这么多,后续再加
相关推荐
hive参数配置说明大全,详细说个各个参数的作用用法
非常全面的hive参数配置,总共有600多项,中文注释是用软件翻译的,勉强能看,引用请注明出处。
说明:重新排版的个人版Hive语法(一文在手,hql无忧) Hive语法详解: 内容分9个章节 包括安装及配置; DDL,DML,DQL语法; Hive内置函数及自定义函数; Hive窗口函数及行列转换; Hive注意事项及常见优化; ...
48.Hadoop及Hive配置支持snappy压缩 49.Hive中的常见调优 50.Hive中的数据倾斜及解决方案-三种join方式 51.Hive中的数据倾斜及解决方案-group by 52.Hive中使用正则加载数据 53. Hive中使用Python脚本进行预处理 第...
。
0. 重新编译依赖包编译过程参考:- Hive整合Hbase详解删除软链接的命令修改hive-site.xml的配置主要修改zookeeper的配置项,以便能够
主要介绍了yum安装CDH5.5 hive、impala的过程详解的相关资料,非常不错 具有一定的参考借鉴价值,需要的朋友可以参考下
04-修改配置Hive MetaStore对应Database中的相关字段字符编码为utf8 05-ODS层创建订单相关表及加载数据 06-DIM层维度信息表创建及加载数据 07-PDW层订单表、订单商品表及用户表创建及从ODS层表中导入数据 08-...
包含虚拟机的安装步骤,centos系统安装,网络配置,环境配置,集群配置,详细命令,图文详解。
Linux环境下Hive的安装配置 Hive CLI 和 Beeline 命令行的基本使用 Hive 使用 DDL 操作 Hive 分区表和分区表 Hive 视图和索引 Hive 使用 DML 操作 Hive数据详细查询解 三、火花 火花核心: 斯帕克简介 Spark开发...
本手册主要整理了Hadoop2.2.0的安装,包括QJM实现HA的详细配置,以及Hdfs-site的配置详解。 不包括Hbase、Hive安装
Hive详解12. HBase详解13. Mahout简介14. Pig详解15. ZooKeeper详解16. Avro详解17. Chukwa详解18. Hadoop的常用插件与开发19. Hadoop在yahoo的应用附录A: 云计算在线监测平台附录B: Hadoop安装、运行、使用说明...
Hive详解12. HBase详解13. Mahout简介14. Pig详解15. ZooKeeper详解16. Avro详解17. Chukwa详解18. Hadoop的常用插件与开发19. Hadoop在yahoo的应用附录A: 云计算在线监测平台附录B: Hadoop安装、运行、使用说明...
《大数据技术丛书:Hadoop应用开发技术详解》共12章。第1~2章详细地介绍了Hadoop的生态系统、关键技术以及安装和配置;第3章是MapReduce的使用入门,让读者了解整个开发过程;第4~5章详细讲解了分布式文件系统HDFS...
《大数据技术丛书:Hadoop应用开发技术详解》共12章。第1~2章详细地介绍了Hadoop的生态系统、关键技术以及安装和配置;第3章是MapReduce的使用入门,让读者了解整个开发过程;第4~5章详细讲解了分布式文件系统HDFS...
SpringBoot配置详解 SpringBoot日志配置 SpringBoot整合Thymeleaf模板 使用JdbcTemplate访问数据库 整合SpringDataJpa 整合Mybatis 通用Mapper与分页插件的集成 整合Lettuce Redis 使用Spring Cache集成Redis 集成...
企业级配置与Hive集成 5.主从架构及元数据服务管理 第四章:Impala企业实战开发案例 1.基于企业案例实现Impala集群管理 2.Impala最全SQL语法详解 3.实战开发Impala数据库与表管理 4.基于分析案例实现Impala...
4.Hue的安装及服务管理详解 第三章:Hue与Hadoop及Hive集成 1.Hue配置集成Hadoop 2.Hadoop配置代理用户 3.Hue集成HDFS实战案例 4.Hue集成YARN实战案例 5.Hue集成JobHistoryServer实战案例 6.Hue配置集成...
目录1.WordCountWordCount 执行流程详解2.统计最受欢迎老师topN1. 方法一:普通方法,不设置分组/分区2. 方法二:设置分组和过滤器3. 方法三:自定义分区器3.根据IP计算归属地 1.WordCount Spark Core入门案例。 //...
6.Sqoop的部署安装及配置 第二章:Sqoop数据导入实战开发 1.Sqoop导入开发参数详解 2.数据导入分布式文件系统HDFS 3.数据导入数据仓库Hive 4.基于复杂条件实现数据导入 5.基于订单案例实现Increment增量...