`
hlsps
  • 浏览: 31781 次
社区版块
存档分类
最新评论

hive 文件分割的一些经验

阅读更多

最近在工作中用到了hive,因数据量大,需要将hive的文件进行分割:

 

hive的分割方式一,用tasks进行分割:

execute immediate 'set mapred.reduce.tasks=5'

这种分割方式有时会失效,可用下面的分割方式,

 

hive的分割方式二:

 execute immediate 'set hive.merge.size.per.task=1283457024';

 execute immediate 'set hive.merge.smallfiles.avgsize=1283457024';

 

 

分享到:
评论

相关推荐

    Videodata数据文件压缩包包含两个文件夹.rar

    hive项目的一些数据。视频可以有多个所属分类,每个所属分类用&符号分割,且分割的两边有空格字符,同时相关视频也是可以有多个元素,多个相关视频又用“\t”进行分割。为了分析数据时方便对存在多个子元素的数据...

    0738-6.2.0-如何在Hive中使用多分隔符

    文档编写目的 Hive在0.14及以后版本支持字段的多分隔符,参考: ... 而Fayson在以前的文章中也基于C5...如何将多个字符作为字段分割符的数据文件加载到Hive表中,示例数据如下: 字段分隔符为“@#$” test1@#$test1name@#$t

    Hive分区表

    分区表就是对文件进行水平分割,对数据分门别类的分开存储。 分区表有两种: 静态分区: 必须手动显式的添加需要分区的字段值, 分类的值有多少个就要添加多少次 (alter table add partition)。静态分区适合分区字段的...

    Hadoop的数据管理

    前面重点介绍了Hadoop及其体系结构和计算模型MapReduce,现在开始介绍Hadoop的数据管理,主要包括Hadoop的分布式文件系统HDFS、分布式数据库HBase和数据仓库工具Hive的数据管理。HDFS是分布式计算的存储基石,Hadoop...

    Hadoop权威指南(中文版)2015上传.rar

    组合和分割数据 Pig实战 并行处理 参数代换 第12章 Hive 1.1 安装Hive 1.1.1 Hive外壳环境 1.2 示例 1.3 运行Hive 1.3.1 配置Hive 1.3.2 Hive服务 1.3.3 Metastore 1.4 和传统数据库进行比较 1.4.1 读时模式(Schema...

    Hadoop权威指南 第二版(中文版)

     组合和分割数据  Pig实战  并行处理  参数代换 第12章 Hive  1.1 安装Hive  1.1.1 Hive外壳环境  1.2 示例  1.3 运行Hive  1.3.1 配置Hive  1.3.2 Hive服务  1.3.3 Metastore  1.4 和传统数据库进行...

    Hadoop硬实战 [(美)霍姆斯著][电子工业出版社][2015.01]_PDF电子书下载 带书签目录 高清完整版.rar )

    技术点27 在MapReduce、Hive 和Pig 中处理可分割的LZOP 5.3 本章小结 6 诊断和优化性能问题 6.1 衡量MapReduce 和你的环境 6.1.1 提取作业统计信息的工具 6.1.2 监控 6.2 确定性能问题的原因 ...

    Hadoop实战(第2版)

    4.4 本章小结5 优化HDFS 处理大数据的技术5.1 处理小文件技术点24 使用Avro 存储大量小文件5.2 通过压缩提高数据存储效率技术点25 选择合适的压缩解码器技术点26 在HDFS、MapReduce、Pig 和Hive 中使用...

    实验一(搭建Android开发环境)-(含友情提醒).doc

    "进行分割。如图2-4所示。 图2-4 配置Path变量 最后,配置CLASSPATH变量。在"系统变量"中,点击新建,设置CLASSPATH变量,如图 2-5所示。 图2-5 配置CLASSPATH变量 其中,"变量值"中填写:.;%JAVA_HOME%\lib\tools....

    大数据之Pig和Sqoop

    Pig早是雅虎公司的一个基于Hadoop的并行处理架构,后来由Apache来负责...Sqoop专为大数据批量传输设计,能够分割数据集并创建Hadoop任务来处理每个区块,可以结构化数据导入到Hadoop分布式文件系统或Hive和HBase系统。

Global site tag (gtag.js) - Google Analytics