Hive使用一段时间后Hadoop集群占用空间暴增的原因 - 摩西莫西 - ITeye博客

`

chakey

浏览: 359597 次
性别:
来自: 水星

最近访客更多访客>>

279135628

Garbage_bird

tc_123

liuxiao723846

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

mafuli007：
【6】MongoDB数据导入和导出
xchd： czwq2001 写道我带hbase执行的时候出现以下异常，不 ...
Hive HBase整合使用
shanxu9198： geilivable
HBase的数据模型
johnnyzuo：不起作用。希望LZ以后自测后再发，这样很容易误导初学者
hadoop自动清除日志文件的配置方法
hongzhi0618：你好，我到这一步的时候，echo "test mes ...
[4] Scribe使用例子3

Hive使用一段时间后Hadoop集群占用空间暴增的原因

博客分类：

Hive

阅读更多

我使用的是hive。

所有的数据也是在hive中 load data inpath 导入的

导入的数据时保存到虚拟路径 hdfs:////user/hive/warehouse

以一个表一个文件夹的形式

两天来一直面对着一个困惑

从hive中load进去的数据只有600G但是页面显示的DFS Used却为4.2T

这个数据时很不正常的

因为简单地算一下 600G dfs.replication = 3 那么也在1.4T左右的空间。

通过查看 browse the file system 看到三个文件夹

/data 对应于 dfs.data.dir

/system

/user 对应于 hive.metastore.warehouse.dir

问题已经解决，空间容量已经下降到正常值了,可以正常使用运算了。

原因是：

运算过程产生的中间的数据并没有删除掉。因为有些操作产生的结果并没有放到warehouse中，那么这部分数据就放到了/data目录下，系统没能够自动删除这部分数据，所以导致空间上涨很快。

例如;

create table test( ip string );

insert overwrite table test select ip from blog;

这样结果是保存到hive中的；

但如果直接

select ip from blog;

那么结果是临时放在/data目录下的，但是最终却没有释放。

这个dfs.data.dir 默认目录本为/tmp由liunx系统定期自动删除，路径被覆盖为/data/hadoop-0.19.1/dfsdata后系统就找不到了，所以无法自动删除。

不可以直接删除这个目录，否则会导致全部数据块丢失。

必须进入hdfs删除

方法如下

hadoop fs -rmr hdfs:////data/

hive中的操作并不是实时执行的，会有一定的延迟，所以有时执行操作，并不会立即看的到。

0
顶

3
踩

分享到：

K-means聚类方法 | 修改Hadoop集群的备份数

2011-02-25 14:09
浏览 4492
评论(0)
分类:数据库
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hadoop+Hive集群搭建步骤: VM虚拟机上，安装ubantu搭建hadoop+Hive集群，步骤详细。

Hadoop集群搭建及Hive的安装与使用: Hadoop集群搭建及Hive的安装与使用

Hadoop hbase hive sqoop集群环境安装配置及使用文档: Hadoop hbase hive sqoop集群环境安装配置及使用文档

Hadoop集群程序设计与开发: 《Hadoop集群程序设计与开发(数据科学与大数据技术专业系列规划教材)》系统地介绍了基于Hadoop的大数据处理和系统开发相关技术，包括初识Hadoop、Hadoop基础知识、Hadoop开发环境配置与搭建、Hadoop分布式文件系统、...

hadoop集群配置之———hive安装与配置（超详细）: hadoop集群配置之———hive安装与配置（超详细）

从VMware中安装CentOS到Hadoop集群+ Hive+ MySQL搭建: 适合新手，详细 01-Java环境安装 02- Eclipse下载与安装 03-VMware虚拟机的安装 04-在VMware中安装CentOS 05- Hadoop集群+ Hive+ MySQL搭建

Ambari部署Hadoop集群.doc: Hadoop生态圈包含HDFS、MapReduce、HBase、Hive、Pig、Flume、Sqoop、ZooKeeper等诸多组件。对大数据的初学者来说，搭建一个Hadoop大数据基础平台不是一件容易的事；对于企业，如果要部署由成千上万的节点组成的...

Hadoop集群监控与Hive高可用.pdf: Hadoop集群监控与Hive高可用.pdf

基于hadoop2.85的hive2.3.4安装: 安装hive前提是要先安装hadoop集群，并且hive只需要再hadoop的namenode节点集群里安装即可(需要再所有namenode上安装)，可以不在datanode节点的机器上安装。另外还需要说明的是，虽然修改配置文件并不需要你已经把...

hadoop+zookeeper+hbase+hive集群安装配置: 从零开始hadoop+zookeeper+hbase+hive集群安装搭建，内附详细配置、测试、常见error等图文，按照文档一步一步搭建肯定能成功。（最好用有道云打开笔记）

hadoop集群: hadoop集群的搭建hbase，hive，mysql一系列hadoop组件的安装！

Hadoop集群监控与Hive高可用-向磊.pdf: Hadoop集群监控与Hive高可用-向磊这个是pdf高清文字版本

Hadoop集群搭建Hive的安装配置: hadoop安装与配置,Hadoop集群搭建Hive的安装配置,掌握数据仓库⼯具Hive的安装和配置

hadoop+hbase+hive集群搭建: hadoop+hbase+hive集群搭建

hadoop集群jar包大全: 包含hadoop集群开发项目所需所有jar包，其中包含支持hive，hbase，sftp，junit等等以及一些小实例

Hadoop之hive安装: Hadoop伪分布下的hive安装及错误的更改

细细品味Hadoop_Hadoop集群（第14期）_Hive应用开发.pdf: Hadoop_Hadoop集群Hadoop_Hadoop集群Hadoop_Hadoop集群Hadoop_Hadoop集群Hadoop_Hadoop集群Hadoop_Hadoop集群Hadoop_Hadoop集群Hadoop_Hadoop集群Hadoop_Hadoop集群

基于centos的大数据hadoop集群搭建说明文档: 适用于初学者徒手搭建hadoop集群，文档细致，完全傻瓜模式，非常好用

基于虚拟机hadoop集群hive2.1.1配置文件: 基于虚拟机搭建的hadoop集群，一个master和三个slaves，hive配置文件仅供参考！

Hadoop集群上安装hive并运行一个例子的排错分析: Hadoop集群上安装Hive并运行一个例子；其中包括一些排错方法：Error: org.apache.hadoop.mapred.JobConf.unset(Ljava/lang/String;)V 以及：FAILED: Error in metadata: javax.jdo.JDOFatalDataStoreException: ...

Global site tag (gtag.js) - Google Analytics