Hadoop为什么处理小数据量时效果不好？

tangjunliang

浏览: 107334 次
性别:
来自: 北京

最近访客更多访客>>

lingmincc

bruce__ray

luojianbing

kaogua

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hadoop

hadoop

Every file, directory and block in HDFS is represented as an object in the namenode’s memory, each of which occupies 150 bytes, as a rule of thumb. So 10 million files, each using a block, would use about 3 gigabytes of memory.

摘自：http://blog.cloudera.com/blog/2009/02/the-small-files-problem/

hadoop处理大量小数据文件效果不好。

hadoop对数据的处理是分块处理的，默认是64M分为一个数据块，如果存在大量小数据文件（例如：2-3M一个的文件）这样的小数据文件远远不到一个数据块的大小就要按一个数据块来进行处理。
这样处理带来的后果由两个：1.存储大量小文件占据存储空间，致使存储效率不高检索速度也比大文件慢。
2.在进行MapReduce运算的时候这样的小文件消费计算能力，默认是按块来分配Map任务的（这个应该是使用小文件的主要缺点）

那么如何解决这个问题呢？
1.使用Hadoop提供的Har文件，Hadoop命令手册中有可以对小文件进行归档。
2.自己对数据进行处理，把若干小文件存储成超过64M的大文件。

hadoop 针对大块数据、流式处理
小文件：网络、IO的开销与文件本身传输的开销比重太大，如果大文件就不一样了
SequeceFile是Hadoop API提供的一种二进制文件支持。这种二进制文件直接将<key, value>对序列化到文件中。一般对小文件可以使用这种文件合并，即将文件名作为key，文件内容作为value序列化到大文件中。这种文件格式有以下好处：
支持压缩，且可定制为基于Record或Block压缩（Block级压缩性能较优）
本地化任务支持：因为文件可以被切分，因此MapReduce任务时数据的本地化情况应该是非常好的。
难度低：因为是Hadoop框架提供的API，业务逻辑侧的修改比较简单。
坏处是需要一个合并文件的过程，且合并后的文件将不方便查看。

除了小文件会占用太多NN的元数据存储外，过多的小文件会产生更多的小任务，任务上下文切换时间过多，CPU等资源利用也不足，整理计算性能会大大降低.

分享到：

hadoop参数配置优化 | LINUX下查看文件夹下的文件个数

2014-03-11 16:50
浏览 1126
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论