hadoop优化0

chengjianxiaoxue

浏览: 1325234 次
性别:
来自: 北京

最近访客更多访客>>

liu_shui8

happy2012

nddht

yhtppp

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hadoop1

1 map端优化:

1.1 shuffle过程中:

数据从mapper端传递到reducer端的过程，网络传输磁盘读写操作这是最耗费时间的.

此时,可以进行数据压缩,参考链接:hadoop压缩

1.2 map端的数据排序是发生在内存中，如果map缓冲区越大，那么写出到磁盘的次数就越少。

map端将内存中的数据spill到磁盘的时候，如果磁盘的是固态硬盘,那么存储的速度会更快

1.3 如果map到reduce中，网络是千兆的自然也会比百兆的网速拷贝速度快.

1.4 map job调优:

推测执行: 如果某个任务执行过慢,会对同一份数据产生多个mapper任务,同时执行,谁先执行完了就用谁的东西, 这就是推测执行,在集群中需要关闭。
但是关闭后,如果这个任务执行失败了,那么还会重新启动这个任务,但是从概率上讲,很少发生。
mapred.map.task.speculative.execution=true;
mapred.reduce.task.speculative.execution=false ;

开启jvm重用: 每个mappre任务启动单独进程,JVM重用就用一个JVM数据都放在这一个里面，开启后避免了不断新建Java进程,坏处进程死掉则后面无法执行,如果数据存在属性变量会出现
             环境污染,谨慎开启吧
      mapred.job.reuse.jvm.num.tasks=-1
增加InputSplit大小: InputSplit.size由三个要素决定: min max blocksize
      mapred.min.split.size=268435456
增大map输出的缓存: 意味着向磁盘输出map数量次数减少。
      io.sort.mb=300
增加合并spill文件数量: 目的还是减少写入磁盘的次数
      io.sort.factor=50
map端输出压缩，推荐LZO压缩算法
      mapred.compress.map.output=true;
      mapred.map.output.compression.codec=com.hadoop.compression.lzo.LzoCodec;
增大shuffle复制线程数: 加快拷贝速度
      mapred.reduce.parallel.copies=15
设置单个节点的map和reduce执行数量(默认每个都是2) 前提是机器配置别太差,内存硬盘都要足 ----> 看数据资源中心测试环境的配置
      mapred.tasktracker.map.tasks.maxinum=2
      mapred.tasktracker.reduce.tasks.maxinum=2

分享到：

hadoop调度算法 | hadoop压缩

2015-12-14 12:41
浏览 658
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hadoop优化0

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hadoop优化0

评论

发表评论

相关推荐

hadoop fs命令详解链接

使用 MultipleOutputs设置多路径输出

自定义DBInputFormat,抽取mysql表存储在分库中

64位linux系统编译hadoop源码 native库

YARN内存使用优化配置

mapreduce-chain TODO

hadoop mr实现单表列转行--mr system.out数据位置

google mapreduce杂谈

gfs杂谈

hadoop调度算法

hadoop压缩

hadoop博客整理

hadoop fsimage edits关系

hadoop合并小文件的一些说说

ma-hadoop脚本命令 hadoop-hadoop dfs-hdfs dfs区别

ma-hadoop1 集群内存设置

ma-hadoop集群-配置文件-进程地址端口-和hive hbase关系

ma-大数据HDFS

ma-大数据mapreduce思想和数据切割

ma-云计算 大数据 mapreduce概念和关系

最近访客更多访客>>

ma-云计算大数据 mapreduce概念和关系