1 map端优化:
1.1 shuffle过程中:
数据从mapper端传递到reducer端的过程, 网络传输 磁盘读写操作 这是最耗费时间的.
此时,可以进行数据压缩,参考链接:hadoop压缩
1.2 map端的数据排序是发生在内存中,如果map缓冲区越大,那么写出到磁盘的次数就越少。
map端将内存中的数据spill到磁盘的时候,如果磁盘的是固态硬盘,那么存储的速度会更快
1.3 如果map到reduce中,网络是千兆的自然也会比百兆的网速拷贝速度快.
1.4 map job调优:
推测执行: 如果某个任务执行过慢,会对同一份数据产生多个mapper任务,同时执行,谁先执行完了就用谁的东西, 这就是推测执行,在集群中需要关闭。
但是关闭后,如果这个任务执行失败了,那么还会重新启动这个任务,但是从概率上讲,很少发生。
mapred.map.task.speculative.execution=true;
mapred.reduce.task.speculative.execution=false ;
开启jvm重用: 每个mappre任务启动单独进程,JVM重用就用一个JVM数据都放在这一个里面,开启后避免了不断新建Java进程,坏处进程死掉则后面无法执行,如果数据存在属性变量会出现
环境污染,谨慎开启吧
mapred.job.reuse.jvm.num.tasks=-1
增加InputSplit大小: InputSplit.size由三个要素决定: min max blocksize
mapred.min.split.size=268435456
增大map输出的缓存: 意味着向磁盘输出map数量次数减少。
io.sort.mb=300
增加合并spill文件数量: 目的还是减少写入磁盘的次数
io.sort.factor=50
map端输出压缩,推荐LZO压缩算法
mapred.compress.map.output=true;
mapred.map.output.compression.codec=com.hadoop.compression.lzo.LzoCodec;
增大shuffle复制线程数: 加快拷贝速度
mapred.reduce.parallel.copies=15
设置单个节点的map和reduce执行数量(默认每个都是2) 前提是机器配置别太差,内存 硬盘都要足 ----> 看数据资源中心测试环境的配置
mapred.tasktracker.map.tasks.maxinum=2
mapred.tasktracker.reduce.tasks.maxinum=2
相关推荐
本文分析Hadoop平台存在的局限和不足,提出一个解决方案,充分利用任务和I/O的多重并发,平衡磁盘和网络带宽,减少瓶颈出现的可能性,提高系统性能。
Hadoop平台的性能优化研究从cnki上下的资料Hadoop平台的性能优化研究Hadoop平台的性能优化研究Hadoop平台的性能优化研究Hadoop平台的性能优化研究Hadoop平台的性能优化研究Hadoop平台的性能优化研究
Hadoop平台优化文献综述.docxHadoop平台优化文献综述.docxHadoop平台优化文献综述.docxHadoop平台优化文献综述.docxHadoop平台优化文献综述.docxHadoop平台优化文献综述.docxHadoop平台优化文献综述.docxHadoop平台...
基于GPU的Hadoop平台优化实现.pdf
hadoop学习过程中的调优总结,Mapreduce/hive相关的调优,Linux层面的一些调优,Mr/hive 的调优
由于认识到Hadoop的巨大潜力,更多的用户在使用现有Hadoop平台技术的同时,着手研发和优化现有技术,以对Hadoop进行补充.在给出Hadoop系统基本框架的基础上,阐述了MapReduce并行计算框架优化、作业调度优化、HDFS性能...
大数据技术之Hadoop(优化&新特性).doc详细文档
Hadoop优化以及MR跑的慢的原因和MR优化的一些方法,Hadoop对于小文件的优化方法,以及一些解决方案
Hadoop集群高可用与性能优化
hadoop平台的监控个、优化、自动调度等,强烈推荐大家
Hive Hadoop Spark优化
Hadoop 性能优化研究 对研究hadoop的人进行性能优化有一定的帮助
本文首先介绍了Hadoop平台的背景,包括它在技术背景上的产生与发展,在应用背景上的应用与前景。之后对 Hadoop的关键技术 HDFS、MapReduce和Scheduler进行研究分析。在此研究基础之上,本文指出MapReduce应用可在程序、...
hadoop高可用集群搭建及参数优化hadoop高可用集群搭建及参数优化hadoop高可用集群搭建及参数优化
对Hadoop平台的作业调度算法进行了研究,提出了支持作业类型区分的多队列调度优化算法。优化算法支持根据节点当前的负载情况分配不同类型的作业,以提高节点的资源利用率;允许作业队列的资源在闲置时被其他作业队列...
dfs.datanode.du.reserved - 磁盘满了导致的问题很难预料,HDFS可能会导致部分数据写入异常,MySQL可能会出现直接宕机等等, 所以最好的办法就是:不要使盘的利用率达到100%。 - 数据存储周期规划好,定期清理...
hadoop yarn优化配置项生成工具,需要安装python环境,执行例如:python yarn-utils.py -c 24 -m 256 -d 4
EnterpriseDB剑指Hadoop:优化数据处理
针对Hadoop平台MapReduce分布式计算模型运行机制中的顺序制约而产生的计算资源浪费问题,从提高平台中每个执行节点的细粒度并行数据处理角度出发,结合Java共享内存多线程编程技术,对该模型进行了优化,提出一种...