什么是推测执行?
所谓的推测执行,就是当所有task都开始运行之后,Job Tracker会统计所有任务的平均进度,如果某个task所在的task node机器配置比较低或者CPU load很高(原因很多),导致任务执行比总体任务的平均执行要慢,此时Job Tracker会启动一个新的任务(duplicate task),原有任务和新任务哪个先执行完就把另外一个kill掉
怎么配置推测执行参数?
推测执行需要设置Job的两个参数:
mapred.map.tasks.speculative.execution
mapred.reduce.tasks.speculative.execution
两个参数的默认值均为true.
推测执行调度策略是什么?
推测执行逻辑:
// 1. Check bottom up for speculative tasks from the running cache
// 2. Check breadth-wise for speculative tasks
// 3. Check non-local tips for speculation
关键逻辑比较执行时间超过平均task执行时间某个百分比,定位为需要推测执行的job
//SPECULATIVE_GAP =0.2 (averageProgress - progress >= SPECULATIVE_GAP ) && (currentTime - startTime >= SPECULATIVE_LAG
P.s. 看源码的时候看到调度map task的策略,故记下。
JobInProgress添加新的maptask的调度策略
// When scheduling a map task:
// 0) Schedule a failed task without considering locality
// 1) Schedule non-running tasks
// 2) Schedule speculative tasks
// 3) Schedule tasks with no location information
map task调度策略:
1、失败的task,不考虑地点
2、没跑过的task
3、推测执行的task
4、nonLocalRunningMaps中的task
相关推荐
win7下hadoop job提交
内容概要: HadoopMR程序代码; job提交流程; mr程序的几种提交运行模式;
在Hadoop MapReduce环境中,如果能预知作业的执行时间,就可在资源分配、任务调度以及负载均衡过程中作出更合理的决策,改善系统性能.在分析Hadoop MapReduce作业执行模式后,提出了一种作业执行时间在线预测方法.该方法...
hive执行过程,便于初学者尽快掌握hive开发所需知识和技能。
大数据(bigdata)中,Hadoop如何处理提交的作业(Job),本课件深入分析,一目了然。
主要介绍了Hadoop多Job并行处理的实例详解的相关资料,希望通过本文能帮助到大家,需要的朋友可以参考下
Hadoop的MapReduce执行过程介绍.pdf
针对解决由一个HADOOP在window环境下,不可执行的问题
在windows环境下开发hadoop时,需要配置HADOOP_HOME环境变量,变量值D:\hadoop-common-2.7.3-bin-master,并在Path追加%HADOOP_HOME%\bin,有可能出现如下错误: org.apache.hadoop.io.nativeio.NativeIO$Windows....
hadoop2.8.5 windows执行map-reduce需要的所有文件,hadoop.dll,winutils.exe,NativeIO.java 有问题看我博客https://blog.csdn.net/u014172271
YARN HA 测试Job YARN HA 测试Job 序号 任务名称 任务一 准备MapReduce输入文件 任务二 将输入文件上传到HDFS 任务三 运行MapReduce程序测试Job 任务一 准备MapReduce输入文件 在master主节点,使用 root 用户登录,...
winutils windows hadoop 工具 模拟执行linux的几个命令用的。添加到 hadoop-2.2.0\bin下面就行了。
03-storm的topology提交执行.avi 04-kafka介绍.avi 05-kafuka集群部署及客户端编程.avi 06-kafka消费者java客户端编程.avi 第八天 实战项目 01-项目背景及技术架构.avi 02-主要技术选型.avi 03-flume介绍...
at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1296) at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1293) at java.security.AccessController.doPrivileged(Native Method) at javax....
《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf...
hadoop1.2.1执行完计算后,从hdfs中找出来的配置文件,可以帮助指导学习其配置
Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo 的工程师 Doug Cutting 和 Mike Cafarella Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo...
hadoop filesystem api常见使用说明
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不...
SpringMVC和Hadoop整合时报缺少winutils,此工具包中包含了该工具