hadoop job推测执行 - - ITeye博客

`

essen

浏览: 326322 次
性别:
来自: 北京

最近访客更多访客>>

belllab

czmmiao

killbrokenwolf

lilei_java

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

一EE：插件更新地址：http://download.eclipse. ...
用Eclipse Memory Analyzer查找内存泄露
heipark： Good!
flask-sqlachemy note

hadoop job推测执行

博客分类：

hadoop

阅读更多

什么是推测执行？

所谓的推测执行，就是当所有task都开始运行之后，Job Tracker会统计所有任务的平均进度，如果某个task所在的task node机器配置比较低或者CPU load很高（原因很多），导致任务执行比总体任务的平均执行要慢，此时Job Tracker会启动一个新的任务（duplicate task），原有任务和新任务哪个先执行完就把另外一个kill掉

怎么配置推测执行参数？

推测执行需要设置Job的两个参数：

mapred.map.tasks.speculative.execution

mapred.reduce.tasks.speculative.execution

两个参数的默认值均为true.

推测执行调度策略是什么？

推测执行逻辑：

// 1. Check bottom up for speculative tasks from the running cache

// 2. Check breadth-wise for speculative tasks

// 3. Check non-local tips for speculation

关键逻辑比较执行时间超过平均task执行时间某个百分比，定位为需要推测执行的job

//SPECULATIVE_GAP =0.2
(averageProgress - progress >= SPECULATIVE_GAP ) && (currentTime - startTime >= SPECULATIVE_LAG

P.s. 看源码的时候看到调度map task的策略，故记下。

JobInProgress添加新的maptask的调度策略

// When scheduling a map task:

// 0) Schedule a failed task without considering locality

// 1) Schedule non-running tasks

// 2) Schedule speculative tasks

// 3) Schedule tasks with no location information

map task调度策略：

1、失败的task，不考虑地点

2、没跑过的task

3、推测执行的task

4、nonLocalRunningMaps中的task

分享到：

java volatile关键字 | 用Eclipse Memory Analyzer查找内存泄露

2013-04-08 19:32
浏览 4514
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

win7下hadoop job提交: win7下hadoop job提交

Hadoop提交Job执行MR程序代码.zip: 内容概要： HadoopMR程序代码； job提交流程； mr程序的几种提交运行模式；

Hadoop作业执行时间在线计算方法: 在Hadoop MapReduce环境中,如果能预知作业的执行时间,就可在资源分配、任务调度以及负载均衡过程中作出更合理的决策,改善系统性能.在分析Hadoop MapReduce作业执行模式后,提出了一种作业执行时间在线预测方法.该方法...

hadoop教程Hive执行过程: hive执行过程，便于初学者尽快掌握hive开发所需知识和技能。

Hadoop大数据处理-Job提交过程分析: 大数据（bigdata）中，Hadoop如何处理提交的作业（Job），本课件深入分析，一目了然。

Hadoop多Job并行处理的实例详解: 主要介绍了Hadoop多Job并行处理的实例详解的相关资料,希望通过本文能帮助到大家，需要的朋友可以参考下

Hadoop的MapReduce执行过程介绍.pdf: Hadoop的MapReduce执行过程介绍.pdf

windows下hadoop需要安装所需执行文件: 针对解决由一个HADOOP在window环境下，不可执行的问题

hadoop2.7.3 hadoop.dll: 在windows环境下开发hadoop时，需要配置HADOOP_HOME环境变量，变量值D:\hadoop-common-2.7.3-bin-master，并在Path追加%HADOOP_HOME%\bin，有可能出现如下错误： org.apache.hadoop.io.nativeio.NativeIO$Windows....

hadoop2.8.5 windows执行map-reduce需要的所有文件: hadoop2.8.5 windows执行map-reduce需要的所有文件,hadoop.dll,winutils.exe,NativeIO.java 有问题看我博客https://blog.csdn.net/u014172271

HadoopHA集群部署、YARNHA测试Job教学课件.pptx: YARN HA 测试Job YARN HA 测试Job 序号任务名称任务一准备MapReduce输入文件任务二将输入文件上传到HDFS 任务三运行MapReduce程序测试Job 任务一准备MapReduce输入文件在master主节点，使用 root 用户登录，...

windows 下执行hadoop命令的工具: winutils windows hadoop 工具模拟执行linux的几个命令用的。添加到 hadoop-2.2.0\bin下面就行了。

新版Hadoop视频教程段海涛老师Hadoop八天完全攻克Hadoop视频教程 Hadoop开发: 03-storm的topology提交执行.avi 04-kafka介绍.avi 05-kafuka集群部署及客户端编程.avi 06-kafka消费者java客户端编程.avi 第八天实战项目 01-项目背景及技术架构.avi 02-主要技术选型.avi 03-flume介绍...

hadoop-2.6.0-hadoop.dll-winutils.exe: at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1296) at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1293) at java.security.AccessController.doPrivileged(Native Method) at javax....

《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf: 《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf...

hadoop_job_execute_conf.xml: hadoop1.2.1执行完计算后，从hdfs中找出来的配置文件，可以帮助指导学习其配置

Hadoop下载 hadoop-2.9.2.tar.gz: Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo 的工程师 Doug Cutting 和 Mike Cafarella Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo...

一步一步跟我学习hadoop(6)----hadoop利用FileSystem API 执行hadoop文件读写操作: hadoop filesystem api常见使用说明

Hadoop下载 hadoop-3.3.3.tar.gz: Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不...

Spring、Hadoop、Spark执行缺少winutils: SpringMVC和Hadoop整合时报缺少winutils，此工具包中包含了该工具

Global site tag (gtag.js) - Google Analytics