查看Hadoop当前集群信息的方法 -

RichardJ

浏览: 9111 次
性别:
来自: 北京

最近访客更多访客>>

pengcong90

lslab

weicy7600

zhaowu1989

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (4)

社区版块

存档分类

查看Hadoop当前集群信息的方法

Hadoop Apache JSP

我想每隔几秒钟就查看Hadoop集群中有哪些正在运行的Job，每个Job正在运行着多少个Map/Reduce Task。这就牵扯到如何查看当前Hadoop集群信息的问题，我查了查相关的资料。

用过Hadoop的人肯定都使过它提供的webapp来查看集群信息。这个webapp相当强大，所以我首先想到借用webapp的代码，但发现不太可能。

webapp使用JobInProgress对象查看当前Job的信息，而JobInProgress是包访问权限，没有公共接口。而且，要获得JobInProgress得先得到JobTracker对象，让我们看看webapp是如何获得这些对象的。比如，在job tracker.jsp中：
  JobTracker tracker = (JobTracker) application.getAttribute("job.tracker");
  ...
  Vector<JobInProgress> runningJobs = tracker.runningJobs();

竟然直接用 application来获得JobTracker对象，而且网页具有使用JobInProgress接口的权限。

那还有没有别的方法获得JobTracker对象吗？——还没找到。

既然JobInProgress用不了，有人说可以用JobClient获得Job的一些信息，但JobClient不提供查看正在运行的Task数等功能。JobClient可以获得ClusterStatus对象，能够查看集群中正在运行的Map/Reduce任务个数，但我想要的是每个Job各自的任务个数。JobClient还可以获得所有Job的JobStatus，但JobStatus也不包括正在运行Task个数。还可以从JobClient中获得RunningJob，但RunningJob也只能提供Map/Reduce完成的进度（一个float）。

既然JobInProgress是包访问权限，那么我修改Hadoop的源代码。在调度器（调度器和JobInProgress都在org.apache.hadoop.mapred包）中每次分配任务之前，将当前集群中的JobInProgress信息写入到一个文件。而实时证明不管是标准输出还是写入文件，都没反应。

我想法很简单，可是为什么那么难以实现阿

参考：

https://issues.apache.org/jira/browse/HADOOP-1313

0
顶

0
踩

分享到：

[转]大数据量，海量数据处理方法总结

2011-06-20 10:04
浏览 6567
评论(3)
分类:企业架构
查看更多

3 楼 janeen 2013-05-08

你好，我这里有个问题是，我怎么知道哪些job是我的job呢？JobClient.getAllJobs()是拿到所有的job吧。怎么区分哪些是自己的job呢？

2 楼 xuechongyang 2013-03-21

langyu 写道

我提供一种可能的方法，我没试过，你可以分析下是否可行：
1. 从JobClient.getAllJobs()获得当前JT上所有运行的job,返回的是JobStatus数组
2. 根据JobStatus得到jobID，再由JobClient.getJob(jobID)获得RunningJob对象，这个对象中包含着一个重要的数据: Job Counter (RunningJob.getCounters())
3. 从Counter中取得当前job启动了多少个map/reduce task:
counters.findCounter(JobCounter.TOTAL_LAUNCHED_MAPS).getValue()
counters.findCounter(JobCounter.TOTAL_LAUNCHED_REDUCES).getValue()

多谢啊，帮了大忙了

1 楼 langyu 2011-06-20

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

查看Hadoop当前集群信息的方法

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

查看Hadoop当前集群信息的方法

评论

发表评论

相关推荐

最近访客更多访客>>