Hadoop的mapred TaskTracker端源码概览

jiwenke

浏览: 396929 次
性别:
来自: 南京

最近访客更多访客>>

5hao

trymybesttodo

tanss

njxlinjxl

博主相关

博客

微博

相册

留言

关于我

博客专栏

: Spring技术内幕——深...
浏览量：181770

: 随笔：Spring与云计算...
浏览量：25484

文章分类

社区版块

存档分类

博客分类：

默认类别

Hadoop JVM Mapreduce 虚拟机

花了许多功夫把Hadoop的mapreduce实现过了一遍，基本线索理清楚了：
1. 任务的运行时TaskTracker通过heartbeat取得
2. TaskTracker得到hearbeatresponse之后，会根据封装在response里的action来决定行为
3. 如果是launchaction的话，调用TasklLauncher,在startNewTasks中的localizeJob调用launchTaskForJob然后再TaskInProgress中launchTask让runner.start(); - 这里面的startNewTasks是在线程中的run方法中，而TaskLauncher的notifyall会把线程唤醒：

    
public void addToTaskQueue(LaunchTaskAction action) {
      synchronized (tasksToLaunch) {
        TaskInProgress tip = registerTask(action, this);
        tasksToLaunch.add(tip);
        tasksToLaunch.notifyAll();
      }
    }

而这个addToTaskQueue方法是在offerService中调用的,这样就整过过程就街上了：

            if (action instanceof LaunchTaskAction) {
              addToTaskQueue((LaunchTaskAction)action);
            } else if (action instanceof CommitTaskAction)

4. 这个时候就回到TaskRunner.run中去launchJVM，当然要把这个JVM的参数构造好，这个JVM就是我们看到map任务运行的JVM
5. 然后JVMRunner会spawn JVM，这是通过shexe Child这个类来实现的，这个Child的main就是新起的JVM的主函数入口
6.在Child.main中会对任务的类型进行判断，调用相应的MapTask.run和ReduceTask.run
7.这个时候就可以看到mapper.map入口啦，然后就开始执行用户定义的mapper！

所以Child启动以后的log输出和前面TaskTracker的输出不在同一个文件里，因为已经不是一个虚拟机了。

5
顶

0
踩

分享到：

Hadoop的mapred JobTracker端源码概览 | Hadoop的mapred TaskTracker端源码概览

2009-02-17 14:39
浏览 4048
评论(2)
分类:企业架构
查看更多

2 楼 luweimstr 2011-09-01

学习了

1 楼 lin36 2010-11-30

谢谢

发表评论

您还没有登录,请您登录后再发表评论