namenode任务线程之HeartbeatMonitor

dikar

浏览: 2085456 次
性别:
来自: 杭州

最近访客更多访客>>

junoy

sky3063

hzw1199

sagadan

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hadoop

上篇分析了PendingReplicationMonitor 这次分析HeartbeatMonitor

看到这个类名，给我的第一印象就是server端定时心跳client端，其实在以前的话都是这么来做的，但是当client端太多的时候就不适合这种心跳检测模式了，改而换成client给server端发送心跳信息，server端只是负责接收心跳而已，他只是需要在一个端口listen心跳信息即可，如果在一定时间内没收到心跳信息就认为这个client挂了，这种实现方式在client多的情况下很有效，而且对server端的压力大大降低。

好了有了上面的铺垫，那么我们来看看HeartbeatMonitor具体做了什么

首先我们定位到具体执行心跳检测的方法上heartbeatCheck，然后看下他的java doc

 /**
   * Check if there are any expired heartbeats, and if so,
   * whether any blocks have to be re-replicated.
   * While removing dead datanodes, make sure that only one datanode is marked
   * dead at a time within the synchronized section. Otherwise, a cascading
   * effect causes more datanodes to be declared dead.
   */
  void heartbeatCheck()

注释说的很明白我就不翻译了，我们来看看程序的具体实现逻辑，所有的心跳信息都存放在一个列表中，

/**
   * Stores a set of DatanodeDescriptor objects.
   * This is a subset of {@link #datanodeMap}, containing nodes that are 
   * considered alive.
   * The {@link HeartbeatMonitor} periodically checks for outdated entries,
   * and removes them from the list.
   */
  ArrayList<DatanodeDescriptor> heartbeats

那么这些心跳数据从何而来呢，顺腾摸瓜最后到了DataNode，调用过程如下

DataNode.create()------->NameNode.register()------->FSNamesystem.registerDatanode

首先看下心跳的间隔时间和过期时间

 long heartbeatInterval = conf.getLong("dfs.heartbeat.interval", 3) * 1000;

 this.heartbeatRecheckInterval = conf.getInt(
        "heartbeat.recheck.interval", 5 * 60 * 1000); // 5 minutes  心跳检测一次dataNode的心跳信息
 
this.heartbeatExpireInterval = 2 * heartbeatRecheckInterval +
      10 * heartbeatInterval;                                    //datanode的心跳过期时间 超过这个时间的就认为死了

检测分2步

1：// locate the first dead node.
比较 datanode发来的心跳信息更新时间 与 过期时间 确定是否已经是死datanode

2：如果是死节点则进一步执行一些与这个节点相关的操作
例如 ： 1）删除心跳检测信息
           2）更新统计信息
           3）删除块映射信息
           4）从无效集合中删除该节点信息（这个无效节点是干啥的？）
           5）删除节点集群中该节点的信息（这个信息是干啥的？）

上面只是在datanode创建的时候发送的心跳信息，其实在正常运行过程中也是需要发送心跳信息的：

发送过程如下：

DataNode.create------->DataNode.start------->DataNode.offerService---->NameNode.sendHeartbeat---->FSNamesystem.handleHeartbeat

在handleHeartbeat中主要通过更新DatanodeDescriptor这个对象实现的，因为同一个DatanodeDescriptor既放在

heartbeats列表中又放在datanodeMap中，引用是一个。

然后这里有一点不好的是其实列表里的对象是没有重复的，那就应该使用set了，结果搞了个list，equal只比较了name和storageID

分享到：

使用 Android 实现联网 | namenode任务线程之PendingReplicationMoni ...

2011-03-07 00:59
浏览 2376
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论