HMaster的failover 流程(三)

punishzhou

浏览: 143934 次

最近访客更多访客>>

perfect6566

irisYU

TieMushan

lujisen

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

HBase Server端 HMaster

hbase server master failover zookeeper

继续HMASTER的failover 流程

上一篇说道master failover的一个漏洞，这几天好好的看了一下，终于找到问题的关键在
哪儿了。首先来看如何重现。

1. master 发送rpc请求去open region，此时zk上的节点时offline状态。
2. rs收到请求还没有开始处理，即zk节点仍然是offline。
3. master重启
4. master开始failover 流程，rs继续处理open region动作

关键就在第四步：
如果rs已经将region open了。

1）. master先收到zk node changed时间。然后再处理failover流程

1.1 收到zk事件，查看rit队列该region为null，则不做任何处理。然后failover处理的时候会将该region 重新assign。如果assign的是同一个regionserver，那么会立刻返回，且rs此次open动作结束。即region只在该rs上分配了一次，但是master的内存中并没有更新master中regions存放的信息是不准确的，影响balance；另外region依旧在RIT中，超时以后依旧会继续分配到另外一个region中，造成二次分配。

1.2 assign到不同rs，则显然会二次分配。

2）.master先处理failover流程，再处理zk事件。

2.1 failover中会assign 该region，RIT为PENDINGOPEN，zk节点时offline。此时rs也在openregion 并更新zk节点，如果在此过程中有冲突的话会导致rs 或是master abort掉。

2.2 master的assign如果到不同rs上的话也会导致二次分配。

2.3 如果是同一个rs的话assign 动作结束。

2.3.1 master处理zk事件，如果此时getdata是opened的话，那么在RIT中是pendingopen，符合预期，更新master内存这个逻辑是正确的。

2.3.2但是master getdata的数据可能已经是被修改的数据，即虽然触发的是opened事件，但是在master 的nodedatachanged函数中去getdata得到的数据并不一定是opened，如有可能是offline（assign 动作更新的）这就导致master的内存又不正确，RIT也没有清空，又会二次分配。

上面所说的先处理failover还是先处理zk事件，是因为对这两个操作都是需要对RIT队列上锁的，是串行的。可以看到如果zk上状态是offline时master failover会有很大可能导致集群状态不一致，或是二次分配。

90中修正这个比较难。因为涉及到rpc通信协议的修改。

94中如何修改呢？

将要region将要在何处open的rs数据写入到zk中，即在zk上记录该region将要在那个regionserver上打开。

zk上的servername是master。这种只有当failover时有deadserver时，master会创建该region节点才会出现，即rpc请求肯定没有发送

zk上的servername是regionserver。且该server online，那么将assign该region的动作重写，不需要创建或是更新zk上面的节点。
如果region已经在rs上面分配成功了，RPC会返回alreadyopen然后会更新master内存。
如果region还在分配，rpc返回不做处理。当master收到rs 成功open region以后会更新
内存。

针对上面的几个问题

1.1 收到zk事件，查看rit队列该region为null，则不做任何处理。然后failover处理的时候会将该region 重新assign如果assign的是同一个regionserver，那么会立刻返回，且rs此次open动作结束。即region只在该rs上分配了一次，但是master的内存中并没有更新master中regions存放的信息是不准确的，影响balance；另外region依旧在RIT中，超时以后依旧会继续分配到另外一个region中，造成二次分配。

答：收到zk时间发现RIT队列是null，此时94会有一个判断，如果是正在failover那么会更新master内存。并将region加入一个队列，当failover开始执行的时候，发现该region已经被处理了，则该region的failover就不会再处理了。

1.2 master的assign如果到不同rs上的话也会导致二次分配。

答：master assign现在只会分配到同一台rs上。

2.1 failover中会assign 该region，RIT为PENDINGOPEN，zk节点时offline。此时rs也在openregion 并更新zk节点，如果在此过程中有冲突的话会导致rs 或是master abort掉。

答：修改了region failover assign的逻辑，当分配到同一台region的话，是不会去更新或是创建zk节点的，因此也就不会有冲突。如果是zk上的servername是master的话，那么该region的rpc尚未发出，创建节点就不会冲突

2.2 master的assign如果到不同rs上的话也会导致二次分配。

答：只会分配到同一台rs。

2.3 如果是同一个rs的话assign 动作结束。master处理zk事件，如果此时getdata是opened的话，那么在RIT中是PENDINGopen，符合预期，更新master 内存这个逻辑是正确的。但是master getdata的数据可能已经是被修改的数据，即虽然触发的是opened事件，但是在master 的nodedatachanged函数中去getdata得到的数据并不一定是opened，如有可能是offline（assign 动作更新的）这就导致master的内存又不正确，RIT也没有清空，又会二次分配

答：更新zk节点只有一个线程在操作不会存在两个线程了，因此不存在getdata的数据与触发的事件不一致的结果。

分享到：

HTable的使用 | HMaster的failover 流程(二)

2012-07-02 21:15
浏览 2040
评论(0)
分类:数据库
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论