hbase0.94之后split策略 -

zhangxiong0301

浏览: 364779 次

最近访客更多访客>>

brosnan2800

rl724

itgege

fhtwins

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

hbase0.94之后split策略

博客分类：

HBASE

hbase split

问题导读

1.而在0.94版本之后，默认split策略修改为了什么？
2.这种策略有什么好处？

HBase 0.94中的Split策略

HBase 0.94之前版本中，split使用的是ConstantSizeRegionSplitPolicy。当region中文件大小超过配置中所指定大小时，会进行切分。

而在0.94版本之后，默认split策略修改为了IncreasingToUpperBoundRegionSplitPolicy。该策略使用了另一种方法来计算是否应当切割，导致原先的参数失效。

该方法中的分配策略，是根据table中region的个数平方，乘以memstore的大小。得出应当切分的大小。

假设memstore size配置为128M，则在memstore第一次刷入HFile数据时，进行第一次split，1 * 1 * 128M = 128M。

当region数达到2个时，2 * 2 * 128M = 512M。

当region数达到3个时，3 * 3 * 128M = 1152M。

依此类推。

当region个数到达30个时，30 * 30 * 128 = 107648M = 105.1G。即在此时，region的切分大小已经超过了我们原先在ConstantSizeRegionSplitPolicy策略中设置的100G大小。

简单分析

对这种策略进行简单的分析，可以看到，在数据写入初期，这种策略可以快速的对现有region进行split，使得在一开始就可以将热点region切分到多个server上。同时由于region size较小，也可以避免split操作对写入的阻塞。

而在后期，当region数量逐渐增多，单个region size逐渐增大时，split频率会急速减少，避免在region过大时频繁split的情况。

这种策略一方面在数据量增大的情况下减少了region的切分次数，达到了我们期望的尽量减少split的需求，避免对写入造成影响。同时在初期的快速切分，在基本不影响写入的同时，也减少了我们原先需要手动操作split的问题。可以认为，这种策略是符合我们需求的。当然，还需要进一步的测试来进行验证。

源码

源码如下：

/**
* @return Region max size or <code>count of regions squared * flushsize, which ever is
* smaller; guard against there being zero regions on this server.
*/
long getSizeToCheck(final int tableRegionsCount) {
return tableRegionsCount == 0? getDesiredMaxFileSize():
Math.min(getDesiredMaxFileSize(),
this.flushSize * (tableRegionsCount * tableRegionsCount));
}
@Override
protected boolean shouldSplit() {
if (region.shouldForceSplit()) return true;
boolean foundABigStore = false;
// Get count of regions that have the same common table as this.region
int tableRegionsCount = getCountOfCommonTableRegions();
// Get size to check
long sizeToCheck = getSizeToCheck(tableRegionsCount);
for (Store store : region.getStores().values()) {
// If any of the stores is unable to split (eg they contain reference files)
// then don't split
if ((!store.canSplit())) {
return false;
}
// Mark if any store is big enough
long size = store.getSize();
if (size > sizeToCheck) {
LOG.debug("ShouldSplit because " + store.getColumnFamilyName() +
" size=" + size + ", sizeToCheck=" + sizeToCheck +
", regionsWithCommonTable=" + tableRegionsCount);
foundABigStore = true;
break;
}
}
return foundABigStore;
}

分享到：

Jstat详解 | HBASE COPROCESSOR EndPoint实例

2015-04-18 15:57
浏览 865
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hbase0.94之后split策略

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hbase0.94之后split策略

评论

发表评论

相关推荐

HBase安全及namespace操作

How-to: Use HBase Bulk Loading, and Why

HBase的Block Cache实现机制分析

hbase中的MSLAB

hbase优化（1）

实时系统HBase读写优化--大量写入无障碍

hbase0.96—+版本的endpoint

hbase observer

hbase block cache中的in-memory

HBASE COPROCESSOR EndPoint实例

HBASE在QIHOO 360搜索中的应用

HBase的long GC与 Zookeeper lease expired的权衡(转载)

hadoop+hbase+hive日常异常记录

HBASE API高级特性

HBASE 协处理器入门（转载）

HBASE数据架构

HBASE高级应用

HBASE高级应用

HBASE ScannerTimeoutException 问题

hbase维护（转载）

最近访客更多访客>>