hbase 备份及恢复 -

lifei0327

浏览: 32937 次

最近访客更多访客>>

JThink

xuwenkeke

yyyCHyzzzz

zcg

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

hbase 备份及恢复

博客分类：

hbase

hbase export mapreduce

1, hbase自带的备份恢复工具
hbase org.apache.hadoop.hbase.mapreduce.Export 'table1' /home/fred/table1
hbase org.apache.hadoop.hbase.mapreduce.Import 'table1' /home/fred/table1
导入时必须先创建表结构。

http://www.iteye.com/topic/1114721

import time  
import datetime  
from datetime import date  
import sys  
import os  
  
tablename=sys.argv[1]  
backupDst=sys.argv[2]  
today=date.today()  
if today.day == 15:    //every month, we do a full backup  
        backupSubFolder=backupDst+today.isoformat()+"-full"  
        cmd="hbase org.apache.hadoop.hbase.mapreduce.Export %s %s"%(tablename,backupSubFolder)  
else:  
  
        yesterday=datetime.date.today()- datetime.timedelta(days=1)  
        todayTimeStamp=time.mktime(today.timetuple())  
        yesTimeStamp=time.mktime(yesterday.timetuple())  
        backupSubFolder=backupDst+today.isoformat()  
        cmd="hbase org.apache.hadoop.hbase.mapreduce.Export %s %s %s"%(tablename,backupSubFolder,str(int(todayTimeStamp)*1000)  
  
print cmd  
  
os.system(cmd)

2, 把某个表(table1)从集群1迁移到集群2（两个集群互相看不见），步骤如下
1、拷贝集群1的表文件到本地磁盘，拷贝之前要停掉集群1的hbase服务，否则会丢失数据
hadoop fs -copyToLocal /hbase/table1 /home/fred/hb_bak/table1

2、对于文件操作，很简单吧，随便你怎么去拷贝来拷贝去
3、如果集群2中也有对应的表文件，那么删除掉，然后拷贝
hadoop fs -rmr /hbase/table1
hadoop fs -copyFromLocal /home/fred/hb_bak/table1 /hbase/table1
4、到hbase的bin目录下，重置该表在.META.表中的分区信息
hbase org.jruby.Main add_table.rb /hbase/table1
5、重启hbase使表的重置信息生效，切忌强制停掉hbase服务，否侧损坏数据

另外：
1、如果表的数据量过大呢？那么按照该表在HDFS中的文件夹数据，分批拷贝。
2、如果两个集群可以互相通信呢？那么更爽了，直接使用distcp对拷，是并行的。

3, HBase Backup Options
http://hbase.info/tag/distcp
如果你打算部署HBase，那么你一定要考虑如何备份的问题，下面是作者列举的他所知道的一些备份方式，如果有遗漏的，欢迎补充。
Export
HBase提供了export的MapReduce Job(org.apache.hadoop.hbase.mapreduce.Export)可以将表导出为HDFS的顺序文件(SequenceFile)，这是由HBASE-1684贡献的工具。此工具一次只能操作一张表，导出的顺序文件可以通过Import工具导入HBase。
Copy Table
在两个HBase集群之间复制数据，也可以通过Copy Table工具，这也是MapReduce实现的，一次操作一张表。
Distcp
你也可以利用HDFS的Distcp工具将整个/hbase复制到另外一个HDFS集群，但如果这可能导致复制的数据不一致，所以尽量不要这么做，除非先将源集群停止服务，参考： http://search-hadoop.com/m/wkMgSjVLDb
Backup from Mozilla
由于Dictcp做集群复制存在数据不一致的问题，Mozilla的开发人员开发了一个Backup工具，具体情况请参考他们的这篇Migrating HBase in the Trenches。
Cluster Replication
HBase从0.89版本开始引入集群复制功能，所以我们也可以利用此功能将数据备份到另一个集群。复制的目标集群不需要和源集群同配置，因此可以将数据通过复制备份到一个较低成本的集群中。
Table Snapshot
在著名的HBase-50中就提出了Snapshot的问题，尽管在GSoC 2010期间做了大量的工作，但不知由于什么原因，一直没有合并进HBase的主流分支。Jira上已经有一个Patch，但已经较长时间无进展了。
HDFS Replication
HDFS中的数据是有多份拷贝的，你也可以把这多份的拷贝当作一种备份，它虽然不能防止数据损坏，但能容忍部分硬件故障。

分享到：

tar | mongo fork

2011-11-10 10:20
浏览 5714
评论(0)
分类:数据库
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hbase 备份及恢复

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hbase 备份及恢复

评论

发表评论

相关推荐

hbase 配置replica个数

hbase 配置replica个数

单机版hbase

hbase 0.90.4 to 0.90.5

hbase link

hbase 查看

最近访客更多访客>>