`
ai_longyu
  • 浏览: 481801 次
社区版块
存档分类
最新评论

什么时候才应该使用HBase?

 
阅读更多

什么时候才应该使用HBase?

张贵宾

guibin.beijing@gmail.com


在使用HBase一定要明白HBase的适用场合,因为HBase并非适用于每种情况。

首先,要确认有足够多的数据存入HBase。

如果有几亿或者几十亿条记录要存入HBase,那么HBase就是一个正确的选择;否则如果你仅有几百万条甚至更少的数据,那么HBase当然不是正确的选择,这种情况下应当选择传统的关系型数据库,因为如果这么少的数据存入HBase,就会导致数据堆积在一两个节点上,而HBase集群内部的其他节点都处于空闲状态。


其次,要确认即便不使用传统关系型数据库提供的额外功能(比如数据库的列有强类型限制,secondary index,transaction,SQL等高级查询语言)系统也能顺畅工作。

基于传统关系型数据上的应用不能通过简单的更换JDBC驱动程序"迁移"到HBase。系统从普通的关系型数据库迁移到HBase将导致整个系统的重新设计。


最后,确认有足够的硬件服务器来支撑HBase的运行。

即便单独运行HDFS,HDFS在少于5个节点的情况下工作不理想,由于在默认情况下HDFS的block replication factor为3,另外还要加上一个Namenode。


参考资料:http://hbase.apache.org/book.html#arch.overview




分享到:
评论

相关推荐

    hive和hbase整合

    配置,测试,导入数据详细操作,CREATE TABLE hive_hbase_table(key int, value string,name string) hadoop jar /usr/lib/hbase/hbase-...注意导入的时候要先在hbase中创建idap_dim_chrg_item_catgy这个表 create

    HBase视频教程下载|基于微博数据应用的HBase实战开发

    当数据量达到TB或PB级的时候,传统关系型数据型已力不从心。在大数据热潮中,推出了NoSQL数据库,这种天生就为分布式存储而设计的技术,尤其以Apache HBase为代表,占领海量数据存储技术的大半壁江山。本教视从实战...

    apache-phoenix-5.0.0-HBase-2.0-bin.tar.gz

    Apache Phoenix是构建在HBase之上的关系型数据库层,作为内嵌的客户端JDBC驱动用以对...直接使用HBase的API,结合协处理器(coprocessor)和自定义的过滤器的话,小范围的查询在毫秒级响应,千万数据的话响应速度为秒级

    Hbase_目录结构.pptx

    /hbase/archive (1) 进行snapshot或者升级的时候使用到的归档目录。compaction删除hfile的时 候,也会把旧的hfile归档到这里等。 /hbase/corrupt (2) splitlog的corrupt目录,以及corrupt hfile的目录。

    hbase常识及habse适合什么场景

    本文来自于csdn,当我们对于数据结构字段不够确定或杂乱无章很难按一个概念去进行抽取的数据适合用使用什么数据库?答案是什么,请看下文如果我们使用的传统数据库,肯定留有多余的字段,10个不行,20个,但是这个...

    hbase-echarts.zip

    java连接hbase做数据库连接 其中hbase的参数配置类已经写在了yml底下,使用的时候只需要修改参数就能使用

    Hbase性能测试详细设计文档及用例q

    默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。 一种可以加快批量写入速度的方法是通过预先创建一些...

    HBase基本使用ppt

    传统的RDBMS关系型数据库(例如SQL)存储一定量数据时进行数据检索没有问题,可当数据量上升到非常巨大规模的数据(TB或PB)级别时,传统的RDBMS已无法支撑,这时候就需要一种新型的数据库系统更好更快的处理这些...

    hive-hbase-handler-1.2.2.jar

    hive和hbase整合的时候,如果出现不兼容的情况需要手动编译:hive-hbase-hander-1.2.2.jar把这个jar替换掉hive/lib里的那个jar包

    Hadoop集群(第12期副刊)_Hbase性能优化

    Linux系统最大可打开文件数一般默认的参数值是1024,如果你不进行修改并发量上来的时候会出现“Too Many Open Files”的错误,导致整个HBase不可运行,你可以用ulimit -n 命令进行修改,或者修改/etc/security/...

    基于微博数据应用的HBase实战开发视频教程下载

    当数据量达到TB或PB级的时候,传统关系型数据型已力不从心。在大数据热潮中,推出了NoSQL数据库,这种天生就为分布式存储而设计的技术,尤其以Apache HBase为代表,占领海量数据存储技术的大半壁江山。本教视从实战...

    hbase-docker:Dockerfile具有用于HBase的映像

    因为有时候,您需要使用ConfigMap将HBase的分布式版本运行到Kubernetes中。 有什么可用的? HBase独立版: 1.3.1嵌入式ZK 1.3.1不带ZK Hbase分布式 1.3.1与Hadoop 2.7.3 我该如何使用? 带嵌入式ZK的独立版 ...

    毕业设计 基于Hbase的Bigtable系统的研究与实践

    主要是自己大学时候的毕业设计,关于Hbase下用聚类算法写的一个搜索工具,实现了将文本存入数据库,然后进行搜索的算法。其中包括了word毕业设计文档,还有答辩的ppt,还有在linux平台下的java源码,希望对这方面有...

    大数据-数据迁移-hive、hbase、kudu迁移

    由于大数据里面涉及到非关系型数据库如hive、kudu、hbase等的数据迁移,目前涉及到的迁移工具都没有支持hive数据库的事务表的迁移,如果hive库里面存在大量的事务表的时候,目前的工具都是不支持的,例如华为的CDM,...

    hbase性能调优

    hbase.regionserver.handler.count:该设置决定了处理RPC的线程数量,默认值是10,通常可以调大,比如:150,当请求内容很大(上MB,比如大的put、使用缓存的scans)的时候,如果该值设置过大则会占用过多的内存,...

    cdap-hbase-increments:HBase 的高效无读增量

    目前该项目配置为使用 HBase 0.98+,但您也可以将其配置为使用 0.96。 如有任何疑问或问题,请在开始讨论。 如何 配置 HBase 表 无读增量需要为表设置。 首先,我们需要构建一个 Coprocessor jar: $ mvn clean ...

    Hbase的region合并与拆分

    当region过大的时候.hbase会拆分region , 这也是Hbase的一个优点 . HBase的region split策略一共有以下几种: 1、ConstantSizeRegionSplitPolicy 0.94版本前默认切分策略 当region大小大于某个阈值(hbase.hregion....

    Hbase与传统数据库的区别

    做互联网应用的哥们儿应该都清楚,互联网应用这东西,你没办法预测你的系统什么时候会被多少人访问,你面临的用户到底有多少,说不定今天你的用户还少,明天系统用户就变多了,结果您的系统应付不过来了了,不干了,...

    Hadoop-hbase大数据环境安装

    Hadoop-hbase大数据环境安装

    关于hbase性能调优文档.docx

    默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空...

Global site tag (gtag.js) - Google Analytics