`
cumtheima
  • 浏览: 253481 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

Hbase模型与框架分享(2)—Hbase简介

阅读更多
  • (1)定义:
        HBase : Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。
        利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。
  • (2)HBase是Google Bigtable的开源实现
 

BigTable

HBase

文件存储系统

GFS

HDFS

数据处理

MapReduce

Hadoop MapReduce

协调服务

Chubby

Zookeeper

  • (3)hbase在hadoop生态系统中的位置

其中HBase位于结构化存储层

Hadoop HDFS为HBase提供了高可靠性的底层存储支持。

Hadoop MapReduce为HBase提供了高性能的计算能力

Zookeeper为HBase提供了稳定服务和failover机制。

Pig和Hive还为HBase提供了高层语言支持,使得在HBase上进行数据统计处理变的非常简单。

 Sqoop则为HBase提供了方便的RDBMS数据导入功能,使得传统数据库数据向HBase中迁移变的非常方便。

  • (4) Hbase访问接口

a.   Native Java API:

    最常规和高效的访问方式,适合Hadoop MapReduce Job并行批处理HBase表数据

b.   HBase Shell:

    HBase的命令行工具,最简单的接口,适合HBase管理使用

c.   Thrift Gateway:

    利用Thrift序列化技术,支持C++,PHP,Python等多种语言,适合其他异构系统在线访问HBase表数据

d.   REST Gateway:

    支持REST 风格的Http API访问HBase, 解除了语言限制

e.   Pig:

    可以使用Pig Latin流式编程语言来操作HBase中的数据,和Hive类似。

    本质最终也是编译成MapReduce Job来处理HBase表数据,适合做数据统计。

f.   Hive:

    可以使用类似SQL语言来访问HBase。

  • (5)hbase数据模型

 (a) Table & Column Family

(b). Table & Region

当Table随着记录数不断增加而变大后,会逐渐分裂成多份splits,成为regions,一个region由[startkey,endkey)表示,不同的region会被Master分配给相应的RegionServer进行管理:


(c) -ROOT- && .META. Table

HBase中有两张特殊的Table,-ROOT-和.META.

Ø  .META.:记录了用户表的Region信息,.META.可以有多个regoin

Ø  -ROOT-:记录了.META.表的Region信息,-ROOT-只有一个region

Ø  Zookeeper:记录了-ROOT-表的location

  • (5) hbase体系结构
  • (6) hbase存储格式

HBase中的所有数据文件都存储在Hadoop HDFS文件系统上,主要包括上述提出的两种文件类型:

a).  HFile:

    HBase中KeyValue数据的存储格式,HFile是Hadoop的二进制格式文件。

    实际上StoreFile就是对HFile做了轻量级包装,即StoreFile底层就是HFile。

b). HLog File:

    HBase中WAL(Write Ahead Log) 的存储格式,物理上是Hadoop的Sequence File。

 

  • 大小: 94.9 KB
  • 大小: 10.9 KB
  • 大小: 42.4 KB
  • 大小: 39.1 KB
  • 大小: 229.8 KB
1
1
分享到:
评论

相关推荐

    hbase-1.1.5-bin版本的压缩包,下载到本地解压后即可使用 HBase 是一个开源的、分布式的NoSQL数据库

    与传统的关系型数据库类似,HBase 也以表的形式组织数据,表也由行和列组成;不同的是,HBase 有列族的概念,它将一列或者多列组织在一起,HBase 的每一个列都必须属于某个列族。 HBase 是一个可以进行随机访问的...

    hbase-1.2.1-bin.tar的压缩包,下载到本地解压后即可使用 HBase 是一个开源的、分布式的NoSQL 数据库

    与传统的关系型数据库类似,HBase 也以表的形式组织数据,表也由行和列组成;不同的是,HBase 有列族的概念,它将一列或者多列组织在一起,HBase 的每一个列都必须属于某个列族。 HBase 是一个可以进行随机访问的...

    HBase权威指南中文版

    本书以HBase0.94为基础,不仅深入探讨HBase的原理框架和数据模型,更重要的是通过实际案例教诲读者如何运用HBase框架来设计、搭建及运行大数据系统,同时结合生产案例剖析HBase系统运维和性能调优的技巧。

    HBASE调优 rowkey

    HBASE调优 HBASE技术框架与存储模型 v HBASE调优 v 硬件 v 系统参数 v java v 表的设计 v 客户端 v 服务器端

    hbase企业应用开发实战

    本书内容在三个维度上具有重要特色:功能维度,从HBase的安装配置、参数设置,到数据模型、表结构设计、客户端使用、高级特性,本书做了系统且详尽的介绍;实战维度,不仅通过3个典型的应用案例详细讲解了如何使用...

    HBase企业应用开发实战

    , 本书内容在三个维度上具有重要特色:功能维度,从HBase的安装配置、参数设置,到数据模型、表结构设计、客户端使用、高级特性,本书做了系统且详尽的介绍;实战维度,不仅通过3个典型的应用案例详细讲解了如何使用...

    Hbase架构与原理

    HBase是ApacheHadoop中的一个子项目,Hbase依托于Hadoop的HDFS作为最基本存储基础单元,通过使用hadoop的DFS工具就可以看到这些这些数据存储文件夹的结构,还可以通过Map/Reduce的框架(算法)对HBase进行操作HBase是...

    HBase框架学习

    HBase是一个开源的,分布式的,多版本的,面向列的存储模型,它存储的是松散型数据。(1)随着数据规模越来越大,大量业务场景开始考虑数据存储水平扩展,使得存储服务可以增加/删除,而目前的关系型数据库更专注于...

    apache-atlas-2.3.0-hbase-hook.tar.gz

    Apache Atlas 框架是一组可扩展的核心基础治理服务,使企业能够有效且高效地满足 Hadoop 内的合规性要求,并允许与整个企业数据生态系统集成。这将通过使用规范和取证模型、技术和操作审计以及通过业务分类元数据...

    HCIP-Big Data 培训视频教程【共67集】.rar

    17 实时检索场景应用 - HBase简介 18 实时检索场景应用 - HBase应用场景 19 实时检索场景应用 - HBase系统架构 20 实时检索场景应用 - HBase存储模型 21 实时检索场景应用 - HBase缓存与布隆过滤 22 实时检索...

    基于Hadoop的海量交易记录查询系统研究

    的特性、系统框架、副本存放策略和 HBase 的系统框架及数据模型。其次,重点分析了 HBase 的存储特点,通过分析 HBase 的数据存储方式、Region 定位方式和写数据过程,提出了系统 设计的优化和改进建议。接着,对...

    Spark分布式内存计算框架视频教程

    2.Spark 框架概述 3.快速入门 4.Standalone集群及HA 5.Spark 应用开发入门 6.Spark 应用提交 7.Spark on YARN 8.应用部署模式DeployMode 第二章、SparkCore 模块 1.RDD 概念及特性 2.RDD 创建 3.RDD 函数及使用 4....

    大数据平台技术框架选型分析

    大数据平台技术框架选型分析 • 批处理引擎(MapReduce, Hive, Spark) - 适合长时间的数据处理作业,高度 成熟可靠 • 实时数据处理(Spark Streaming)- 实时的数据同时,异常检测,预测分析等 • 自助BI分析/交互...

    大数据BI框架知识点备注.pdf

    2、星型模型与雪花模型的区别在于,例如时间维度表,前者设计为年、⽉、⽇为⼀条记录,后者是年、⽉、⽇分别为三张表,再次⽤外键关联; 3、我们可以在维度表中添加额外信息诸如分类,⽐如产品维度表有产品A、A1、...

    大数据习题-这是一份大数据相关的考试试卷和一些课程内容概述

    4. MapReduce部分主要考查了MapReduce这一分布式计算模型的原理、编程实现和与传统并行计算框架的区别。 5. 数据仓库Hive和Impala部分考查了Hive/Impala在大数据生态中的定位、基本命令以及与传统数据仓库的区别。 ...

    深入理解大数据--大数据并行处理与编程实践

    ■ Hadoop MapReduce并行编程模型、框架与编程接口 ■ 分布式数据表HBase ■ 分布式数据仓库Hive ■ Intel Hadoop系统优化与功能增强 ■ MapReduce 基础算法程序设计 ■ MapReduce高级程序设计技术 ■ MapReduce机器...

    大数据习题(2024)-大数据概述部分主要考查了大数据的基本概念、特征、发展阶段、思维转变、计算模式等基础知识

    MapReduce部分主要考查了MapReduce这一分布式计算模型的原理、编程实现和与传统并行计算框架的区别。 数据仓库Hive和Impala部分考查了Hive/Impala在大数据生态中的定位、基本命令以及与传统数据仓库的区别。 Spark...

Global site tag (gtag.js) - Google Analytics