`
小网客
  • 浏览: 1239095 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

MR中Hbase的Scan使用技巧

 
阅读更多

Hadoop的MR运算中,Hbase可以作为输入数据源参与运算,其中作为HTable的迭代器Scan有几个使用技巧

涉及的方法如下:

public void setBatch(int batch)
public void setCaching(int caching)
public void setCacheBlocks(boolean cacheBlocks)

public void setBatch(int batch) :

为设置获取记录的列个数,默认无限制,也就是返回所有的列

public void setCaching(int caching):

每次从服务器端读取的行数,默认为配置文件中设置的值

public void setCacheBlocks(boolean cacheBlocks):

为是否缓存块,默认缓存,我们分内存,缓存和磁盘,三种方式,一般数据的读取为内存->缓存->磁盘,当MR的时候为非热点数据,因此不需要缓存

因此在MR的时候最好设置如下:

scan.setCacheBlocks(false);
scan.setCaching(200);//大了占内存,但是rpc少
scan.setBatch(6);//你需要的列

 

0
3
分享到:
评论

相关推荐

    MR程序Bulkload数据到hbase

    通过学习和理解这些代码,你可以更好地掌握如何在实际生产环境中使用MapReduce进行HBase的数据批量导入。在具体操作时,需要注意数据的正确性、性能优化以及错误处理,以确保数据加载的稳定性和高效性。

    Hbase的JavaAPI

    在Java中使用HBase,首先要建立与HBase服务器的连接。这通常通过`HBaseConfiguration.create()`方法创建一个配置对象,然后设置相关配置,如Zookeeper地址(`HBASE_ZOOKEEPER_QUORUM`),端口(`HBASE_ZOOKEEPER_...

    hadoop中Map-Reduce使用示例,输入(DBInputFormat),输出(DBOu-MR_HBase.zip

    这个示例,"MR_HBase-Hadoop中的MapReduce使用示例,输入(DBInputFormat),输出(DBOutputFormat)",主要展示了如何利用MapReduce与HBase进行交互,进行数据的读取和写入。下面将详细介绍相关的知识点。 1. **...

    HBase最佳实践–Scan用法大观园

    本文来自于范欣欣,文章主要从原理实践及场景介绍的,图文说明详细,希望对大家有帮助。HBase从用法的角度来讲其实乏陈可善,...HBase中Scan从大的层面来看主要有三种常见用法:ScanAPI、TableScanMR以及SnapshotScanMR

    HbaseTemplate 操作hbase

    在IT行业中,尤其是在大数据处理领域,HBase是一个广泛使用的分布式、高性能、列式存储的NoSQL数据库。HBase是建立在Hadoop文件系统(HDFS)之上,为处理大规模数据提供了一个高效的数据存储解决方案。而Spring Data...

    HBase in Practise: 性能、监控和问题排查

    HBase在不同版本(1.x, 2.x, 3.0)中针对不同类型的硬件(以IO为例,HDD/SATA-SSD/PCIe-SSD/Cloud)和场景(single/batch, get/scan)做了(即将做)各种不同的优化,这些优化都有哪些?如何针对自己的生产业务和...

    HBase上使用SQL查询Phoniex.zip

    Phoniex 可以让开发者在HBase数据集上使用SQL查询。Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以生成标准的JDBC结果集,对于简单查询来说,性能甚至胜过Hive。 标签:Phoniex

    大数据实验Hbase安装部署和使用javaapi调用.pdf

    实验中使用的Hadoop版本为3.2.0,HBase版本为2.2.1,JDK版本为jdk-13,IDE为Eclipse 4.3。 首先,为了确保安装过程的顺利进行,建议预先独立安装Zookeeper,而不是依赖HBase自带的版本。这有助于避免可能出现的问题...

    HBase使用的jar包

    为了在Hadoop项目中使用HBase进行明细查询,我们需要依赖特定的jar包。这些jar包包含了HBase运行所需的所有类库和函数,使得开发者可以在应用程序中调用HBase的相关API来操作数据。 首先,我们要理解HBase的架构。...

    大数据开发之Hbase基本使用及存储设计实战教程(视频+笔记+代码)

    │ Day15[Hbase 基本使用及存储设计].pdf │ ├─02_视频 │ Day1501_Hbase的介绍及其发展.mp4 │ Day1502_Hbase中的特殊概念.mp4 │ Day1503_Hbase与MYSQL的存储比较.mp4 │ Day1504_Hbase部署环境准备.mp4 │ Day...

    hbase性能测试.docx

    在对HBase进行性能测试时,我们关注的关键指标包括数据读写...通过对这些指标的分析,我们可以评估HBase在处理大量数据时的性能瓶颈,例如I/O速度、内存使用效率、MapReduce任务的优化空间等,从而为系统调优提供依据。

    hbase安装与使用

    ### HBase 安装与使用知识点详解 #### 概述 HBase 是一款构建于 Hadoop 之上的分布式、可扩展的大规模数据存储系统。它提供了类似 Google BigTable 的功能特性,非常适合处理海量数据和高并发读写需求的应用场景。...

    hbase 完全使用手册

    在使用 HBase 时,用户需要熟悉 HBase Shell 命令行工具或者 HBase 提供的 Java API 来进行数据的读写操作。HBase Shell 提供了一个交互式的界面,允许用户执行数据操作、管理表结构、以及维护集群状态等。Java API ...

    hbase安装和使用

    还可以使用`scan`命令进行范围扫描,`scan 'myTable', {COLUMNS => ['cf:qualifier']}`。 5. **表管理**:使用`disable 'myTable'`和`enable 'myTable'`来禁用或启用表,`delete 'myTable'`来删除表。 6. **Region...

    WordCount,HBase MR样例代码

    “HBase MR样例代码”则指的是使用Hadoop的MapReduce框架来操作HBase,HBase是一个基于Google的Bigtable论文设计的开源NoSQL数据库,运行在Hadoop之上。HBase提供高吞吐量的数据读写能力,适合存储非结构化和半结构...

    HBASE使用指南

    3. **查询数据**:使用`get '表名', '行键'`获取指定行的数据,或者使用`scan '表名'`扫描整个表的数据。 4. **删除数据**:通过`delete '表名', '行键', '列族:列'`删除特定行的指定列数据,`deleteall '表名', '...

    Hbase 官方中文文档

    HBase官方中文文档概述了Apache HBase TM的基本概念、配置方法、升级策略、shell使用、数据模型、架构设计、安全机制、API接口、性能调优以及故障排除等多方面的知识。HBase是一个开源的非关系型分布式数据库(NoSQL...

    Hbase 安装与基本使用

    1. **启动HBase**:在命令行中,使用`start-hbase.sh`脚本启动HBase集群。如果是单机模式,可以使用`start-hbase.sh --nonInteractive`避免交互式确认。 2. **检查状态**:通过`hbase zkcli -server localhost:2181`...

    CDH-Hbase的安装1

    在本文中,我们将深入探讨HBase的安装过程及其在CDH环境中的集成。HBase是Apache Hadoop生态系统中的一个核心组件,它是一个分布式、版本化的、支持列族的NoSQL数据库,特别适合处理大规模的数据存储。CDH(Cloudera...

    hbase用于查询客户端工具

    Phoenix将SQL语句转换为HBase的Scan操作,适合那些习惯使用SQL语法的开发人员。Phoenix支持索引、连接、子查询等特性,提高了开发效率。 5. **HBAdmin**:HBAdmin是HBase的管理工具,用于执行管理任务,如创建、...

Global site tag (gtag.js) - Google Analytics