一种在HBase中创建多个索引的实现方式 - 泡杯茶,过来坐坐 - ITeye博客

`

小网客

浏览: 1218336 次
性别:
来自: 北京

最近访客更多访客>>

aoyouzi

jis117

emaiqi

duguyixiaono1

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

masuweng：嗯,写的很好
Mysql之Incorrect string value: '\xF0\x9F\x98\x89 \xE6...'
秋水涛静：来来来你告诉我你贴的这代码有什么用？？你给的下载包又有什么 ...
利用diyUpload做多图片上传及预览
andseny：如果可以的话，求一份源码，谢谢邮箱：846526948@q ...
利用diyUpload做多图片上传及预览
alloyer：不错！可以使用，已验证。
Spring与jcaptcha集成
bewithme：这和我去官网看有啥区别？
web之日期组件My97DatePicker

一种在HBase中创建多个索引的实现方式

阅读更多

Hbase只支持一级索引，如rowkey，那么如果有创建多个索引的需求如何实现呢？

场景如下：

学生表涉及信息如下：

学号
身份证id
姓名
专业

在对学生查询的时候需求如下：

1.基于学号
2.基于身份证号
3.基于姓名

那么如何实现所级索引？

实现方案：

1.创建索引表用于存储二级索引到rowkey的映射关系

2.查询的时候先查询索引表然后在查询主表

3.设定job定时更新索引表

以身份证和姓名为例，身份证号为主表rowkey

index_student_name

rowkey:name

value:身份证id列表(有重名情况)

0
顶

2
踩

分享到：

Java之异常处理 | 推荐引擎中如何解决冷启动问题

2013-09-09 17:54
浏览 2456
评论(1)
分类:数据库
查看更多

评论

1 楼 406657836 2013-09-09

可以看看华为的基于coprcessor的 secondary index。你举例子这几个字段都不会是经常变动的，做索引效率还是挺高的！copressor肯定会影响你的写入性能，看你的写入量了。

华为 copressor地址https://github.com/Huawei-Hadoop/hindex

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

分布式协调工具-ZooKeeper实现动态负载均衡: 在Hbase实现中，会在ZK上存储一些ROOT表的地址和HMaster的地址，HRegionServer也会把自己以临时节点（Ephemeral）的方式注册到Zookeeper中，使得HMaster可以随时感知到各个HRegionServer的存活状态，同时，一旦...

java二次开发源码-culvert:大表样式数据库中结构化和非结构化数据的二级索引: 的数据库中的一种常见设计模式，它允许用户对表中的一个或多个列进行索引。这种技术可以根据特定列而不是行 id 快速搜索数据库中的记录，从而在 NoSQL 环境中实现关系式语义。这是通过在表中的保留名称空间或另一...

本库托管了协程、SMTP邮件发送协议、 Python连接远程HBase、异步爬虫代码和快速上手中英文词云图等代码.zip: 爬虫（Web Crawler）是一种自动化程序，用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储，以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的...

社区综治大数据平台建设方案: 无论使用 Hive 还是 HBase，使用 MapReduce 或者 Spark，在面对社会治理应用场景时存在计算复杂、效率不高的情况，因为社会治理应用场景重点在于对关注的对象，这种对象可能是人、地、案、事、物等要素的一个多个，...

电商网站商品信息爬虫.zip: 使用java+httpclient+httpcleaner，多线程、分布式爬去电商网站商品信息，数据存储在hbase上，并使用solr对商品建立索引，使用redis队列存储一个共享的url仓库；使用zookeeper对爬虫节点生命周期进行监视等。爬虫...

scrutineer:将经过排序的真值来源与另一种来源进行比较，以找到不匹配的地方。设计用于验证诸如ElasticSearch和Solr之类的索引是否与其数据源（通常是数据库）同步: 在很多情况下，人们使用Solr / ElasticSearch / Compass对其中央数据库，mongodb，hbase等进行索引，因此索引是数据的辅助存储。您怎么知道您的索引是否正确？您是否可以随时重新索引5亿个文档？（这就是外星人...

大数据之运维.pptx: Hive设计特征 Hive 是一种底层封装了Hadoop 的数据仓库处理工具，使用类SQL 的HiveQL 语言实现数据查询，所有Hive 的数据都存储在Hadoop 兼容的文件系统（例如，Amazon S3、HDFS）中。Hive 在加载数据过程中不会对...

大数据的存储管理技术.doc: 2 大数据存储管理的关键技术分析 2.1 分布式文件系统分布式文件系统是一种通过计算机网络实现在多台机器上进行分布式存储的文件系统，它把文件分布存储到多个计算机节点上，成千上万的计算机节点构成计算机集群...

爬虫项目源码整理.zip: 爬虫（Web Crawler）是一种自动化程序，用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储，以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的...

新版Hadoop视频教程段海涛老师Hadoop八天完全攻克Hadoop视频教程 Hadoop开发: 10-多个job在同一个main方法中提交.avi 第五天 hadoop2.x中HA机制的原理和全分布式集群安装部署及维护 01-zookeeper.avi 02-zookeeper2.avi 03-NN高可用方案的要点1.avi 04-hadoop-HA机制的配置文件.avi 05-...

Hadoop实战(第2版): join技术点20　实现semi-join4．1．4　为你的数据挑选最优的合并策略4．2　排序4．2．1　二次排序技术点21　二次排序的实现4．2．2　整体并行排序技术点22　通过多个reducer 对key 进行排序4．3　抽样技术点23　蓄水...

Hadoop硬实战 [（美）霍姆斯著][电子工业出版社][2015.01]_PDF电子书下载带书签目录高清完整版.rar ): 技术点22　通过多个reducer 对key 进行排序 4．3　抽样技术点23　蓄水池抽样（reservoir 抽样） 4．4　本章小结 5　优化HDFS 处理大数据的技术 5．1　处理小文件技术点24　使用Avro 存储大量小文件 5．2　通过...

什么是NoSQL数据库？: NoSQL不是为了替代SQL而出现的，它是一种替补方案，而不是解决方案的首选。绝大多数的NoSQL产品都是基于大内存和高性能随机读写的（比如具有更高性能的固态硬盘阵列），一般的小型企业在选择NoSQL时一定要慎重！...

hugegraph:HugeGraph数据库核心组件，包括图形引擎，API和内置后端: 为了符合框架，可以通过（一种强大的图形遍历语言）来完成各种复杂的图形查询。特征符合支持架构元数据管理，包括VertexLabel，EdgeLabel，PropertyKey和IndexLabel 多类型索引，支持精确查询，范围查询和...

Global site tag (gtag.js) - Google Analytics