1.1 一次性创建索引
l、 删除全索引
效率很高,可以关闭Solr后,直接删除Data文件。
2、 重新创建全索引
拉取HBase中全数据,分批次创建索引。
1.2 增量创建索引
1、触发器发送数据到Solr建索引。
配置并使用HBase触发器功能,配置实现如下:
alter 'angelHbase', METHOD => 'table_att', 'coprocessor' => '/home/hbase/hbase-0.94.18-security/lib/solrHbase.jar|solrHbase.test.SorlIndexCoprocessorObserver|1073741823|'
alter 'angelHbase', METHOD =>'table_att_unset', NAME => 'coprocessor$1'
然 后编写SorlIndexCoprocessorObserver extendsBaseRegionObserver,重写postPut方法。在postPut方法中,需要正确地读出写入HBase的数据结构及数 据,然后转化为相应的SolrInputDocument,再使用ConcurrentUpdateSolrServer方式向Solr服务器发送 SolrInputDocument数据,具体使用方法如之前博文介绍Solr的使用方法、性能对比所示。
注意:需要把Solr相关的jar包放入lib下,并且删除版本不一致的jar(有很多)。更新jar后要重启HBase才能生效。
具体性能如之前博文介绍Solr的使用方法、性能对比所示。 http://www.cnblogs.com/wgp13x/p/3742653.html http://www.cnblogs.com/wgp13x/p/3748764.html
2、触发器发送数据到RabbitMQ,Solr端从RabbitMQ获取数据建索引。
embedded方式官方不推荐使用。而使用ConcurrentUpdateSolrServer性能与上种方式并无区别。
3、 建议:
在HBase中只存储1列,存储值为PB或Json串。(存在由bean到SolrInputDocument转化的类及annotation,以及各自的压缩算法)
或 者:插入HBase的数据均以Bytes.toBytes(String)类型存储,如long型数值2存储为Bytes.toBytes(""+2)。 否则在postPut()中需要知道每列的具体类型才能生成正确的SolrInputDocument,因为SolrInputDocument中需要的 是String类型的数据。
具体的postPut方法代码,如有需要可以留言或直接跟本人联系。 http://www.cnblogs.com/wgp13x/
1.3 HBase与Solr系统架构设计
使用HBase搭建结构数据存储云,用来存储海量数据;使用SolrCloud集群用来搭建搜索引擎,将要查找的结构化数据的ID查找出来,只配置它存储ID。
1、具体流程:
wd代表用户write data写数据,从用户提交写数据请求wd1开始,经历wd2,写入MySQL数据库,或写入结构数据存储云中,wd3,提交到Solr集群中,从而依据业务需求创建索引。
rd代表用户read data读数据,从用户提交读数据请求rd1开始,经历rd2,直接读取MySQL中数据,或向Solr集群请求搜索服务,rd3,向Solr集群请求得 到的搜索结果为ID,再向结构数据存储云中通过ID取出数据,最后返回给用户结果。
转发地址:http://itindex.net/detail/49796-solr-hbase-%E6%9E%B6%E6%9E%84
相关推荐
课时2:HBase架构与索引算法剖析 课时3:HBase建库建表与CRUD实战 课时4:基于HBase Client API的CRUD实战 课时5:批处理与扫描器实战 课时6:使用Ganglia监控HBase 课时7:过滤器实战之比较过滤器 课时8:过滤器...
本文来自于yq.aliyun.com,主要内容有三个方面:首先介绍了业务挑战带来的架构演进,其次分析了ApsaraDBHBase及生态,最后分享了大数据数据库的实际案例。...这个时候MySQL变成了HBase,检索变成了Solr
第1章 面向服务的体系架构(SOA) 1 本章主要介绍和解决以下问题,这些也是全书的基础: HTTP协议的工作方式与HTTP网络协议栈的结构。 如何实现基于HTTP协议和TCP协议的RPC调用,它们之间有何差别,分别适应...
Phoenix(hbase 类sql查询) 5)Securlty governance(安全治理) Knox(鉴权⼯具) 数据的权限鉴权通道 平台跟外部的出⼊⼝ Ranger(权限管理⼯具) 架构下各组件的权限管理 记录操作⽇志到solr Atlas(元数据溯源与数据治理...
FusionInsight HD 产品介绍, HDFS、HBASE、spark、solr等架构原理及二次开发
大数据简历 内含三个项目: 项目一:联通大数据项目 项目名称: 移动终端上网数据实时分析处理系统; ...系统架构: hadoop+zookeeper+httpclient+htmlcleaner+hbase+redis+solr+flume+kafka+storm
与所有主要Hadoop供应商( , , , )的广泛API集成 Linux-包括用于 / yum安全更新的广泛使用的check_yum.py SSL证书有效期限(天)和验证 天数和验证中的Whois域到期 高级DNS记录检查(MX,NS,SRV等) , 等 ...
10.5 系统架构… . .. ..........…..... . . … . .. 312 10.6 Mahout 中的推荐算法…….. ... .... 313 10.7 电商常见的推荐系统方案……… 314 10.7.1 电商常见的推荐系统 方案……………………….. 314 ...
从HBase或Parquet文件处理到存储在HBase中的图块金字塔中从HBase或SOLR数据源以Mapbox矢量图块(MVT)格式渲染Mapnik作为将MVT转换为PNG的可选视图六角仓视图快速灾难恢复和批处理年解析时间序列数据通用架构:调试...
任职要求: 1、精通数据建模、数据体系建设,具备数据仓库架构设计、模型设计和处理性能调优等相关经验; 2、具有丰富的基于hadoop体系的数据平台、数据仓库建设经验,精通基于hadoop源码的开发、优化改造及成功应用...
安全 架构安全、认证安全、⽂件系统层加密 可靠 所有管理节点组件均实现HA(High Availability) 集群异地灾备 数据备份恢复 易⽤ 统⼀运维管理 易集成 易开发 系统架构 Manager 作为运维系统,为FusionInsight HD...
ZooKeeper 就是动物园管理员的意思,它是用来管理 Hadoop(大象)、Hive(蜜蜂)、pig(小猪)的管理员,Apache Hbase、Apache Solr、Dubbo 都用到了 ZooKeeper,其实就是一个集群管理工具,是集群的入口。...