`

hbase跑数到solr时数据对不上一些简单总结

 
阅读更多

 

 

工作中,需要将hbase数据跑到solr里做部分字段索引,目前出现过两种情况:

 

1 假设hbase有100条, 跑到solr里是70条

 

2 假设hbase有100条,跑完job后mr显示 reduce input输出个数是100,但是在solr界面查询时,

   报错,包什么字段 XX not found之类 ,但是看solr对应的索引库的schema.xml根本没定义这个字段

 

 

针对问题1,

solr ---> hbase时, 跑的job下  拷贝这个job的链接,然后放在ie上,
然后点击Counters

看Map-Reduce Framework,
看 Map input records  Map output records 个数对不对 
看 Reduce input redocds   Reduce output records    来看map reduce个数是否一致,

 

处理方式:  重新跑这个脚本,具体原因不知道,只能想到是跑的时候 网断了还是怎么滴,数没有完全跑过来

 

 

针对问题2,

我是将索引库的 schema.xml 在window下编辑后在上传提交到linux对应索引库下替代schema,

不知道为什么这种操作下已经出现过两次错误了,这次是跑完到solr的数据查不到,以前还有一次是

直接跑job的时候就报错,

 

处理方式, 将linux下的对应索引库文件下到window,然后修改后整体提交到linux上覆盖,在重新跑。

 

 

 

 

关于solr工作中的用法,总结 和hbase的结合 和查询速度的schema的加缓存优化,会后续慢慢加进来.....

 

 

 

 

分享到:
评论

相关推荐

    Hbase同步数据到Solr的方案

    hbase indexer是负责将hbase的数据自动同步到solr中建立索引,不需要写代码将hbase的数据同步到solr中创建索引。尽少开发工作,和减少在在并发环境下手工创建索引可能带来性能问题。

    hbase-solr-coprocessor:通过solr实现hbase二级索引,主要通过hbase的coprocessor的Observer实现

    项目核心为SolrIndexCoprocessorObserver,该类继承BaseRegionObserver,并实现postPut和postDelete方法,以实现hbase数据同步到solr。考虑到solr插入效率和频繁写入的问题,这里实现了一个简单的缓冲池,当达到最大...

    基于hbase+solr的搜索引擎毕业论文

    简单的来说,在单机上搭建伪分布部署来实现爬取数据和数据存取。Nutch抓取指定网址数据,存储在HBase数据库中,存储过程由zookeeper管理。脚本调用索引器部件将数据索引化,经过索引化的数据被前端检索查询,最后...

    Hbase 二级索引方案

    这个组件非常关键,是 Hbase 到 Solr 生成索引的中间工具。 在 CDH5.3.2 中的 Key-Value Indexer 使用的是 Lily HBase NRT Indexer 服务. Lily HBase Indexer 是一款灵活的、可扩展的、高容错的、事务性的,并且近...

    HBase视频教程下载|基于微博数据应用的HBase实战开发

    课时21:使用sqoop2将mysql数据导入到HBase 课时22:集群管理之节点管理与数据任务 课时23:Rowkey设计与集群常见故障处理 课时24:集群调优经验分享 课时25:项目介绍与Solr环境搭建 课时26:数据层设计与中文...

    HBase上使用SQL查询Phoniex.zip

    Phoniex 可以让开发者在HBase数据集上使用SQL查询。Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以生成标准的JDBC结果集,对于简单查询来说,性能甚至胜过Hive。 标签:Phoniex

    hbase-indexer

    hbase-indexer, 便于通过solr将hbase中的数据变动建立索引

    hbase-solr-rest-client

    hbase-solr-rest-client 客户端,用于从solr读取数据,然后使用REST从HBase查询详细信息

    atlas-bin-0.8.2.z02(分片2)

    atlas-0.8.2的bin版本,无须编译,内嵌hbase、solr。建议运行内存4G以上。 如果使用内嵌hbase、solr需要配置环境变量 export MANAGE_LOCAL_HBASE=true export MANAGE_LOCAL_SOLR=true

    spring data 2012

    spring data,支持jpa、mongodb、hbase、neo4j、solr的数据访问接口

    java开发web搜索引擎源码-Elasticsearch-Hbase:elasticsearch+hbase海量数据查询,支持千万数据秒回查

    elasticsearch+hbase海量数据查询,支持千万数据秒回查询 博客地址: 一、ElasticSearch和Hbase ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。...

    atlas-bin-0.8.2.z01(分片1)

    atlas-0.8.2的bin版本,无须编译,内嵌hbase、solr。建议运行内存4G以上。 如果使用内嵌hbase、solr需要配置环境变量 export MANAGE_LOCAL_HBASE=true export MANAGE_LOCAL_SOLR=true

    atlas-bin-0.8.2.z03(分片3)

    atlas-0.8.2的bin版本,无须编译,内嵌hbase、solr。建议运行内存4G以上。 如果使用内嵌hbase、solr需要配置环境变量 export MANAGE_LOCAL_HBASE=true export MANAGE_LOCAL_SOLR=true

    大数据时代数据库-云HBase架构&生态&实践

    本文来自于yq.aliyun.com,主要内容有三个方面:首先介绍了业务挑战带来的架构演进,其次分析了ApsaraDBHBase及生态,最后分享了大数据数据库的实际案例。...这个时候MySQL变成了HBase,检索变成了Solr

    atlas编译后文件,开封即用

    依赖版本 zookeeper 3.4.9 hadoop 3.2.0 hive 3.1.2 hbase 2.2.7 kafka 2.8.2 solr 5.2.1

    atlas-bin-0.8.2.z04(分片4)

    atlas-0.8.2的bin版本,无须编译,内嵌hbase、solr。建议运行内存4G以上。 如果使用内嵌hbase、solr需要配置环境变量 export MANAGE_LOCAL_HBASE=true export MANAGE_LOCAL_SOLR=true

    大数据简历项目 关于两个联通大数据项目和一个爬虫项目

    大数据简历 内含三个项目: 项目一:联通大数据项目 项目名称: 移动终端上网数据实时分析处理系统; ...系统架构: hadoop+zookeeper+httpclient+htmlcleaner+hbase+redis+solr+flume+kafka+storm

    SolrCloud集群搭建教程

    当一个系统的索引数据量少的时候是不需要使用SolrCloud的,当索引量很大,搜索请求并发很高,这时需要使用SolrCloud来满足这些需求。 SolrCloud是基于Solr和Zookeeper的分布式搜索方案,它的主要思想是使用...

    benchmark:用于对 nosql 数据存储的插入、读取和查询进行基准测试的应用程序

    该项目旨在测试多种 NoSQL 数据存储库(如 MongoDB、Cassandra、HBase、Redis、Solr 等)的写入、读取和查询性能。 支持:MongoDB、Solr、Cassandra 在制品:HBase 跑步 先决条件: Java 混帐 cd /opt git ...

    大数据架构师应该做到的.pdf

    Hbase(kv数据存储) Phoenix(hbase 类sql查询) 5)Securlty governance(安全治理) Knox(鉴权⼯具) 数据的权限鉴权通道 平台跟外部的出⼊⼝ Ranger(权限管理⼯具) 架构下各组件的权限管理 记录操作⽇志到solr Atlas(元...

Global site tag (gtag.js) - Google Analytics