hbase跑数到solr时数据对不上一些简单总结 - 后知后觉的it路 - ITeye博客

`

chengjianxiaoxue

浏览: 1325165 次
性别:
来自: 北京

最近访客更多访客>>

liu_shui8

happy2012

nddht

yhtppp

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

jaingbei：可以通过继承FileOutputFormat来简化相关代码
自定义OutputFormat
star12396：楼主，那hbase结合hive使用，这种架构稳定不？机器的内存 ...
hbase+hive结合使用
atMe0804： ...
kafka集群搭建和使用Java写kafka生产者消费者
ztao2333： thanks
eclipse 设置自动补全快捷键
Will_forme：你好最近在使用kylin的时候有点疑问，我安装这些都没问题 ...
kylin 搭建和简单测试结果

hbase跑数到solr时数据对不上一些简单总结

博客分类：

hbase
solr

阅读更多

工作中，需要将hbase数据跑到solr里做部分字段索引，目前出现过两种情况：

1 假设hbase有100条，跑到solr里是70条

2 假设hbase有100条，跑完job后mr显示 reduce input输出个数是100，但是在solr界面查询时，

报错，包什么字段 XX not found之类，但是看solr对应的索引库的schema.xml根本没定义这个字段

针对问题1，

solr ---> hbase时，跑的job下拷贝这个job的链接，然后放在ie上，
然后点击Counters

看Map-Reduce Framework，
看 Map input records Map output records 个数对不对
看 Reduce input redocds Reduce output records 来看map reduce个数是否一致，

处理方式：重新跑这个脚本，具体原因不知道，只能想到是跑的时候网断了还是怎么滴，数没有完全跑过来

针对问题2，

我是将索引库的 schema.xml 在window下编辑后在上传提交到linux对应索引库下替代schema,

不知道为什么这种操作下已经出现过两次错误了，这次是跑完到solr的数据查不到，以前还有一次是

直接跑job的时候就报错，

处理方式，将linux下的对应索引库文件下到window，然后修改后整体提交到linux上覆盖，在重新跑。

关于solr工作中的用法，总结和hbase的结合和查询速度的schema的加缓存优化，会后续慢慢加进来.....

分享到：

ctrl+c能关闭mr任务吗 | 资深首席架构师眼中的架构应该是怎样的？

2016-04-07 08:21
浏览 977
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hbase同步数据到Solr的方案: 总结来说，HBase Indexer提供了一种高效、自动化的解决方案，用于将HBase中的数据同步到Solr，以实现强大的搜索功能。通过利用HBase的Replication机制，它降低了开发复杂性和潜在的性能瓶颈，是大数据环境中的理想...

hbase+solr: - **HBase Java API**：文档中提到了通过Java API对HBase进行操作，包括查询数据并将其添加到Solr中进行索引。 #### 三、HBase与Solr结合的优势 - **互补性**：HBase擅长处理基于RowKey的快速查询，但不支持复杂...

hbase+solr创建二级索引完整操作: - 调整Shard数、Replica数时需考虑集群规模及性能需求，避免资源浪费或不足。 - 实验过程中建议在测试环境中先行尝试，确认无误后再应用到生产环境。通过以上步骤，您可以成功地在HBase与Solr之间创建二级索引，...

CDH使用Solr实现HBase二级索引.docx: 然而，在查询和检索数据时，HBase 的性能可能不太理想。这是因为 HBase 是基于 Key-Value 的存储方式，查询时需要遍历整个表。为了提高查询性能，可以使用二级索引来索引数据。Solr 是一个流行的搜索平台，具有强大...

1-7+HBase+for+Solr+介绍.zip: 综上所述，这份资料是学习和理解HBase与Solr集成的宝贵资源，适合对大数据搜索和存储感兴趣的开发者、架构师，以及希望提升系统性能的IT专业人士。通过深入学习，读者能够掌握如何在大规模数据场景下，利用HBase的强...

hbase+Coprocesser+solr实现二级索引: 总的来说，通过HBase的Coprocessor和Solr的集成，我们可以实现对HBase数据的复杂查询和全文搜索，极大地扩展了HBase的应用范围。这个过程虽然相对复杂，但一旦设置好，就能带来显著的查询性能提升，对于需要高效检索...

solr+hbase: 当 Solr 集成 HBase 时，Solr 可以作为 HBase 的索引层，提供快速的全文搜索和高级查询功能，而 HBase 则负责存储和管理大量结构化和半结构化数据。这种结合的优势包括： 1. **实时搜索**：通过 Solr 的实时索引，...

hbase-solr-coprocessor:通过solr实现hbase二级索引，主要通过hbase的coprocessor的Observer实现: 项目核心为SolrIndexCoprocessorObserver，该类继承BaseRegionObserver，并实现postPut和postDelete方法，以实现hbase数据同步到solr。考虑到solr插入效率和频繁写入的问题，这里实现了一个简单的缓冲池，当达到最大...

apache-atlas-2.1.0-server.tar.gz 不含hbase和solr: Apache Atlas 是一个开源的数据治理平台，它主要用于元数据管理、数据血缘...总的来说，尽管这个版本不包含HBase和Solr，但它仍然提供了一个强大的基础，让用户可以根据自身的基础设施和安全要求定制数据治理解决方案。

solr-8.6.3.tgz+hbase-2.3.3-bin.tar.gz: 标题中的"solr-8.6.3.tgz+hbase-2.3.3-bin.tar.gz"表明我们有两个重要的开源软件版本：Apache Solr 8.6.3和HBase 2.3.3。Solr是Apache软件基金会的一个项目，主要用于全文搜索、企业级搜索和大数据分析。而HBase则是...

基于cdh5.7.5集群的solr(4.10.3-cdh5.7.5)+hbase(1.2.0-cdh5.7.5)构建二级索引方案: 4. **集成HBase和Solr**：配置HBase的`hbase-site.xml`，启用HBase-Solr连接器（如`hbase.indexer.solr.zookeeper.quorum`等），使HBase能够自动将数据同步到Solr。 5. **实时同步**：当HBase中的数据发生变化时，...

连接 HBASE和MongoDB的驱动程序，配置后可直接导数据。很好用.zip: 这暗示了可能有一个解决方案，可以将MongoDB的数据先导入到Solr，然后通过Solr与HBase交互，因为Solr与HBase的集成相对成熟，有专门的HBase Realtime Get (HRG)插件支持。另一个文件名"W"没有明确的上下文，可能是...

Hbase 二级索引方案: 这个组件非常关键，是 Hbase 到 Solr 生成索引的中间工具。在 CDH5.3.2 中的 Key-Value Indexer 使用的是 Lily HBase NRT Indexer 服务. Lily HBase Indexer 是一款灵活的、可扩展的、高容错的、事务性的，并且近...

基于hbase+solr的搜索引擎毕业论文: 简单的来说，在单机上搭建伪分布部署来实现爬取数据和数据存取。Nutch抓取指定网址数据，存储在HBase数据库中，存储过程由zookeeper管理。脚本调用索引器部件将数据索引化，经过索引化的数据被前端检索查询，最后...

HBase视频教程下载|基于微博数据应用的HBase实战开发: 课时21：使用sqoop2将mysql数据导入到HBase 课时22：集群管理之节点管理与数据任务课时23：Rowkey设计与集群常见故障处理课时24：集群调优经验分享课时25：项目介绍与Solr环境搭建课时26：数据层设计与中文...

基于HBase和Spark构建企业级数据处理平台.pdf: - **爬虫+搜索引擎**：通过Spark进行ETL处理，结合HBase存储数据，并同步到Solr实现全文检索功能。这种方案可以支持高达20万条/秒的流吞吐量。 - **大数据风控系统**：利用Spark强大的计算能力，支持事中及事后的...

hbase-indexer: 3. **索引构建**：当检测到数据变更时，HBase-Indexer将变更数据转换为Solr文档，并提交到Solr索引。 4. **查询优化**：Solr接收查询请求，利用其强大的查询引擎返回结果。 5. **结果展示**：查询结果返回给用户，...

HBase上使用SQL查询Phoniex.zip: Phoniex 可以让开发者在HBase数据集上使用SQL查询。Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan，并编排执行以生成标准的JDBC结果集，对于简单查询来说，性能甚至胜过Hive。标签：Phoniex

apache-atlas-2.1.0-server.tar.gz 包含自带hbase和solr: Apache Atlas 是一个元数据管理系统，主要用于大数据环境中的数据治理、数据血缘追踪和数据安全。在标题中提到的 "apache-atlas-2.1.0-server.tar.gz" 是 Apache Atlas 的一个服务器版本，该版本已经过源码编译，...

Global site tag (gtag.js) - Google Analytics