论坛首页 Java企业应用论坛

关于Lucene实时索引的讨论,有兴趣者进来

浏览 14175 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2010-10-29   最后修改:2010-10-29
目前有做在Lucene上做实时索引的想法,想在坛子里和大家讨论一下方案,目前的方案如下:
在原有磁盘索引基础之上增加内存索引,实时请求往内存索引里边写,通过Lucene的NRT,每次write之后调用IndexWriter的getReader方法,保证实时数据的可见性。搜索呢就用MultiSearcher。大家有什么看法。。
关于内存数据的备份容灾方面的想法,和集群的数据复制这部分,准备借鉴Mysql的replicationd的日志复制的方式。

欢迎讨论啊!!
   发表时间:2010-10-30  
很有想法。
0 请登录后投票
   发表时间:2010-10-30  
可以参考zoie的做法,http://www.kafka0102.com/2010/05/119.html
lucene和solr现在也在做实时搜索功能,不着急的话可以等它。
0 请登录后投票
   发表时间:2010-10-31  
就是着急啊。。 大家可以讨论一下哈 。 说说我这个方案有什么弊端没有
马上要投入开发了
0 请登录后投票
   发表时间:2010-11-01  
lucene 3.0 已经有了实时检索能力。try IndexWriter.getReader()
0 请登录后投票
   发表时间:2010-11-01  
推荐zoie
0 请登录后投票
   发表时间:2010-11-01  
IndexWriter.getReader() 对于add和delete的话 是操作内存的 但是对于更新操作的话 依然会直接操作磁盘索引。。。 意味着依然会重新加载磁盘索引。。。这个是我看wiki个人理解的

不知道有没有哪位具体测试过Lucene的NRT的性能 。
0 请登录后投票
   发表时间:2010-11-01  
当索引文件时,如pdf用的是pdfbox 如果超过几G的话,会内存溢出,,楼主公司有解决方案吗?
0 请登录后投票
   发表时间:2010-11-01  
这个问题值得关注。Twitter好像就是用lucene做是实时检索吧?
0 请登录后投票
   发表时间:2010-11-01  
twitter是直接修改的lucene的源代码。目前我还没有这个能力做到这点,只能在外围想办法解决 。。。 这个帖子不要沉下去啊 。。 大家多讨论讨论 。。
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics