OpenBitSet和OpenBitSetIterator在TermRangeQuery中的运用在MultiTermQuery 的rewrite方法中，如果 if (pendingTerms.size() >= termCountLimit || docVisitCount >= docCountCutoff) 的就会使用MultiTermQueryWrapperFilter，如果查询出来的term的总数目大于termCountLimit或者docVisitCount是 df ，如果df 大于docCountCutoff 则使用MultiTermQueryWrapperFi ...

2010-11-16 16:06
浏览 1836
评论(0)
分类:编程语言

OpenBitSet和OpenBitSetIterator

博客分类：

lucene

算法 lucene Apache Go

OpenBitSet和OpenBitSetIterator 算法的思想是用一个long的数组的index和这个这个数组的某个值的某一位表示一个数，如果是一个long数组，如果不存在重复的情况下，最大可达到64倍的压缩，算法的实现过程以long OpenBitSet这个类实现的一个上面提到的记录数据的数组 public OpenBitSet(long numBits) { bits = new long[bits2words(numBits)]; //根据指定的长度创建数组 wlen = bits.length; //记录数组的长度 } //计算数组的长度，给定 ...

2010-11-11 15:18
浏览 1646
评论(0)
分类:编程语言

创建IndexSearcher的时候到底做了哪些事情

博客分类：

lucene

lucene UP

大致的事情就是读取segment.gen文件，从这个文件里面的数据找出segments_x（x是下一个段的名字，是一个36进制的数）这个文件，读segments_x这个文件，因为segment_x记录的索引的segment的元数据信息，读取segment信息后，在分别初始化每个segment的reader对象SegmentReader，SegmentReader会利用内部类CoreReaders，来完成文件的打开和读取， 1 构建FieldInfos，会通过SimpleFSIndexInput对象读取_x.fnm的信息到内存里面，放在list和map里面，map是为了可以利用field的name ...

2010-09-27 09:22
浏览 1849
评论(0)
分类:编程语言

多个term查询的步骤

博客分类：

lucene

lucene 算法 Apache

多个term查询的步骤分别查找每个term对应的结果查询步骤 Term ：a -----》tii-------》tis-------》frg 保存结果 --- TermScorer1 Term ：b -----》tii-------》tis-------》frg 保存结果--- TermScorer2 得到结果集分别缓存在TermScorer二个数� ...

2010-09-13 15:15
浏览 941
评论(0)
分类:编程语言

lucene的排序和缓存的应用

博客分类：

lucene

lucene 算法 Apache

Lucene的排序是通过FieldComparator及其子类实现的，以StringOrdValComparator作为例子详细说明lucene的排序的基于缓存FieldCache实现。思路：用一个数组保存某个filed字段对应的所有的document的最大的一个term。这个数组的index就是docId，值对应所有这个filed所有term的数组的index StringOrdValComparator 类里面的 private String[] lookup; 值为某个filed的所有的term的值 private int[] order; index为docId，值为 ...

2010-09-13 15:00
浏览 2532
评论(0)
分类:编程语言

DefaultSkipListReader查找docId

博客分类：

lucene

Go UP Cache

DefaultSkipListReader查找docId MultiLevelSkipListReader public MultiLevelSkipListReader(IndexInput skipStream, int maxSkipLevels, int skipInterval) { /**每个层的文件文件的IndexInput读取对象，是通过定位到每个文件的相对应的skiptable的位置层的位置，clone下就得� ...

2010-09-02 15:33
浏览 914
评论(0)
分类:编程语言

DocFieldProcessorPerField 创建的过程序列图

博客分类：

lucene

lucene

document的写入是通过DocFieldProcessorPerThread类做的，实际上在lucene的文件里面（_x.fdx,_x.fdt,_x.fnm）没有document的概念，存储的是filed属性和值，filed的值是存储在_x.fdt文件里面，field的属性是存在在_x.fnm，（属性就是是否分词，是否存储等等）而field的写入是通过DocFieldProcessorPerThread.processDocument实现的，这个方法里面会遍历索引的filed，并创建DocFieldProcessorPerField 实现写入的

2010-08-26 15:19
浏览 866
评论(0)
分类:编程语言

DocumentsWriterThreadState 创建过程序列图

博客分类：

lucene

lucene Apache UP thread

摘自org.apache.lucene.index.DocumentsWriter.DefaultIndexingChain.getChain() 注释 /* This is the current indexing chain: DocConsumer / DocConsumerPerThread --> code: DocFieldProcessor / DocFieldProcessorPerThread --> DocFieldConsumer / DocFieldConsumerPerThread / D ...

2010-08-26 15:04
浏览 1215
评论(0)
分类:编程语言

lucene indexwriter的相关类图

博客分类：

lucene

lucene

最近在学习lucene，看的比较迷糊，所以就把类图画了

2010-08-26 10:16
浏览 1295
评论(0)
分类:编程语言

zigzag编码

博客分类：

java

算法 Google HTML

今天看avro ，说zig-zag编码看了半天终于明白。 value hex 0 00 -1 01 1 02 -2 03 2 04 ... -64 7f 64 80 01 ... 文档上例子如上面，所以继续编码那么 -3 的编码是05 3的编码是06，算法是(n << 1) ^ (n >> 31) 来自 http://code.google.com/apis/protocolbuffers/docs/encoding.html#types

2010-07-06 14:25
浏览 2641
评论(0)
分类:编程语言

点滴摘要防止忘记

博客分类：

java

JBoss Web XML

乱码的解决 jboss_home\server\default\deploy\jboss-web.deployer server.xml Connector 添加 URIEncoding="UTF-8" useBodyEncodingForURI="true"/>

2010-04-22 14:42
浏览 849
评论(0)
分类:企业架构

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

ubuntu下eclipse的svn插件使用javahl

python os.sysconf

Implementors

OpenBitSet和OpenBitSetIterator在TermRangeQuery中的运用

OpenBitSet和OpenBitSetIterator

创建IndexSearcher的时候到底做了哪些事情

多个term查询的步骤

lucene的排序和缓存的应用

DefaultSkipListReader查找docId

DocFieldProcessorPerField 创建的过程序列图

DocumentsWriterThreadState 创建过程序列图

lucene indexwriter的相关类图

zigzag编码

点滴摘要防止忘记

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>