`
forfuture1978
  • 浏览: 412663 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Lucene 原理与代码分析完整版

阅读更多

Lucene 原理与代码分析系列文章已经基本告一段落,可能问题篇还会有新的更新。

 

完整版pdf可由以附件下载。

 

 

目录如下:

 

 

目录

目录

第一篇:原理篇

第一章:全文检索的基本原理

一、总论

二、索引里面究竟存些什么

三、如何创建索引

第一步:一些要索引的原文档(Document)

第二步:将原文档传给分次组件(Tokenizer)

第三步:将得到的词元(Token)传给语言处理组件(Linguistic Processor)

第四步:将得到的词(Term)传给索引组件(Indexer)

1. 利用得到的词(Term)创建一个字典。

2. 对字典按字母顺序进行排序。

3. 合并相同的词(Term)成为文档倒排(Posting List)链表。

四、如何对索引进行搜索?

第一步:用户输入查询语句。

第二步:对查询语句进行词法分析,语法分析,及语言处理。

1. 词法分析主要用来识别单词和关键字。

2. 语法分析主要是根据查询语句的语法规则来形成一棵语法树。

3. 语言处理同索引过程中的语言处理几乎相同。

第三步:搜索索引,得到符合语法树的文档。

第四步:根据得到的文档和查询语句的相关性,对结果进行排序。

1. 计算权重(Term weight)的过程。

2. 判断Term之间的关系从而得到文档相关性的过程,也即向量空间模型的算法(VSM)

第二章:Lucene的总体架构

第二篇:代码分析篇

第三章:Lucene的索引文件格式

一、基本概念

二、基本类型

三、基本规则

1. 前缀后缀规则(Prefix+Suffix)

2. 差值规则(Delta)

3. 或然跟随规则(A, B?)

4. 跳跃表规则(Skip list)

四、具体格式

4.1. 正向信息

4.1.1. 段的元数据信息(segments_N)

4.1.2. (Field)的元数据信息(.fnm)

4.1.3. (Field)的数据信息(.fdt.fdx)

4.1.3. 词向量(Term Vector)的数据信息(.tvx.tvd.tvf)

4.2. 反向信息

4.2.1. 词典(tis)及词典索引(tii)信息

4.2.2. 文档号及词频(frq)信息

4.2.3. 词位置(prx)信息

4.3. 其他信息

4.3.1. 标准化因子文件(nrm)

4.3.2. 删除文档文件(del)

五、总体结构

第四章:Lucene索引过程分析

一、索引过程体系结构

二、详细索引过程

1、创建IndexWriter对象

2、创建文档Document对象,并加入域(Field)

3、将文档加入IndexWriter

4、将文档加入DocumentsWriter

4.1、得到当前线程对应的文档集处理对象(DocumentsWriterThreadState)

4.2、用得到的文档集处理对象(DocumentsWriterThreadState)处理文档

4.3、用DocumentsWriter.finishDocument结束本次文档添加

5DocumentsWriterCharBlockPoolByteBlockPoolIntBlockPool的缓存管理

6、关闭IndexWriter对象

6.1、得到要写入的段名

6.2、将缓存的内容写入段

6.3、生成新的段信息对象

6.4、准备删除文档

6.5、生成cfs

6.6、删除文档

第五章:Lucene段合并(merge)过程分析

一、段合并过程总论

1.1、合并策略对段的选择

1.2、反向信息的合并

二、段合并的详细过程

2.1、将缓存写入新的段

2.2、选择合并段,生成合并任务

2.2.1、用合并策略选择合并段

2.2.2、注册段合并任务

2.3、段合并器进行段合并

2.3.1、合并存储域

2.3.2、合并标准化因子

2.3.3、合并词向量

2.3.4、合并词典和倒排表

第六章:Lucene打分公式的数学推导

第七章:Lucene搜索过程解析

一、Lucene搜索过程总论

二、Lucene搜索详细过程

2.1、打开IndexReader指向索引文件夹

2.1.1、找到最新的segment_N文件

2.1.2、通过segment_N文件中保存的各个段的信息打开各个段

2.1.3、得到的IndexReader对象如下

2.2、打开IndexSearcher

2.3QueryParser解析查询语句生成查询对象

2.4、搜索查询对象

2.4.1、创建Weight对象树,计算Term Weight

2.4.2、创建ScorerSumScorer对象树

2.4.3、进行倒排表合并

2.4.4、收集文档结果集合及计算打分

2.4.5Lucene如何在搜索阶段读取索引信息

第八章:Lucene的查询语法,JavaCCQueryParser

一、Lucene的查询语法

二、JavaCC介绍

2.1、第一个实例——正整数相加

2.2、扩展语法分析器

2.3、第二个实例:计算器

三、解析QueryParser.jj

3.1、声明QueryParser

3.2、声明词法分析器

3.3、声明语法分析器

第九章:Lucene的查询对象

1BoostingQuery

2CustomScoreQuery

3MoreLikeThisQuery

4MultiTermQuery

4.1TermRangeQuery

4.2NumericRangeQuery

5SpanQuery

5.1SpanFirstQuery

5.2SpanNearQuery

5.3SpanNotQuery

5.4SpanOrQuery

5.5FieldMaskingSpanQuery

5.6PayloadTermQueryPayloadNearQuery

6FilteredQuery

6.1TermsFilter

6.2BooleanFilter

6.3DuplicateFilter

6.4FieldCacheRangeFilter<T>FieldCacheTermsFilter

6.5MultiTermQueryWrapperFilter<Q>

6.6QueryWrapperFilter

6.7SpanFilter

6.7.1SpanQueryFilter

6.7.2CachingSpanFilter

第十章:Lucene的分词器Analyzer

1、抽象类Analyzer

2TokenStream抽象类

3、几个具体的TokenStream

3.1NumericTokenStream

3.2SingleTokenTokenStream

4Tokenizer也是一种TokenStream

4.1CharTokenizer

4.2ChineseTokenizer

4.3KeywordTokenizer

4.4CJKTokenizer

4.5SentenceTokenizer

5TokenFilter也是一种TokenStream

5.1ChineseFilter

5.2LengthFilter

5.3LowerCaseFilter

5.4NumericPayloadTokenFilter

5.5PorterStemFilter

5.6ReverseStringFilter

5.7SnowballFilter

5.8TeeSinkTokenFilter

6、不同的Analyzer就是组合不同的TokenizerTokenFilter得到最后的TokenStream

6.1ChineseAnalyzer

6.2CJKAnalyzer

6.3PorterStemAnalyzer

6.4SmartChineseAnalyzer

6.5SnowballAnalyzer

7Lucene的标准分词器

7.1StandardTokenizerImpl.jflex

7.2StandardTokenizer

7.3StandardFilter

7.4StandardAnalyzer

8、不同的域使用不同的分词器

8.1PerFieldAnalyzerWrapper

第三篇:问题篇

问题一:为什么能搜的到“中华 AND 共和国”却搜不到“中华共和国”?

问题二:stemminglemmatization的关系

问题三:影响Lucene对文档打分的四种方式

在索引阶段设置Document BoostField Boost,存储在(.nrm)文件中。

在搜索语句中,设置Query Boost.

继承并实现自己的Similarity

继承并实现自己的collector

问题四:Lucene中的TooManyClause异常

问题五:Lucene的事务性

问题六:用Lucene构建实时的索引

1、初始化阶段

2、合并索引阶段

3、重新打开硬盘索引的IndexReader

4、替代IndexReader

5、多个索引


 

 

101
18
分享到:
评论
77 楼 djh122 2014-11-22  
76 楼 wayne0830 2014-08-13  
多谢楼主分享!
75 楼 zhwey 2014-08-04  
神人!谢谢!
74 楼 challange_future 2014-07-15  
楼主真是V5啊
73 楼 那天狠近 2014-07-15  
先赞一个准备学习,感谢感谢
72 楼 name327 2014-07-14  
[color=yell   
[flash=200,200][flash=200,200][flash=200,200][flash=200,200][flash=200,200][flash=200,200][flash=200,200][flash=200,200][flash=200,200][flash=200,200][flash=200,200][flash=200,200][flash=200,200][flash=200,200][flash=200,200][flash=200,200][flash=200,200][flash=200,200][flash=200,200][flash=200,200][flash=200,200][flash=200,200][flash=200,200][flash=200,200][flash=200,200][flash=200,200][flash=200,200][flash=200,200][flash=200,200][flash=200,200][flash=200,200][flash=200,200][flash=200,200][flash=200,200][url][url][url][url][url][url][url][url][url][url][url][url][url][url][url][url][url][url][url][url][url][url][url][url][url][img]
引用
[/img][/url][/url][/url][/url][/url][/url][/url][/url][/url][/url][/url][/url][/url][/url][/url][/url][/url][/url][/url][/url][/url][/url][/url][/url][/url][/flash][/flash][/flash][/flash][/flash][/flash][/flash][/flash][/flash][/flash][/flash][/flash][/flash][/flash][/flash][/flash][/flash][/flash][/flash][/flash][/flash][/flash][/flash][/flash][/flash][/flash][/flash][/flash][/flash][/flash][/flash][/flash][/flash][/flash]
|||||||||||||||||||||||||||||||||||||
||||||||||||||||||||||||||||||||||||
||||||||||||||||||||||||||||||||||||
|||||||||||||||||||||||||||||||||||
|||||||||||||||||||||||||||||||||||
||||||||||||||||||||||||||||||||||
||||||||||||||||||||||||||||||||||
|||||||||||||||||||||||||||||||||
|||||||||||||||||||||||||||||||||
||||||||||||||||||||||||||||||||
||||||||||||||||||||||||||||||||
|||||||||||||||||||||||||||||||
|||||||||||||||||||||||||||||||
||||||||||||||||||||||||||||||
||||||||||||||||||||||||||||||
|||||||||||||||||||||||||||||
|||||||||||||||||||||||||||||
||||||||||||||||||||||||||||
||||||||||||||||||||||||||||
|||||||||||||||||||||||||||
|||||||||||||||||||||||||||
||||||||||||||||||||||||||
||||||||||||||||||||||||||
|||||||||||||||||||||||||
|||||||||||||||||||||||||
||||||||||||||||||||||||
||||||||||||||||||||||||
|||||||||||||||||||||||
|||||||||||||||||||||||
||||||||||||||||||||||
||||||||||||||||||||||
|||||||||||||||||||||
|||||||||||||||||||||
||||||||||||||||||||
||||||||||||||||||||
|||||||||||||||||||
|||||||||||||||||||
||||||||||||||||||
||||||||||||||||||
|||||||||||||||||
|||||||||||||||||
||||||||||||||||
||||||||||||||||
|||||||||||||||
|||||||||||||||
||||||||||||||
||||||||||||||
|||||||||||||
|||||||||||||
||||||||||||
||||||||||||
|||||||||||
|||||||||||
||||||||||
||||||||||
|||||||||
|||||||||
||||||||
||||||||
|||||||
|||||||
||||||
||||||
|||||
|||||
||||
||||
|||
|||
||
||
|
|
8)      ow][/color]
71 楼 yijiehuanshen 2014-05-29  
非常不错,牛,可以出书了
70 楼 richardww123 2014-05-12  
非常感谢楼主分享,最近正在学习Lucene,要是做成视频教程,那学起来更轻松了,谢谢 
69 楼 wfqwang82 2014-02-12  
楼主,好样的,学习了
68 楼 weiweisohu 2014-01-21  
楼主,爱死你了,写的这么详细,以后必须要登门拜访才是
67 楼 zs_jl_bh 2013-12-26  
66 楼 高军威 2013-11-08  
太感谢 了 
65 楼 微雨骑驴入剑门 2013-10-31  
楼主牛人,感谢分享。
64 楼 CopyHoo 2013-10-25  
非常不错,牛。
63 楼 yushl 2013-08-14  
时至今日,我不得不再次冒泡:真是好资料,牛逼
62 楼 zhangyuslam 2013-06-24  
不错
61 楼 chxiaowu 2013-06-16  
懒人经常不回帖,但是此贴必须顶!!!
60 楼 yidiyidian 2013-05-16  
这么好的东西必须顶!
59 楼 摩羯座 2013-04-09  
仔细看了下,里面有些错别字什么的,还有有些配图里有点小错误,但总的来说真的是写得很好,不知道有没有纸质的
58 楼 摩羯座 2013-04-09  
楼主是专家,大牛

相关推荐

Global site tag (gtag.js) - Google Analytics