`
yidianfengfan
  • 浏览: 124210 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

apache lucene 结构和主要的类

    博客分类:
  • java
阅读更多
Apache lucene提供的功能大体可以看作是给一些资料建成索引, 再根据搜索词搜索出资料中一些内容。 当中的类主要分为建索引和搜索两种。



一、建索引
建索引的过程为: 输入一串源字符串, 经过Analyzer分词处理,生成Document, 其中各Field要索引的索引, 要存储的存储, 最终通过IndexWriter写入内存或磁盘。

写入相关:同
  • 1. IndexWriter 主要是写索引,
  • 2. Directory类分为FSDirectory和RAMDirectory。
  • 3. Document 一个文档,是多个字段的集合,可以看作是数据库的一条记录,组合成Segment, document先在内存中保存一定的条数, 到了加入到Segment,多个Segment有个MaxMerge, 到达这个数时合并成新的一个.  Segment中Document有最多条数, 一般是Integer.MAX_VALUE
  • 4. Field 具体字段, Store, Index[NO_NORMS, NO, UN_TOKENIZED, TOKENIZED], 可能设置权值,以便搜索时排在前面。
  • 5. Analyzer分析器, 含Filter, Tokoner, 主要的功能是按一定的规则进行分词、去除StopWord使输入串成一个个单词组


二、搜索索引
搜索的过程是:输入搜索词, 通过Analyzer处理, 再通过Parser组合成基本TermQuery搜索项。 最终通过IndexSearch的search(query),搜索出Document集合。

搜索相关的:
  • 1. IndexSearcher  以只读的方式找开索引来搜索,(新的内容可以通过reopen)
  • indexSearcher.search(query, filter, sort)
  • 2. Term:搜索的基本单元, 一般与TermQuery相关, Term[key, content]
  • 3. Query: TermQuery, BooleanQuery, PhraseQuery, PrefixQuery, PhrasePrefixQuery,
  •           RangeQuery, FilterQuery, WildcardQuery
  • 4.  Filter  要查询时做预处理, 并不是对结果集进行过滤。资源消耗比较大的
  • 5.  Sort   排序, 对结果进行排序
  • 5.  Hits, hits.doc(i)



IndexReader
索引更新采用先根据IndexReader.deleteDocuments删除,然后再用IndexWriter.addDocument增加.

三、注意点:
  • 1. 对于大数据量的建索引, 可以分多线程, 先RAMDirectory再到FSDirectory
  • 2. 选择合适的分词器, 对于索引时间和索引大小都有很大的影响
  • 3. 对于搜索我们可以缓存一些结果或者是Query, 以便不搜索索引或解析特别是于RangeQuery解析,对整个索引记录标记是特别耗时的。
  • 4. 索引写的时候可以同时索引(写时在文件目录生成一个锁文件), 写完索引搜索不出来新加入的问题的, 要Indexsearch.reopen
  • 5. 搜索时多个条件时一般都是BooleanQuery来组合TermQuery













  • 大小: 7.3 KB
分享到:
评论

相关推荐

    lucene-core-7.7.0-API文档-中文版.zip

    赠送jar包:lucene-core-7.7.0.jar; 赠送原API文档:lucene-core-7.7.0-javadoc.jar; 赠送源代码:lucene-core-7.7.0-sources.jar;...人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心使用。

    lucene-spatial-6.6.0-API文档-中英对照版.zip

    赠送jar包:lucene-spatial-6.6.0.jar; 赠送原API文档:lucene-spatial-6.6.0-javadoc.jar;...人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心使用。 双语对照,边学技术、边学英语。

    lucene-core-7.2.1-API文档-中文版.zip

    赠送jar包:lucene-core-7.2.1.jar; 赠送原API文档:lucene-core-7.2.1-javadoc.jar; 赠送源代码:lucene-core-7.2.1-sources.jar;...人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心使用。

    lucene-suggest-7.7.0-API文档-中文版.zip

    赠送jar包:lucene-suggest-7.7.0.jar; 赠送原API文档:lucene-suggest-7.7.0-javadoc.jar; 赠送源代码:lucene-suggest-7.7.0-sources...人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心使用。

    深入 Lucene 索引机制

    NULL 博文链接:https://xiangtui.iteye.com/blog/1177388

    lucene-analyzers-smartcn-7.7.0-API文档-中文版.zip

    赠送jar包:lucene-analyzers-smartcn-7.7.0.jar; 赠送原API文档:lucene-analyzers-smartcn-7.7.0-javadoc.jar; ...人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心使用。

    lucene-join-7.2.1-API文档-中英对照版.zip

    赠送jar包:lucene-join-7.2.1.jar; 赠送原API文档:lucene-join-7.2.1-javadoc.jar;...人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心使用。 双语对照,边学技术、边学英语。

    lucene-core-6.6.0-API文档-中文版.zip

    赠送jar包:lucene-core-6.6.0.jar; 赠送原API文档:lucene-core-6.6.0-javadoc.jar; 赠送源代码:lucene-core-6.6.0-sources.jar;...人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心使用。

    lucene-grouping-6.6.0-API文档-中文版.zip

    赠送jar包:lucene-grouping-6.6.0.jar; 赠送原API文档:lucene-grouping-6.6.0-javadoc.jar; 赠送源代码:lucene-grouping-6.6.0-...人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心使用。

    lucene-queryparser-7.3.1-API文档-中文版.zip

    赠送jar包:lucene-queryparser-7.3.1.jar; 赠送原API文档:lucene-queryparser-7.3.1-javadoc.jar; 赠送源代码:lucene-queryparser-...人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心使用。

    lucene-spatial3d-7.2.1-API文档-中文版.zip

    赠送jar包:lucene-spatial3d-7.2.1.jar; 赠送原API文档:lucene-spatial3d-7.2.1-javadoc.jar; 赠送源代码:lucene-spatial3d-7.2.1-...人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心使用。

    lucene-backward-codecs-7.3.1-API文档-中英对照版.zip

    赠送jar包:lucene-backward-codecs-7.3.1.jar; 赠送原API文档:lucene-backward-codecs-7.3.1-javadoc...人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心使用。 双语对照,边学技术、边学英语。

    lucene-sandbox-7.2.1-API文档-中文版.zip

    赠送jar包:lucene-sandbox-7.2.1.jar; 赠送原API文档:lucene-sandbox-7.2.1-javadoc.jar; 赠送源代码:lucene-sandbox-7.2.1-sources...人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心使用。

    lucene-spatial3d-7.3.1-API文档-中英对照版.zip

    赠送jar包:lucene-spatial3d-7.3.1.jar; 赠送原API文档:lucene-spatial3d-7.3.1-javadoc.jar;...人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心使用。 双语对照,边学技术、边学英语。

    lucene-spatial-6.6.0-API文档-中文版.zip

    赠送jar包:lucene-spatial-6.6.0.jar; 赠送原API文档:lucene-spatial-6.6.0-javadoc.jar; 赠送源代码:lucene-spatial-6.6.0-sources...人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心使用。

    lucene-misc-6.6.0-API文档-中文版.zip

    赠送jar包:lucene-misc-6.6.0.jar; 赠送原API文档:lucene-misc-6.6.0-javadoc.jar; 赠送源代码:lucene-misc-6.6.0-sources.jar;...人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心使用。

    lucene-analyzers-smartcn-7.7.0-API文档-中英对照版.zip

    赠送jar包:lucene-analyzers-smartcn-7.7.0.jar; 赠送原API文档:lucene-analyzers-smartcn-7.7.0-...人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心使用。 双语对照,边学技术、边学英语。

    lucene-spatial-extras-7.3.1-API文档-中英对照版.zip

    赠送jar包:lucene-spatial-extras-7.3.1.jar; 赠送原API文档:lucene-spatial-extras-7.3.1-javadoc....人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心使用。 双语对照,边学技术、边学英语。

    lucene-core-7.3.1-API文档-中文版.zip

    赠送jar包:lucene-core-7.3.1.jar; 赠送原API文档:lucene-core-7.3.1-javadoc.jar; 赠送源代码:lucene-core-7.3.1-sources.jar;...人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心使用。

    lucene-suggest-6.6.0-API文档-中文版.zip

    赠送jar包:lucene-suggest-6.6.0.jar; 赠送原API文档:lucene-suggest-6.6.0-javadoc.jar; 赠送源代码:lucene-suggest-6.6.0-sources...人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心使用。

Global site tag (gtag.js) - Google Analytics