`
hdxiong
  • 浏览: 372255 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Lucene 索引优化 参数详解

阅读更多

IndexWriter:
   1、maxFieldLength:默认值(10000),一般设置为Integer.MAX_VALUE。即截取该域中的前10000个项(

或词组)进行索引并被检索,前10000个以外的项将不被索引和检索。该值可在索引中随时更改,并即时生

效(仅对更改后的索引生效,前面的依旧)。
   2、setMergeFactor:默认值(10),一般设置根据具体情况而定。例如,当mergeFactor的因子设为10,那么,每向索引添加10个Document是,就会有一个新的segment在磁盘建立;当第10个这样的segment建立好后,它们就会合并成为一个具有100个Document的新segment。即:mergeFactor取值较大(>10)时,保存在内存中的Document会增多(即内存占用多),磁盘I/O操作频率减少,索引速度加快,适合批量索引;mergeFactor取值较小(<10)时,保存在内存中的Document会减少(即内存占用少),磁盘I/O操作频率增长,索引速度减缓,适合间歇性索引。
   3、setMaxMergeDocs:默认值(Integer.MAX_VALUE),根据上述对mergeFactor的设置,例如,默认时,一个segment段中的Document会呈10、100、1000、10000、……这样无限增长,为了防止segment无止境的增长,我们需要对一个segment能包含的最大的Document数量进行限制,这里就用maxMergeDocs进行设置。当mergeFactor=10,maxMergeDocs=2000时,一个segment中的Document数量会呈10、100、1000、2000、……,这样增长,由于受到maxMergeDocs的限制,第四次合并是并不是10000而是2000。
   4、setMaxBufferedDocs:默认值(10),在2.0版本以前又叫“setMinMergeDocs”。索引在被写到磁盘上时,需要首先保存在内存中,该属性就是用来限制内存中的文档数量的。该值设置较大时,会需要更多的内存空间;该值较小时,会发生频繁的I/O操作!

     我相信,大家了解了上述这些IndexWriter的参数设置,必定会对优化自己的索引有所帮助!

分享到:
评论
3 楼 xiaophai 2011-03-03  
xiaophai 写道
       

xiaophai 写道
       

xiaophai 写道
       

xiaophai 写道
       

xiaophai 写道
       

xiaophai 写道
       

xiaophai 写道
       

2 楼 xiaophai 2011-03-03  
xiaophai 写道
       

1 楼 xiaophai 2011-03-03  
       

相关推荐

    毕设 Lucene解析索引PDF文档的内容

    iTextPDFExtractor.java ------ ...--PDFBox创建PDF文件的Lucene索引 PDFBoxPathIndex.java ------- --PDFBox创建指定目录PDF文档索引 POIOfficeExtractor.java ----- -- POI处理Excel和Word文档代码

    Lucene中文分词源码详解

    本文主要是利用Lucene对MS Sql Server 2000进行建立索引,然后进行全文索引。至于数据库的内容,可以是网页的内容,还是其它的。本文中数据库的内容是图书馆管理系统中的某个作者表- Authors表。

    lucene搜索引擎配置详解

    lucene搜索引擎配置,从载入文件,建立索引,搜索三步让你知道lucene搜索的核心技术

    Lucene中的FST算法描述

    描述了Lucene中如何使用FST算法构建term的内存索引,使用了很多图,直观的展现了FST图的构建流程,能够对想了解lucene内部实现机制原理的同学有帮助。

    经典的lucene实例代码及详细解析以及lucene结构流程介绍

    本文并给出一个经典的lucene全文收索例子代码。该例子功能是从磁盘文档建立索引,搜索该文档中的哪个TXT文件包含所搜索内容。最后再大致介绍Lucene的结构模块,应用流程希望对网友能有帮助。

    lucene.net 完全入门教程

    lucene.net 完全入门教程,包括 lucene.net 介绍, lucene.net工作模式, lucene.net分词方法和中文分词方法, lucene.net索引的建立详解, lucene.net搜索详解, lucene.net的下载方法, lucene.net搜索结果实现...

    lucene实现全文搜索

    全文检索介绍 索引 分词 Lucene介绍 Lucene应用详解 索引器 检索器 条件查询 实用工具及高亮器 Lucene综合应用——仿搜索引擎

    lucene-sequence-diagram:lucene搜索端uml时序图,lucene源码解析

    lucene搜索端uml时序图,lucene源码解析 图比较大,看不清,可以下载【sd-search.svg】后再用浏览器打开 使用starUML画图,可以下载【lucene.mdj】后打开,编辑 前提 只考虑最简单的查询,比如只对一个字段,用一个...

    Lucene3.0之查询类型详解

    Lucene3.0之查询处理(1):原理和查询类型 各种Query对象详解

    Lucene搜索引擎开发权威经典 光盘

    介绍了Lucene建立索引的过程,索引的查看和删除,索引的同步,索引的合并和优化等内容。第4部分:搜索的高级知识。介绍使用不同的Query对象构建搜索请求,使用QueryParser解析用户的搜索请求,搜索结果的过滤和排序...

    Lucene 3.0 原理与代码分析完整版

    1.6 Lucene学习总结之四:Lucene索引过程分析(1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 1.7 Lucene学习总结之四:Lucene索引过程分析(2) . . . . . . . . . . . ....

    luceneDemo(创建索引+关键字查询)

    创建索引 一、创建词法分析器 二、创建索引存储目录 三、创建索引写入器 四、将内容存储到索引 关键字查询 一、创建索引存储目录读取器 二、创建索引搜索器 三、解析查询 四、获取结果

    基于lucene的搜索引擎总结

    Lucene索引过程的核心类 IndexWriter :提供对索引的写入操作 Directory:描述了索引存放的位置 Analyzer:对文本进行分析,提取词汇(token),剔除无用的信息 Document:虚拟的文档 Field:每个Document包含一个或...

    lucene详解.doc

    1. 基于Java的全文索引引擎Lucene简介:关于作者和Lucene的历史 2. 全文检索的实现:Luene全文索引和数据库索引的比较 3. 中文切分词机制简介:基于词库和自动切分词算法的比较 4. 具体的安装和使用简介:系统...

    lucene2.9.1所有最新开发包及源码及文档

    对索引文件的segment进行写、合并、优化的IndexWriter类。对索引进行读取和删除操作的IndexReader类。 3) store模块:负责索引的存储。提供索引的各种存储类:FSDirectory,RAMDirectory等。 4) document模块:...

    lucene文档笔记详解

    Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎

    lucene2.9.1完整DEMO及开发文档

    //对索引进行优化 } catch (IOException e) { e.printStackTrace(); } finally { if (iwriter != null) { try { iwriter.close(); //关闭IndexWriter时,才把内存中的数据写到文件 } catch ...

    lucene例子

    Lucene 强大的 API 主要关注文本索引和搜索。它可以用于为各种应用程序构建搜索功能,比如电子邮件客户端、邮件列表、Web 搜索、数据库搜索等等。Wikipedia、TheServerSide、jGuru 和 LinkedIn 等网站都使用了 ...

    在HDFS上使用Lucene的SourceCode

    简单的介绍在HDFS中使用lucene完成索引和搜索的代码实例

    Lucene 源码解析

    在创建完最重要的IndexWriter之后,就开始遍历需要索引的文件,构造对应的Document和Filed类,最终通过IndexWriter的addDocument函数开始索引。 Document的构造函数为空,StringField、TextField和Field的构造函数...

Global site tag (gtag.js) - Google Analytics