`
baobeituping
  • 浏览: 1048146 次
  • 性别: Icon_minigender_1
  • 来自: 长沙
社区版块
存档分类
最新评论

Lucene 索引文件格式详解

阅读更多
1.索引的SEGMENT
  每个SEGMENT代表LUCENE的一个完成的索引段,通常,在一个索引中,会包含多个SEGMENT,每个SEGMENT都有统一的前缀,这个前缀是根据当前索引的DOCUMENT的数量而确立的。前缀名是DOCUMENT转成36进制后在前面加“_"组成。
  通常在以个完成的索引中,只有一个SEGMENT文件。这个文件没有后缀,他记录了当前索引中所有的SEGMENT信息。
2.fnm格式
  改格式文件包含了DOCUMENT中所有的FIELD的名称
3..fdx与.fdt格式文件
   .fdt类型文件用于存储具有Store.YES属性的Field的数据。而.fdx类型文件则是一个索引用于存储Document在.fdt中的位置。
4..tii格式和.tis格式
  .tis文件用于存储分词后的词条,而.tii就是他的索引文件,他标明了每个.tis文件中的词条的位置
5.deletable格式
  在LUCENE的索引中,所有的文档被删除后并不是立刻从索引中去除,而是留待下一次合并索引货是对索引进行优化时候才真正删除,有点类似回收站的功能。这种功能就是通过deletable文件实现。所有文件被删除后,会首先在deletable文件中留下一笔记录,要真正删除时候才将索引除去。
6.复合索引格式.cfs
  在indexwriter中有个属性useCompoundFile他的默认值是TRUE,这个属性含义,是否使用复合索引格式来保存索引。索引的内容可能非常的大,文件数量也可能非常的多,使用复合索引来存储DOCUMEN,只需要初始化完一个INDEXWRITER对象后,使用该方法就可以了。
使用该方法就是将除了6以外的文件类似打包一样集合起来。

分享到:
评论

相关推荐

    毕设 Lucene解析索引PDF文档的内容

    iTextPDFExtractor.java ------ ...--PDFBox创建PDF文件的Lucene索引 PDFBoxPathIndex.java ------- --PDFBox创建指定目录PDF文档索引 POIOfficeExtractor.java ----- -- POI处理Excel和Word文档代码

    lucene索引入门[归类].pdf

    lucene索引入门 Lucene 是一个基于 Java 的全文搜索引擎库,提供了一个简单、灵活、可扩展的搜索解决方案。Lucene 的核心组件包括索引模块、检索模块、语言分析器、查询分析器、存储结构等。 1. 索引模块(Index)...

    Lucene中文分词源码详解

    本文主要是利用Lucene对MS Sql Server 2000进行建立索引,然后进行全文索引。至于数据库的内容,可以是网页的内容,还是其它的。本文中数据库的内容是图书馆管理系统中的某个作者表- Authors表。

    lucene搜索引擎配置详解

    lucene搜索引擎配置,从载入文件,建立索引,搜索三步让你知道lucene搜索的核心技术

    Lucene 3.0 原理与代码分析完整版

    1.3 Lucene学习总结之三:Lucene的索引文件格式 (1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 1.4 Lucene学习总结之三:Lucene的索引文件格式 (2) . . . . . . . . . . . ....

    基于Lucene的Oracle数据库全文检索.pdf

    Lucene内部定义了索引文件的格式,具有独立于应用平台的特点,采用倒排索引结构提高检索速度,并且应用面向对象技术,便于扩展及二次开发。 Lucene的组成结构包括7个子包,每个包完成特定的功能。analysis语言...

    经典的lucene实例代码及详细解析以及lucene结构流程介绍

    本文并给出一个经典的lucene全文收索例子代码。该例子功能是从磁盘文档建立索引,搜索该文档中的哪个TXT文件包含所搜索内容。最后再大致介绍Lucene的结构模块,应用流程希望对网友能有帮助。

    Lucene中的FST算法描述

    描述了Lucene中如何使用FST算法构建term的内存索引,使用了很多图,直观的展现了FST图的构建流程,能够对想了解lucene内部实现机制原理的同学有帮助。

    lucene.net 完全入门教程

    lucene.net 完全入门教程,包括 lucene.net 介绍, lucene.net工作模式, lucene.net分词方法和中文分词方法, lucene.net索引的建立详解, lucene.net搜索详解, lucene.net的下载方法, lucene.net搜索结果实现...

    lucene-sequence-diagram:lucene搜索端uml时序图,lucene源码解析

    lucene-sequence-diagram lucene搜索端uml时序图,lucene源码解析 图比较大,看不清,可以下载【sd-search.svg】后再用...1.1 对"lucene"这个term赋予权重,需要先从索引文件中读取"title"这个字段的倒排表信息,即图中

    lucene实现全文搜索

    全文检索介绍 索引 分词 Lucene介绍 Lucene应用详解 索引器 检索器 条件查询 实用工具及高亮器 Lucene综合应用——仿搜索引擎

    lucene2.9.1所有最新开发包及源码及文档

    3. Lucene的索引文件逻辑结构 1) 索引(Index)由若干块(片段)(Segment)组成 ★2) 块由若干文档(Document)组成: 一个文件映射成一个文档。数据库表中的一条记录映射成一个文档。 ★3) 文档由若干域(Field)组成:...

    Lucene3.0之查询类型详解

    Lucene3.0之查询处理(1):原理和查询类型 各种Query对象详解

    Lucene搜索引擎开发权威经典 光盘

    介绍解析不同格式数据(如Word、PDF等)的方法,包括常用的数据解析组件、Lucene自身的数据解析机制和Lius类库。第3部分:索引的高级知识。介绍了Lucene建立索引的过程,索引的查看和删除,索引的同步,索引的合并和...

    lucene2.9.1完整DEMO及开发文档

    //src要创建索引的文件,destDir索引存放的目录 public static void createIndex(File src, File destDir){ Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_CURRENT); //创建一个语法分析器 ...

    基于JAVA的搜索引擎 lucene-2.2.0

    // IndexFileDeleter deleter是IndexWriter类的一个私有的成员变量,它在org.apache.lucene.index包里面,主要对删除索引文件进行实现和管理 deleter = new IndexFileDeleter(directory, deletionPolicy == null ...

    开发自己的搜索引擎lucene and heritrix

    注:随光盘附带的mirror.rar文件是使用Heritrix从pconline网上抓取的手机信息页面(以网站镜象格式存储),在本书最后搜索引擎完整实例中需要使用到。由于光盘容量有限,笔者删除了原始镜像目录中一部分的网页,可能...

    【ASP.NET编程知识】详解Spring Boot 中使用 Java API 调用 lucene.docx

    1. 创建索引,通过 IndexWriter 对不同的文件进行索引的创建,并将其保存在索引相关文件存储的位置中。 2. 通过索引查寻关键字相关文档。 Lucene 数学模型 文档、域、词元是 Lucene 搜索和索引的原子单位。文档为...

    Heritrix lucene开发自己的搜索引擎(源码)1

    注:随光盘附带的mirror.rar文件是使用Heritrix从pconline网上抓取的手机信息页面(以网站镜象格式存储),在本书最后搜索引擎完整实例中需要使用到。由于光盘容量有限,笔者删除了原始镜像目录中一部分的网页,可能...

    luceneDemo(创建索引+关键字查询)

    创建索引 一、创建词法分析器 二、创建索引存储目录 三、创建索引写入器 四、将内容存储到索引 关键字查询 一、创建索引存储目录读取器 二、创建索引搜索器 三、解析查询 四、获取结果

Global site tag (gtag.js) - Google Analytics