`
BuN_Ny
  • 浏览: 85203 次
  • 来自: 济南
社区版块
存档分类
最新评论

6) 第二章 索引:Lucene索引的文档模型

阅读更多

 

1. 文档(Document)和域(Field)

    Document是Lucene索引和搜索的最小单元。然而实际上它只是一个或多个Field的容器,Field中保存着真正的内容。

    Field由三部分组成:名称(作为域的唯一标识); 值(文本或二进制值); 选项(针对该域的一些细节描述)

 

2. Field的高级设置

    1) 值可以被索引或不索引。被索引的域才能被搜索到。只有文本域才能被索引,二进制值域只能被存储(store)

    2) 被索引的域可以增加检索词向量(term vectors)

    3) 值可以被存储

 

3. Lucene与数据库的区别

    1) 灵活的模式(schema)

      Lucene并不像数据库一样,拥有固定的全局模式。新加入的document和已有的document完全不同,它们可以拥有全新的域。

    2) 非规范化(Denormalization)

      Lucene需要对索引内容进行非规范化操作。

      一些开源框架如Hibernate Search, Compass, LuSQL, DBSight,Browse Engine 及 Oracle/Lucene integration能够完成此任务。

 

 

 

 

分享到:
评论

相关推荐

    解密搜索引擎技术实战:Lucene&Java精华版

    在**第1章**“搜索引擎总体结构”中,作者从搜索引擎的基本模块出发,如网络爬虫、全文索引结构与Lucene实现、搜索用户界面、计算框架、文本挖掘等方面进行阐述。 - **1.1 搜索引擎基本模块**:这部分简明扼要地...

    Lucene in Action.pdf

    - **文档模型**:介绍Lucene中文档的表示形式及其组成部分。 - **字段类型**:区分不同类型的字段(如文本字段和数值字段),并了解其对搜索的影响。 - **分析器**:学习如何使用不同的分析器对文本进行处理,...

    lucene in Action 中文版

    第二章深入到Lucene的内部工作机制,讲解了信息检索的基本原理,如倒排索引的概念,以及如何使用Lucene创建和管理这些索引。此外,本章还会介绍文本预处理的重要性,如分词、停用词处理、词干化等,这些都是构建有效...

    lucene+nutch搜索引擎光盘源码(1-8章)

    第二章通常深入到Lucene的索引过程,详细讲解如何添加、删除和更新文档。还会讨论倒排索引的概念,这是Lucene实现快速搜索的关键。此外,可能会涉及如何优化索引性能,如使用多线程索引和内存缓冲等技巧。 第三章则...

    《ASP.net办公自动化实例导航》第二章 文档管理系统 源码

    《ASP.NET办公自动化实例导航》第二章主要探讨的是如何构建一个企业文档管理系统,该系统是基于ASP.NET技术实现的,旨在提升企业的文档管理和协作效率。在这个章节中,开发者将学习到如何利用ASP.NET的核心功能来...

    京东架构师的ES笔记分享.docx

    #### 第二章:查询DSL进阶 - **Lucene评分过程**:解释文档如何根据相关性进行评分。这涉及到TF-IDF(Term Frequency-Inverse Document Frequency)算法以及其他评分机制。 - **查询改写**:介绍为何需要对原始查询...

    文本分析技术(第三章 检索2)

    - **高效索引机制**:通过高效的索引机制,Lucene能够快速地对大量文档进行索引和检索。 - **多语言支持**:支持多种语言,便于在全球范围内应用。 - **社区支持**:作为Apache基金会的一个项目,Lucene拥有强大的...

    基于CCR模型的用户投诉智能识别系统.doc

    本文档主要介绍基于CCR模型的用户投诉智能识别系统,旨在解决中国移动公司在投诉分析方面存在的问题,例如热点捕捉难、内容分析难、工作发力难等问题。该系统可以对用户投诉内容进行智能识别,发现用户不满原因,以...

    OpenCMS内容管理入门指南(300页中文).pdf

    - **去掉第二个opencms**: 继续修改配置,使URL更简洁。 - **集成意义**: 通过Apache与Tomcat的集成,提高网站性能和稳定性。 ##### 2.4 OpenCMS启动指导 - **启动步骤**: - 确保所有依赖软件都已正确安装。 - ...

Global site tag (gtag.js) - Google Analytics