`
wbj0110
  • 浏览: 1552316 次
  • 性别: Icon_minigender_1
  • 来自: 上海
文章分类
社区版块
存档分类
最新评论

Lucene 源代码剖析-10 文档内容是如何分析的

阅读更多

Lucene 源码剖析

        文档内容是如何分析的

    

    Analyzer类负责分析文档结构并提取内容。

    

6.1   文档分析类Analyzer

6.1.1       org.apache.lucene.store.Analyzer

Analyzer类构建用于分析文本的TokenStream对象,因此(thus)它表示(represent)用于从文本中分解(extract)出组成索引的terms的一个规则器(policy)。典型的(typical)实现首先创建一个Tokenizer,它将那些从Reader对象中读取字符流(stream of characters)打碎为(break into)原始的Tokensraw Tokens)。然后一个或更多的TokenFilters可以应用在这个Tokenizer的输出上。警告:你必须在你的子类(subclass)中覆写(override)定义在这个类中的其中一个方法,否则的话Analyzer将会进入一个无限循环(infinite loop)中。

  

 

   

6.1.2       org.apache.lucene.store.StandardAnalyzer

StandardAnalyzer类是使用一个Englishstop words列表来进行tokenize分解出文本中word,使用StandardTokenizer类分解词,再加上StandardFilter以及LowerCaseFilter以及StopFilter这些过滤器进行处理的这样一个Analyzer类的实现。

  

 


 

    

      

http://www.cnblogs.com/eaglet/archive/2009/02/16/1391538.html

 

 
分享到:
评论

相关推荐

    Lucene 源代码剖析.rar

    这是一篇公司的内部培训教材,其中中的内容涵盖LUCENE的方方面面,从源代码角度深入剖析LUCENE,如果要对LUCENE有更加深入的了解(专家级别),这篇技术文档必不可少。 前提:对LUCENE有一定程度的了解,否则会让你云...

    lucene 7.1 jar包及文档

    Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎...

    lucene原理分析pdf

    Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎...

    开放源代码的全文检索引擎Lucene

    二、 Lucene索引文件格式··· 10 三、 一些公用的基础类··· 12 四、 存储抽象··· 13 五、 关于cLucene项目··· 15 第四节 Lucene索引构建逻辑模块分析··· 15 一、 绪论··· 15 二、 对象体系与...

    lucene学习文档

    lucene源代码的分析文档,希望对于初学lucene和对lucene有兴趣研究的朋友有所帮助。

    lucene相关文档pdf

    Lucene是apache下的一个开放源代码的全文检索引擎工具包。提供了完整的查询引擎和索引引擎,部分文本分析引擎。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能。

    ASP.NET基于Ajax+Lucene构建搜索引擎的设计和实现(源代码+论文)_new.rar

    对于学生而言,它提供了从初步的构想到实际开发所需的全方位辅助材料,包括论文、设计文档和源代码等。 2. 包含内容: - 论文:涵盖了整个Java ASP Web系统的基础知识,设计意图、需求概述、系统结构与设计哲学、...

    lucene部署配置与运行测试

    Lucene是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件...

    JAVA上百实例源码以及开源项目源代码

    Java日期选择控件完整源代码 14个目标文件 内容索引:JAVA源码,系统相关,日历,日期选择 Java语言开发的简洁实用的日期选择控件,源码文件功能说明: [DateChooser.java] Java 日期选择控件(主体类) [public] ...

    lucene技术总结文档.doc

    Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎...

    java搜索引擎源代码含文档

    主要利用JavaTM Servlet技术实现,用户通过GET方法从客户端向服务端提交查询条件,服务端通过Tomcat的Servlet容器接受并分析提交参数,再调用lucene的开发包进行搜索操作。最后把搜索的结果以HTTP消息包的形式发送至...

    若干vc代码1352.rar

    2012-06-13 13:37 41,984 熊猫烧香病毒源代码.doc 2012-06-13 13:11 42,760 系统监视工具.rar 2012-06-13 12:49 50,422 系统强力优化优化.cmd 2012-06-13 13:18 50,688 BP神经网络C实现.doc 2012-06-13 13:47 75,311...

    Java-全文搜索引擎Elasticsearch-掌握所有操作的源代码(Java api和spring data两种方式)

    本资源中的项目,使用springboot、logback、junit、mybatis-plus、spring data集成Elasticsearch搜索引擎框架,结合实际案例(赛事系统)完成Elasticsearch中索引、文档所有操作(创建、查询、删除、批量操作等)。...

    [搜索链接]java(结合lucene)版的公交搜索系统_javaso_new.rar

    该资源集中为学生提供了完整的毕业设计辅助材料,从论文、设计文档到源代码等内容,都是为了使学生能够更好地完成毕业设计。 2. 包含内容 论文:这部分包含了对整个Java Web系统的概述,设计的目标、需求分析、...

    apache lucence文档

    (文档部分)Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分...

    Java实现的公交搜索系统(结合lucene),可用作毕业设计,课程设计

    此资源集包含了一套完整的Java实现的公交搜索系统项目源代码、相关的毕业论文以及详尽的使用说明。它旨在提供一个全面、深入的学习和研究工具,适用于本科课程设计、毕业设计以及任何希望深入学习Java编程的学习者。...

    Eclipse开发分布式商城系统+完整视频代码及文档

    │ 淘淘商城源代码.zip │ ├─01.第一天 │ 01.课程计划.avi │ 02.淘淘商城介绍.avi │ 03.创建后台工程-taotao-parent.avi │ 04.创建taotao-manager.avi │ 05.svn的使用.avi │ 06.ssm框架整合思路.avi │ 07....

    apache lucence(不包含文档)

    Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎...

    Java搜索引擎的研究与实现(含文档+源码)

    9 3.2.4如何提高程序性能 11 3.2.5网络机器人的代码分析 12 3.3小节 14 第四章 基于lucene的索引与搜索 15 4.1什么是Lucene全文检索 15 4.2 Lucene的原理分析 15 4.2.1全文检索的实现机制 15...

Global site tag (gtag.js) - Google Analytics