`
stta04
  • 浏览: 113227 次
  • 性别: Icon_minigender_2
  • 来自: 广州
社区版块
存档分类
最新评论

查看Lucene分词器分词后的结果

阅读更多

import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.WhitespaceAnalyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;

/**
* 输出分词器分词的结果
* @author USER
*
*/
public class LookAnalyzerResult {

/**
* 测试主程序入口
* @param args
* @throws Exception
*/
public static void main(String[] args) throws Exception{
Analyzer analyzer1 = new StandardAnalyzer();
Analyzer analyzer2 = new WhitespaceAnalyzer();
String indexString1 = "中国建设银行 深发银行 广东发展银行";

String indexString2 = "这是一届创造奇迹、超越梦想的奥运会.......";

/**
* 中 国 建 设 银 行 深 发 银 行 广 东 发 展 银 行
中国建设银行 深发银行 广东发展银行
*/
showAnalyzerResult(analyzer1,indexString1);
showAnalyzerResult(analyzer2,indexString1);

/**
* 这 是 一 届 创 造 奇 迹 超 越 梦 想 的 奥 运 会
这是一届创造奇迹、超越梦想的奥运会.......
*/
showAnalyzerResult(analyzer1,indexString2);
showAnalyzerResult(analyzer2,indexString2);
}

/**
* 查看分词后的结果
* @param analyzer
* @param s
* @throws Exception
*/
public static void showAnalyzerResult(Analyzer analyzer, String s) throws Exception {

StringReader reader = new StringReader(s);
TokenStream ts = analyzer.tokenStream(s, reader);

Token t = ts.next();
while (t != null) {
System.out.print(t.termText()+" ");
t = ts.next();
}
System.out.println();
}
}

分享到:
评论

相关推荐

    Lucene中文分词器包

    来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。 1. 正向全切分算法,42万汉字字符/每秒的处理能力(IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP) 2. 对数量词、地名、路名的...

    lucene分词测试代码

    用java写的图形分词测试的小东西,用的分词器是: 来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器,其使用“正向全切分算法”,42万汉字字符/每秒的处理能力(IBM ThinkPad 酷睿I...

    Lucene-Demo.rar Lucene分词的demo

    本压缩包的主要内容是Lucene分词器的demo版本,可以导入到程序中直接使用,包含Lucene分词使用的pom文件,使用前请注意修改存储地址。

    Lucene中文分词器组件

    Lucene中文分词器组件,不错的。

    lucene3.0 分词器

    lucene3.0 中文分词器, 庖丁解牛

    lucene.NET 中文分词

    lucene.NET 中文分词 高亮 lucene.NET 中文分词 高亮 lucene.NET 中文分词 高亮 lucene.NET 中文分词 高亮

    lucene中文分词器(paoding解牛)

    lucene搜索引擎中文分词器,版本2.0.4,强大的中文分词效果在其它中文分词器当中独领风骚

    Lucene分词器资源包

    压缩包内含有Lucene分词时所需要的jar包,可以添加到本地maven当中使用,但不含demo,如需使用Lucene的demo,还请下载Lucene-Demo.rar

    Lucene4.X实战类baidu搜索的大型文档海量搜索系统-22.Lucene分词器3 共4页.pptx

    20.Lucene分词器1 共3页 21.Lucene分词器2 共9页 22.Lucene分词器3 共4页 23.Lucene项目实战1 共6页 24.Lucene项目实战2 共6页 25.Lucene项目实战3 共6页 26.Lucene项目实战4 共6页 27.Lucene项目实战5 共5页 28....

    高版本Lucene的IK分词器

    maven库中现有的ik分词器只支持低版本的Lucene,想要支持高版本的Lucene,需要重写老版本ik分词器里的部分代码. 下载代码片段后导入项目,在创建分词器的时候把new IKAnalyzer替换为 new IKAnalyzer5x即可。

    Lucene4.0 IK分词器使用pdf

    Ik中分分词器介绍,可用于lucene4.0

    简单的LUCENE分词

    在JAVA下,用lucene的内置分词功能对XML文件进行分词,并取消无用词

    lucene分词包

    lucene自带的中文分词器,将jar放入编译路径即可使用

    Jcseg支持lucene3的分词器

    在网上找了好半天也没找到jcseg分词器对lucene 3的支持,自己参考这对lucene4的支持写的,希望对大家有用。

    Lucene的中文分词方法设计与实现

    本文设计实现了一个中文分词模块,其主要研究目的在于寻找更为有效的中文词汇 处理方法,提高全文检索系统的中文处理能力.整个模块基于当前最流行的搜索引擎架构 Lucene,实现了带有歧义消除功能的正向最大匹配算法...

    java lucene 实现分词和词干抽取

    用java实现的,利用了lucene里面的standardAnalyzer分析器实现的分词,可以去停用词,再利用波特算法实现 词干提取 最后排序 和词频统计输出

    Lucene与中文分词技术的研究及应用

    Lucene与中文分词技术的研究及应用Lucene与中文分词技术的研究及应用Lucene与中文分词技术的研究及应用

    中文分词及其在基于Lucene的全文检索中的应用

    本文构造出一种适应中英文信息处理的Lucene语言分析器,该分析器的核心模块——分词器所使用的分词算法是一种基于词典的中文分词算法,该算法具体实现上采用了基于词前缀哈希技术来进行逐字匹配,采用基于规则统计...

    Lucene分词与查询详解

    Lucene分词与查询详解。这是一个完整的实例,希望对大家的开发学习有帮助!!!

    Lucene中文分词源码详解

    Lucene,作为一种全文搜索的辅助工具,为我们进行条件搜索,无论是像Google,Baidu之类的搜索引 擎,还是论坛中的搜索功能,还是其它C/S架构的搜索,都带来了极大的便利和比较高的效率。本文主要是利用Lucene对MS Sql...

Global site tag (gtag.js) - Google Analytics