查看Lucene分词器分词后的结果 - JBPM&LUCENE - ITeye博客

`

stta04

浏览: 113227 次
性别:
来自: 广州

最近访客更多访客>>

mk_ily

fengyanglu

ywk

772191140

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

lostmemorise：控制台输出怎么办，遗留系统怎么办。
Eclipse里做JBPM工作流gpd.xml中文乱码问题解决
magic_yao：我的html文件和jsp文件不知怎么也被设置默认在外部打开了！ ...
Eclipse设定文件的默认打开方式
fang428：怎么没有生成flv文件呢？而且图片也没有？亟待答复
视频上传过程中自动转换为flv格式并截图生成缩略图（Java调用命令实现）
dayone：我修改配置以后，之前做好的gpd.xml不报错了，但是打开后还 ...
Eclipse里做JBPM工作流gpd.xml中文乱码问题解决
wujiazhao88：没用的，完全RP问题而已
No result defined for action

查看Lucene分词器分词后的结果

阅读更多

import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.WhitespaceAnalyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;

/**
* 输出分词器分词的结果
* @author USER
*
*/
public class LookAnalyzerResult {

/**
* 测试主程序入口
* @param args
* @throws Exception
*/
public static void main(String[] args) throws Exception{
Analyzer analyzer1 = new StandardAnalyzer();
Analyzer analyzer2 = new WhitespaceAnalyzer();
String indexString1 = "中国建设银行深发银行广东发展银行";

String indexString2 = "这是一届创造奇迹、超越梦想的奥运会.......";

/**
* 中国建设银行深发银行广东发展银行
中国建设银行深发银行广东发展银行
*/
showAnalyzerResult(analyzer1,indexString1);
showAnalyzerResult(analyzer2,indexString1);

/**
* 这是一届创造奇迹超越梦想的奥运会
这是一届创造奇迹、超越梦想的奥运会.......
*/
showAnalyzerResult(analyzer1,indexString2);
showAnalyzerResult(analyzer2,indexString2);
}

/**
* 查看分词后的结果
* @param analyzer
* @param s
* @throws Exception
*/
public static void showAnalyzerResult(Analyzer analyzer, String s) throws Exception {

StringReader reader = new StringReader(s);
TokenStream ts = analyzer.tokenStream(s, reader);

Token t = ts.next();
while (t != null) {
System.out.print(t.termText()+" ");
t = ts.next();
}
System.out.println();
}
}

分享到：

Acegi-security-samples-tutorial-1.0.7.zi ... | 查询字符串的解析—QueryParser类

2008-09-24 18:57
浏览 3621
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Lucene中文分词器包: 来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。 1. 正向全切分算法，42万汉字字符/每秒的处理能力（IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP） 2. 对数量词、地名、路名的...

lucene分词测试代码: 用java写的图形分词测试的小东西,用的分词器是: 来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器，其使用“正向全切分算法”，42万汉字字符/每秒的处理能力（IBM ThinkPad 酷睿I...

Lucene-Demo.rar Lucene分词的demo: 本压缩包的主要内容是Lucene分词器的demo版本，可以导入到程序中直接使用，包含Lucene分词使用的pom文件，使用前请注意修改存储地址。

Lucene中文分词器组件: Lucene中文分词器组件,不错的。

lucene3.0 分词器: lucene3.0 中文分词器，庖丁解牛

lucene.NET 中文分词: lucene.NET 中文分词高亮 lucene.NET 中文分词高亮 lucene.NET 中文分词高亮 lucene.NET 中文分词高亮

lucene中文分词器（paoding解牛）: lucene搜索引擎中文分词器，版本2.0.4,强大的中文分词效果在其它中文分词器当中独领风骚

Lucene分词器资源包: 压缩包内含有Lucene分词时所需要的jar包，可以添加到本地maven当中使用，但不含demo，如需使用Lucene的demo，还请下载Lucene-Demo.rar

Lucene4.X实战类baidu搜索的大型文档海量搜索系统-22.Lucene分词器3 共4页.pptx: 20.Lucene分词器1 共3页 21.Lucene分词器2 共9页 22.Lucene分词器3 共4页 23.Lucene项目实战1 共6页 24.Lucene项目实战2 共6页 25.Lucene项目实战3 共6页 26.Lucene项目实战4 共6页 27.Lucene项目实战5 共5页 28....

高版本Lucene的IK分词器: maven库中现有的ik分词器只支持低版本的Lucene，想要支持高版本的Lucene，需要重写老版本ik分词器里的部分代码. 下载代码片段后导入项目，在创建分词器的时候把new IKAnalyzer替换为 new IKAnalyzer5x即可。

Lucene4.0 IK分词器使用pdf: Ik中分分词器介绍，可用于lucene4.0

简单的LUCENE分词: 在JAVA下，用lucene的内置分词功能对XML文件进行分词，并取消无用词

lucene分词包: lucene自带的中文分词器，将jar放入编译路径即可使用

Jcseg支持lucene3的分词器: 在网上找了好半天也没找到jcseg分词器对lucene 3的支持，自己参考这对lucene4的支持写的，希望对大家有用。

Lucene的中文分词方法设计与实现: 本文设计实现了一个中文分词模块，其主要研究目的在于寻找更为有效的中文词汇处理方法，提高全文检索系统的中文处理能力．整个模块基于当前最流行的搜索引擎架构 Lucene，实现了带有歧义消除功能的正向最大匹配算法...

java lucene 实现分词和词干抽取: 用java实现的，利用了lucene里面的standardAnalyzer分析器实现的分词，可以去停用词，再利用波特算法实现词干提取最后排序和词频统计输出

Lucene与中文分词技术的研究及应用: Lucene与中文分词技术的研究及应用Lucene与中文分词技术的研究及应用Lucene与中文分词技术的研究及应用

中文分词及其在基于Lucene的全文检索中的应用: 本文构造出一种适应中英文信息处理的Lucene语言分析器，该分析器的核心模块——分词器所使用的分词算法是一种基于词典的中文分词算法，该算法具体实现上采用了基于词前缀哈希技术来进行逐字匹配，采用基于规则统计...

Lucene分词与查询详解: Lucene分词与查询详解。这是一个完整的实例，希望对大家的开发学习有帮助！！！

Lucene中文分词源码详解: Lucene，作为一种全文搜索的辅助工具，为我们进行条件搜索，无论是像Google,Baidu之类的搜索引擎，还是论坛中的搜索功能，还是其它C/S架构的搜索，都带来了极大的便利和比较高的效率。本文主要是利用Lucene对MS Sql...

Global site tag (gtag.js) - Google Analytics