import java.io.StringReader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.WhitespaceAnalyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
/**
* 输出分词器分词的结果
* @author USER
*
*/
public class LookAnalyzerResult {
/**
* 测试主程序入口
* @param args
* @throws Exception
*/
public static void main(String[] args) throws Exception{
Analyzer analyzer1 = new StandardAnalyzer();
Analyzer analyzer2 = new WhitespaceAnalyzer();
String indexString1 = "中国建设银行 深发银行 广东发展银行";
String indexString2 = "这是一届创造奇迹、超越梦想的奥运会.......";
/**
* 中 国 建 设 银 行 深 发 银 行 广 东 发 展 银 行
中国建设银行 深发银行 广东发展银行
*/
showAnalyzerResult(analyzer1,indexString1);
showAnalyzerResult(analyzer2,indexString1);
/**
* 这 是 一 届 创 造 奇 迹 超 越 梦 想 的 奥 运 会
这是一届创造奇迹、超越梦想的奥运会.......
*/
showAnalyzerResult(analyzer1,indexString2);
showAnalyzerResult(analyzer2,indexString2);
}
/**
* 查看分词后的结果
* @param analyzer
* @param s
* @throws Exception
*/
public static void showAnalyzerResult(Analyzer analyzer, String s) throws Exception {
StringReader reader = new StringReader(s);
TokenStream ts = analyzer.tokenStream(s, reader);
Token t = ts.next();
while (t != null) {
System.out.print(t.termText()+" ");
t = ts.next();
}
System.out.println();
}
}
分享到:
相关推荐
来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。 1. 正向全切分算法,42万汉字字符/每秒的处理能力(IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP) 2. 对数量词、地名、路名的...
用java写的图形分词测试的小东西,用的分词器是: 来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器,其使用“正向全切分算法”,42万汉字字符/每秒的处理能力(IBM ThinkPad 酷睿I...
本压缩包的主要内容是Lucene分词器的demo版本,可以导入到程序中直接使用,包含Lucene分词使用的pom文件,使用前请注意修改存储地址。
Lucene中文分词器组件,不错的。
lucene3.0 中文分词器, 庖丁解牛
lucene.NET 中文分词 高亮 lucene.NET 中文分词 高亮 lucene.NET 中文分词 高亮 lucene.NET 中文分词 高亮
lucene搜索引擎中文分词器,版本2.0.4,强大的中文分词效果在其它中文分词器当中独领风骚
压缩包内含有Lucene分词时所需要的jar包,可以添加到本地maven当中使用,但不含demo,如需使用Lucene的demo,还请下载Lucene-Demo.rar
20.Lucene分词器1 共3页 21.Lucene分词器2 共9页 22.Lucene分词器3 共4页 23.Lucene项目实战1 共6页 24.Lucene项目实战2 共6页 25.Lucene项目实战3 共6页 26.Lucene项目实战4 共6页 27.Lucene项目实战5 共5页 28....
maven库中现有的ik分词器只支持低版本的Lucene,想要支持高版本的Lucene,需要重写老版本ik分词器里的部分代码. 下载代码片段后导入项目,在创建分词器的时候把new IKAnalyzer替换为 new IKAnalyzer5x即可。
Ik中分分词器介绍,可用于lucene4.0
在JAVA下,用lucene的内置分词功能对XML文件进行分词,并取消无用词
lucene自带的中文分词器,将jar放入编译路径即可使用
在网上找了好半天也没找到jcseg分词器对lucene 3的支持,自己参考这对lucene4的支持写的,希望对大家有用。
本文设计实现了一个中文分词模块,其主要研究目的在于寻找更为有效的中文词汇 处理方法,提高全文检索系统的中文处理能力.整个模块基于当前最流行的搜索引擎架构 Lucene,实现了带有歧义消除功能的正向最大匹配算法...
用java实现的,利用了lucene里面的standardAnalyzer分析器实现的分词,可以去停用词,再利用波特算法实现 词干提取 最后排序 和词频统计输出
Lucene与中文分词技术的研究及应用Lucene与中文分词技术的研究及应用Lucene与中文分词技术的研究及应用
本文构造出一种适应中英文信息处理的Lucene语言分析器,该分析器的核心模块——分词器所使用的分词算法是一种基于词典的中文分词算法,该算法具体实现上采用了基于词前缀哈希技术来进行逐字匹配,采用基于规则统计...
Lucene分词与查询详解。这是一个完整的实例,希望对大家的开发学习有帮助!!!
Lucene,作为一种全文搜索的辅助工具,为我们进行条件搜索,无论是像Google,Baidu之类的搜索引 擎,还是论坛中的搜索功能,还是其它C/S架构的搜索,都带来了极大的便利和比较高的效率。本文主要是利用Lucene对MS Sql...