lucene2.9的发布,增加了中文分词这个强大的功能.
以下就是这三个类的用法ChineseAnalyzer,CJKAnalyzer,SmartChineseAnalyzer
这三个类的结果如下:
Example phrase: "我是中国人"
ChineseAnalyzer: 我-是-中-国-人
CJKAnalyzer: 我是-是中-中国-国人
SmartChineseAnalyzer: 我-是-中国-人
呵呵,看到这是不是很棒呢?今天自己写了一个中文分词的测试法,是关于SmartChineseAnalyzer的用法
要用到此方法,要导入包,当然我以为只要下载了lucene-core-2.9.1.jar 就会有的,但是我错了.
所以我特意的提下,不想有的朋友也因为这个浪费不少时间
要用到lucene-analyzers-2.9.1.jar 和 lucene-smartcn-2.9.1.jar 这二个包在contrib\analyzers文件
夹下
代码如下:
public static void main(String[] args) {
String str = "市委座谈会要求加强改进农村党建工作";
String st =null;
StringBuffer sb = new StringBuffer();
StringReader reader = new StringReader(str);
Analyzer analyzer = new SmartChineseAnalyzer();
TokenStream ts = analyzer.tokenStream("", reader);
Token t = null;
try {
while ((t = ts.next()) != null) {
st=t.termText();
if(st.length()>=2){
System.out.println("##"+st);//判断等于二个字的,如果是一个字就不要了
}
sb.append(st);
}
System.out.println(sb);
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
刚开始学习lucene 有志合道者,可以好好交流下.呵呵,共同学习
原文链接:
http://liuzhimeng.com/
分享到:
相关推荐
lucene.NET 中文分词 高亮 lucene.NET 中文分词 高亮 lucene.NET 中文分词 高亮 lucene.NET 中文分词 高亮
本人的Lucene2.9学习笔记 本人的Lucene2.9学习笔记 本人的Lucene2.9学习笔记 本人的Lucene2.9学习笔记本人的Lucene2.9学习笔记本人的Lucene2.9学习笔记 本人的Lucene2.9学习笔记
lucene2.9开发指南是为了帮助初级开发人员而编写整理的资料,包括了所有的核心技术,希望对大家有帮助
lucene 2.9 API , lucene API,lucene 学习资料,lucene2.9 CHM
来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。 1. 正向全切分算法,42万汉字字符/每秒的处理能力(IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP) 2. 对数量词、地名、路名的...
最新的Lucene2.9英文API Lucene是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎
Lucene与中文分词技术的研究及应用Lucene与中文分词技术的研究及应用Lucene与中文分词技术的研究及应用
lucene_2.9_api
本文设计实现了一个中文分词模块,其主要研究目的在于寻找更为有效的中文词汇 处理方法,提高全文检索系统的中文处理能力.整个模块基于当前最流行的搜索引擎架构 Lucene,实现了带有歧义消除功能的正向最大匹配算法...
基于Lucene的中文分词方法设计与实现 基于Lucene的中文分词方法设计与实现 基于Lucene的中文分词方法设计与实现
Lucene 与中文分词的结合
Lucene中文分词器组件,不错的。
NULL 博文链接:https://gznofeng.iteye.com/blog/1129902
Lucene.Net中文分词组件 Lucene.Net.Analysis.Cn
Lucene.NET2.9,搜索引擎源代码(C#),分析较透彻,可以研究源代码来学习
Lucene.Net+盘古分词是一个常见的中文信息检索组合。但是随着盘古分词停止更新,与Lucene.Net3.0无法兼容。为了使得大家少走弯路,本人利用Lucene.Net2.9+盘古分词2.3搭建了一个Demo,里面包含了两个模块的源码,方便...
lucene6.6中适配的拼音分词jar包以及ik中文分词jar包,以及自定义的分词词组包和停词包,可以实现lucene建立索引时进行拼音和中文的分词。
lucene搜索引擎中文分词器,版本2.0.4,强大的中文分词效果在其它中文分词器当中独领风骚
lucene3.5中文分词,详细的注释,适用于初学者。有兴趣的可以看看。
lucene3.5 IKAnalyzer3.2.5 实例中文分词通过,目前在网上找的lucene 和IKAnalyzer 的最新版本测试通过。内含:示例代码,以及最新jar包。 lucene lucene3.5 IKAnalyzer IKAnalyzer3.2.5 jar 中文 分词