最近在跟着导师做一个有关短信过滤的大学生实践项目,之中用到了导师已经发表的关于中文语义分词的算法。一直听说Java开源社区的Lucene搜索很强大,很想研究一下。没想到意外收获到了IK Analyzer,中国人自己也的开源分词器,自己用了下,真的是很好很强大呀。对作者是由衷的钦佩啊!
看了他提供的API,写了个小例子试了,切词的精准度还是蛮高的。强力推荐。
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.io.Reader;
import org.wltea.analyzer.IKSegmentation;
import org.wltea.analyzer.Lexeme;
public class SearchDemo {
public static void main(String []args){
Reader read= null;
try {
read =new FileReader("D:/wz/workspace/SearchDemo/src/test.txt");
} catch (FileNotFoundException e) {
e.printStackTrace();
}
IKSegmentation iks = new IKSegmentation(read);
while(true){
Lexeme lex=null;
try {
lex = iks.next();
if(lex != null)
System.out.print(lex.getLexemeText()+"|");
if(lex == null)
return;
} catch (IOException e) {
e.printStackTrace();
}
}
}
}
IK Analyzer作者:linliangyi2007 (林良益) 博客: http://linliangyi2007.iteye.com/
分享到:
- 2009-11-26 22:29
- 浏览 1413
- 评论(0)
- 论坛回复 / 浏览 (0 / 2097)
- 查看更多
相关推荐
中文分词器ik-analyzer-solr5-5.x.jar,已经打包好,直接用就可以
中文分词器ik-analyzer-solr5-5.x.jar,已经打包好,直接用就可以 2积分不黑心
IKAnalyzer中文分词器,里面包含jar包和使用手册
IKAnalyzer中文分词,计算句子相似度
solr6的中文分词器ik-analyzer-solr-6.0.jar,在solr上亲测可用
IKAnalyzer中文分词器-IKAnalyzer2012FF_u1.jar,solr
IK-Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包,也就是可以将一串中文字符分割成一个个的词组或者字词 文件中包含分词工具 ikanalyzer-2012_u6.jar 中文分词配置 IKAnalyzer.cfg..xml
IK Analyzer是什么呢,就是我们需要的这个工具,是基于java开发的轻量级的中文分词工具包。它是以开源项目Luence为主体的...如果使用中文分词器ik-analyzer,就需要在索引和搜索程序中使用一致的分词器:IK-analyzer。
IKAnalyzer中文分词器V3.1.1使用手册 IKAnalyzer中文分词器V3.1.1使用手册
IKAnalyzer 中文分词器V3.2使用手册 lucene
IKAnalyzer中文分词器v2012使用手册,中文文档,带书签
该资源为ik-analyzer-8.5.0-jar,欢迎下载学习使用哦!
提示:IKAnalyzer中文分词器支持Lucene6.0以上,IKAnalyzer中文分词器支持Lucene6.0以上。
IKAnalyzer非常易用的java分词工具。可以自定义扩展词汇。 这个是一个完整的java项目demo。直接可以用,不用再去google下载了。添加了几个自定义词汇,测试好用。 运行ika.java里的main方法即可
基于ik动态词库分词实现--无需重启服务
IKAnalyzer中文分词器,里面包含jar包,html文档,pdf文档以及源码
solr中文分词工具,分别对应solr5.5.0和solr7.0.0版本的ik分词器