最近项目里要用到分词,将一个文章标题进行分词,存为TAG。然后利用这个TAG来寻找相关度的文章。想法挺不错的。那么开始动手吧。
使用版本3.2.8 地址 http://code.google.com/p/ik-analyzer/downloads/list
将IKAnalyzer3.2.8.jar放置在WEB-INF/lib下,配置文件IKAnalyzer.cfg.xml和ext_stopword.dic方在classpath下。
写个测试类试试呗。
package com.cartoon.util;
import java.io.IOException;
import java.io.StringReader;
import org.wltea.analyzer.IKSegmentation;
import org.wltea.analyzer.Lexeme;
public class Test {
public static void main(String[] args) throws IOException {
String str = "火影忍者漫画";
StringReader reader = new StringReader(str);
IKSegmentation ik = new IKSegmentation(reader, true);// 当为true时,分词器进行最大词长切分
Lexeme lexeme = null;
while ((lexeme = ik.next()) != null){
System.out.println(lexeme.getLexemeText());
}
}
}
打印结果:火影忍者 漫画
看来词库还挺丰富的,速度非常快。以后分词就用IK了,简单好用。
就讲到这里了,顺便AD下,大家多多支持本人新站:
礼品网
分享到:
相关推荐
提示:IKAnalyzer中文分词器支持Lucene6.0以上,IKAnalyzer中文分词器支持Lucene6.0以上。
IKAnalyzer非常易用的java分词工具。可以自定义扩展词汇。 这个是一个完整的java项目demo。直接可以用,不用再去google下载了。添加了几个自定义词汇,测试好用。 运行ika.java里的main方法即可
IKAnalyzer2012FF_u1 ik solr分词器 非常好用。。。。。。
由于IKAnalyzer分词器只维护到2012年,仅最高支持lucene4.0,后续高版本中要调用它时,由于各版本源码差异,需对四个类进行修改,本项目中对IKAnalyzer、IKTokenizer、IKQueryExpressionParser、SWMCQueryBuilder...
IKanalyzer 分词小测试例子 IKanalyzer 扩展dic
IKAnalyzer分词工具,包括lucene库和百度百科词条。
由于林良益先生在2012之后未对IKAnalyzer进行更新,后续lucene分词接口发生变化,导致不可使用,所以此jar包支持lucene6.0以上版本
此版本适用于高版本Solr4.x,IK 分词器 IK Analyzer 2012FF_hf1 Solr4.x
IKAnalyzer-5.0.jar及solr-analyzer-extra-5.3.jar,用于solr5.3做中文分词
solr配置ikanalyzer分词文件以使用说明
IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。此包兼容solr7.x
由于林良益先生在2012之后未对IKAnalyzer进行更新,后续lucene分词接口发生变化,导致不可使用,所以此jar包支持lucene6.0以上版本
网上有很多关于IKAnalyzer分词器的jar,但当我们使用solr 6.x进行配置的时候,就发现会各种各样的报错,最常出现的问题就是抽象方法错误,其实就是因为我们使用的IKAnalyzer版本和solr版本不匹配导致系统无法根据...
IkAnalyzer3.2的jar包 IK Analyzer 是一个开源的,基于java 语言开发的轻量级的中文分词工具包。从2006 年12 月推出1.0 版开始, IKAnalyzer 已经推出了3 个大版本。最初,它是以开源项目 Luence 为应用主体的,结合...
使用IK分词器,应为该集群使用到的solr版本为4.10.3-cdh5.7.5,所以使用的 IK 包为IKAnalyzer2012FF_u1.jar,如果是3x的solr,使用IKAnalyzer2012_u6.jar 具体操作如下: 引用 1.在/opt/cloudera/parcels/CDH/lib/...
ik中文分词器,适用于solr5.5,亲测可用
lucene 所有jar包 包含IKAnalyzer分词器
NULL 博文链接:https://skycb.iteye.com/blog/2229099
Lucene IK Analyzer 3.0 Lucene的IK Analyzer 3.0 中文分词器 Lucene IK Analyzer 3.0 Lucene的IK Analyzer 3.0 中文分词器Lucene IK Analyzer 3.0 Lucene的IK Analyzer 3.0 中文分词器
利用IKAnalyzer分词器来做文章的匹配算法。主要思想是先用IKAnalyzer分词器分析2篇文章,然后把2篇文章的关键字进行比较,如果相同的个数在所有关键字的总数大于某个预设的值,就认为2篇文章是相同的。