1、到google下载IKAnalyzer2012
http://code.google.com/p/ik-analyzer/downloads/list
2、如果有maven本地服务仓库,直接把IKAnalyzer2012上传到本地maven仓库,无的话直接拷贝到项目lib目录
3、测试还需要使用到lucene的几个包,这边使用3.6.0版本
maven配置
<dependencies> <dependency> <groupId>org.apache.lucene</groupId> <artifactId>lucene-core</artifactId> <version>3.6.0</version> </dependency> <dependency> <groupId>org.apache.lucene</groupId> <artifactId>lucene-highlighter</artifactId> <version>3.6.0</version> </dependency> <dependency> <groupId>org.apache.lucene</groupId> <artifactId>lucene-memory</artifactId> <version>3.6.0</version> </dependency> <dependency> <groupId>org.apache.lucene</groupId> <artifactId>lucene-analyzers</artifactId> <version>3.6.0</version> </dependency> <dependency> <groupId>IKAnalyzer</groupId> <artifactId>IKAnalyzer</artifactId> <version>IKAnalyzer2012</version> <type>jar</type> </dependency> </dependencies>
4、好了,直接上测试例子,
4.1、建立一个java测试项目scmsplitkw
4.2、拷贝下载包里面的stopword.dic、IKAnalyzer.cfg.xml到项目源码根目录
4.3、因为要测试自定义中文分词,在源码根目录创建文件ext.dic
4.4、配置IKAnalyzer.cfg.xml,在properties内添加
写道
<!--用户可以在这里配置自己的扩展停止词字典-->
<entry key="ext_dict">ext.dic;</entry>
<!--用户可以在这里配置自己的扩展停止词字典-->
<entry key="ext_stopwords">stopword.dic;stopword_chinese.dic</entry>
<entry key="ext_dict">ext.dic;</entry>
<!--用户可以在这里配置自己的扩展停止词字典-->
<entry key="ext_stopwords">stopword.dic;stopword_chinese.dic</entry>
4.5、特别提醒,以上文件内容格式全部必须是utf-8,用记事本打开,另存为utf-8格式
4.6、既然是测试自定义关键词拆分, 就必须添加一些自定义关键词到ext.dic文件中,注意添加的文字必须是全部小写
yag晶体 集成化文件管理体系 量子点太阳电池 游客满意度指数 血清药理学 硅热法 建筑幕墙 共振腔 蛋白质粒子 行星逃逸层 可靠性建模 空隙模型 基因挖掘 细粒赤铁矿 磁性液晶 wnt分泌 游离甲醛 河鲀毒素 自由表面 磷酸银 多元标记 aire基因 群速度 带3蛋白 可信度 推力轴承 超光谱荧光 锚定性能 嗜铬粒蛋白a衍生多肽 ip电路 雌雄异体生殖 旋翼转速 珍稀物种 元过程
4.7、代码测试
package com.iris.scm.lucene.test; import java.io.StringReader; import org.apache.lucene.analysis.TokenStream; import org.apache.lucene.analysis.tokenattributes.CharTermAttribute; import org.wltea.analyzer.lucene.IKAnalyzer; public class IKAnalyzerTest { public static void main(String[] args) throws Exception { String keyWord = "YAG晶体采用过滤阴极真空电弧技术制备非晶金刚石薄膜,细粒赤铁矿. IKAnalyzer analyzer = new IKAnalyzer(); // 使用智能分词 analyzer.setUseSmart(true); System.out.println("当前使用的分词器:" + analyzer.getClass().getSimpleName()); TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(keyWord)); tokenStream.addAttribute(CharTermAttribute.class); while (tokenStream.incrementToken()) { CharTermAttribute charTermAttribute = tokenStream.getAttribute(CharTermAttribute.class); System.out.println(new String(charTermAttribute.buffer())); } } }
4.8、结果
相关推荐
由于林良益先生在2012之后未对IKAnalyzer进行更新,后续lucene分词接口发生变化,导致不可使用,所以此jar包支持lucene6.0以上版本
使用lucene-3.5和IKAnalyzer2012,实现基础的全文检索实现
Lucene IK Analyzer 3.0 Lucene的IK Analyzer 3.0 中文分词器 Lucene IK Analyzer 3.0 Lucene的IK Analyzer 3.0 中文分词器Lucene IK Analyzer 3.0 Lucene的IK Analyzer 3.0 中文分词器
提示:IKAnalyzer中文分词器支持Lucene6.0以上,IKAnalyzer中文分词器支持Lucene6.0以上。
IKAnalyzer继承Lucene的Analyzer抽象类,使用IKAnalyzer和Lucene自带的分析器方法一样,将Analyzer测试代码改为IKAnalyzer测试中文分词效果。 如果使用中文分词器ik-analyzer,就需要在索引和搜索程序中使用一致的...
lucene3.5 IKAnalyzer3.2.5 实例中文分词通过,目前在网上找的lucene 和IKAnalyzer 的最新版本测试通过。内含:示例代码,以及最新jar包。 lucene lucene3.5 IKAnalyzer IKAnalyzer3.2.5 jar 中文 分词
官网的lucene全文检索引擎工具包,下载后直接解压缩即可使用
IK 分词器源码 此版本IK Analyzer 2012FF版,支持4Lucene.0以上 , 适合大家学习,开发自己的分词器,或参与该项目开发
IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文...
1、lucene-core-3.6.0.jar 2、IKAnalyzer2012.jar(主jar包) 3、IKAnalyzer.cfg.xml(分词器扩展配置文件) 4、stopword.dic(停止词典) 5、IkSegmentation.java(样例类)
使用IK分词器,应为该集群使用到的solr版本为4.10.3-cdh5.7.5,所以使用的 IK 包为IKAnalyzer2012FF_u1.jar,如果是3x的solr,使用IKAnalyzer2012_u6.jar solr-4.10.3下载地址:...
Lucene4.7+IK Analyzer中文分词入门教程
解决lucene4.0与IKAnalyzer的冲突。解决Exception in thread "main" java.lang.VerifyError: class org.wltea.analyzer.lucene.IKAnalyzer overrides final method tokenStream.(Ljava/lang/String;Ljava/io/Reader;...
使用IK分词器,应为该集群使用到的solr版本为4.10.3-cdh5.7.5,所以使用的 IK 包为IKAnalyzer2012FF_u1.jar,如果是3x的solr,使用IKAnalyzer2012_u6.jar 具体操作如下: 引用 1.在/opt/cloudera/parcels/CDH/lib/...
lucene 所有jar包 包含IKAnalyzer分词器
由于林良益先生在2012之后未对IKAnalyzer进行更新,后续lucene分词接口发生变化,导致不可使用,所以此jar包支持lucene6.0以上版本
IK Analyzer 是一个开源的,基于 java 语言开发的轻量级的中文分词工具包。从 2006年 12 月推出 1.0 版开始, IKAnalyzer 已经推出了 4 个大版本。最初,它是以开源项目Luence 为应用主体的,结合词典分词和文法分析...
lucene4.3.0+IK Analyzer2012FF
IKAnalyzer2012(Java分词工具)依赖于lucene,lucene-6.4.1需要JDK8 网上示例用的是lucene-core-3.6.0.jar,用lucene-core-5.5.4.jar也可以。 本资源包含: IKAnalyzer2012_FF_hf1.jar IKAnalyzer.cfg.xml ext.dic ...
IK Analyzer 是一个开源的,基亍 java 语言开发的轻量级的中文分词工具包。从 2006年 12 月推出 1.0 版开始,IKAnalyzer 已经推出了 4 个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析...