IK Analyzer 是基于Lucene的中文分词框架。
一:下载分词器
IK Analyzer 2012FF 百度网盘下载地址:http://pan.baidu.com/s/1boFDd9d
IKAnalyzer-5.0 百度网盘下载地址:http://pan.baidu.com/s/1dE5zBrV
二:IK Analyzer 分词器使用
在项目中引入如下:
a,IKAnalyzer2012FF_u1.jar 或者IKAnalyzer-5.0.jar
b,IKAnalyzer.cfg.xml
c,mydict.dic
d,ext_stopword.dic
示例代码: Lucene的版本是6.1.0
package com.lucene.analyzer; import java.io.IOException; import java.io.StringReader; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.TokenStream; import org.apache.lucene.analysis.tokenattributes.CharTermAttribute; import org.wltea.analyzer.lucene.IKAnalyzer; /** * 分词器测试类 * @author luorufeng * @date 2016年8月2日 */ public class TestAnalyzer { public static void main(String[] args) throws IOException { // Analyzer analyzer = new MyIKAnalyzer();//庖丁分词器 2012 //http://blog.sina.com.cn/s/blog_69a69e1a0102w8br.html Analyzer analyzer = new IKAnalyzer();//庖丁分词器 String text = "lucene是一个很高大上、很牛逼的java搜索引擎工具包,大家快点来学习"; testAnalyzer(analyzer,text); } /** * 分词器测试方法 * @author luorufeng * @date 2016年8月2日 * @param analyzer * @param text * @throws IOException */ public static void testAnalyzer(Analyzer analyzer,String text) throws IOException{ System.out.println("当前分词器:"+analyzer.getClass().getSimpleName()); //分词 TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(text)); CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class); tokenStream.reset(); //遍历 while(tokenStream.incrementToken()){ System.out.print(charTermAttribute+"|"); } tokenStream.end(); tokenStream.close(); } }
运行后的运行结果:
当前分词器:IKAnalyzer
加载扩展词典:mydict.dic
加载扩展停止词典:ext_stopword.dic
lucene|是|一个|一|个|很高|高大上|高大|上|很|牛逼|java|搜索引擎|搜索|索引|引擎|工具包|工具|包|大家|快点|点来|学习|
相关推荐
IKAnalyzer分词器版本 2012 兼容Lucene3.3以上版本 对solr1.4提供接口实现 使用IK分词器,应为该集群使用到的solr版本为4.10.3-cdh5.7.5,所以使用的 IK 包为IKAnalyzer2012FF_u1.jar,如果是3x的solr,使用IK...
IKAnalyzer继承Lucene的Analyzer抽象类,使用IKAnalyzer和Lucene自带的分析器方法一样,将Analyzer测试代码改为IKAnalyzer测试中文分词效果。 如果使用中文分词器ik-analyzer,就需要在索引和搜索程序中使用一致的...
收集的jar包,实际使用无问题,欢迎下载,如不能使用,请及时联系发布者 简介:IK分词器,IKAnalyzer.cfg,IKAnalyzer2012_u6,stopword.dic
IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包
IKAnalyzer中文分词器-IKAnalyzer2012FF_u1.jar,solr
IKAnalyzer非常易用的java分词工具。可以自定义扩展词汇。 这个是一个完整的java项目demo。直接可以用,不用再去google下载了。添加了几个自定义词汇,测试好用。 运行ika.java里的main方法即可
1、lucene-core-3.6.0.jar 2、IKAnalyzer2012.jar(主jar包) 3、IKAnalyzer.cfg.xml(分词器扩展配置文件) 4、stopword.dic(停止词典) 5、IkSegmentation.java(样例类)
中文分词器ik-analyzer-solr5-5.x.jar,已经打包好,直接用就可以
solr中文分词jar包ik-analyzer 含class配置 ik-analyzer-7.5.0
Lucene IK Analyzer 3.0 Lucene的IK Analyzer 3.0 中文分词器 Lucene IK Analyzer 3.0 Lucene的IK Analyzer 3.0 中文分词器Lucene IK Analyzer 3.0 Lucene的IK Analyzer 3.0 中文分词器
IKAnalyzer 2012_u6 jar包 IKAnalyzer.cfg.xml IKAnalyzer中文分词器V2012_U5使用手册.pdf
IK-Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包,也就是可以将一串中文字符分割成一个个的词组或者字词 ...文件中包含分词工具 ikanalyzer-2012_u6.jar 中文分词配置 IKAnalyzer.cfg..xml
IKAnalyzer中文分词器,里面包含jar包和使用手册
<analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/> <analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/> 配置中文...
中文分词器IK Analyzer 2012优化的词典存储,更小的内存占用。支持用户词典扩展定义。特别的,在 2012 版本, 词典支持中文,英文,数字混合词语。
IK中文分词器,solr配置用jar包,适用于solr5版本,欢迎下载。。。
IKAnalyzer2012_u6中文分词器以及手册正式版 Mode LastWriteTime Length Name ---- ------------- ------ ---- d----- 2017/10/29 1:41 doc -a---- 2017/10/29 1:41 414 IKAnalyzer.cfg.xml -a---- 2017/10/29 1...
IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。 采用了特有的“正向迭代最细粒度切分算法”,具有60万字/秒的高速处理能力。 采用了多子处理器分析模式,支持:英文字母(IP地址、Email、...
1. 《IKAnalyzer中文分词器V2012使用手册》(即本文档) 2. IKAnalyzer2012.jar(主jar包) 3. IKAnalyzer.cfg.xml(分词器扩展配置文件) 4. stopword.dic(停止词典) 5. LICENSE.TXT ; NOTICE.TXT (apache...