`

分词器之IK Analyzer

阅读更多

IK Analyzer 是基于Lucene的中文分词框架。

一:下载分词器

 IK Analyzer 2012FF 百度网盘下载地址:http://pan.baidu.com/s/1boFDd9d

IKAnalyzer-5.0 百度网盘下载地址:http://pan.baidu.com/s/1dE5zBrV

 

 

二:IK Analyzer 分词器使用

 在项目中引入如下:

a,IKAnalyzer2012FF_u1.jar 或者IKAnalyzer-5.0.jar

b,IKAnalyzer.cfg.xml

c,mydict.dic

d,ext_stopword.dic

 

示例代码: Lucene的版本是6.1.0

 

package com.lucene.analyzer;

import java.io.IOException;
import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.wltea.analyzer.lucene.IKAnalyzer;

/**
 * 分词器测试类
 * @author luorufeng
 * @date  2016年8月2日
 */
public class TestAnalyzer {
	public static void main(String[] args) throws IOException {
//		Analyzer analyzer = new MyIKAnalyzer();//庖丁分词器  2012  
		//http://blog.sina.com.cn/s/blog_69a69e1a0102w8br.html
		Analyzer analyzer = new IKAnalyzer();//庖丁分词器        

		String text = "lucene是一个很高大上、很牛逼的java搜索引擎工具包,大家快点来学习";
		testAnalyzer(analyzer,text);
	}
	
	/**
	 * 分词器测试方法
	 * @author luorufeng
	 * @date  2016年8月2日
	 * @param analyzer
	 * @param text
	 * @throws IOException 
	 */
	public static void testAnalyzer(Analyzer analyzer,String text) throws IOException{
		System.out.println("当前分词器:"+analyzer.getClass().getSimpleName());
		//分词  
		TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(text));
		CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);
		tokenStream.reset();
		//遍历
		while(tokenStream.incrementToken()){
			System.out.print(charTermAttribute+"|");
		}

		tokenStream.end();
		tokenStream.close();
	}
}
 

 

 

运行后的运行结果:

 

 当前分词器:IKAnalyzer

加载扩展词典:mydict.dic

加载扩展停止词典:ext_stopword.dic

lucene|是|一个|一|个|很高|高大上|高大|上|很|牛逼|java|搜索引擎|搜索|索引|引擎|工具包|工具|包|大家|快点|点来|学习|

 

 

分享到:
评论

相关推荐

    IKAnalyzer分词器 下载IKAnalyzer2012FF_u1.jar

    IKAnalyzer分词器版本 2012 兼容Lucene3.3以上版本 对solr1.4提供接口实现 使用IK分词器,应为该集群使用到的solr版本为4.10.3-cdh5.7.5,所以使用的 IK 包为IKAnalyzer2012FF_u1.jar,如果是3x的solr,使用IK...

    IKAnalyzer中文分词.rar

    IKAnalyzer继承Lucene的Analyzer抽象类,使用IKAnalyzer和Lucene自带的分析器方法一样,将Analyzer测试代码改为IKAnalyzer测试中文分词效果。 如果使用中文分词器ik-analyzer,就需要在索引和搜索程序中使用一致的...

    IK分词器.IKAnalyzer2012_u6zip

    收集的jar包,实际使用无问题,欢迎下载,如不能使用,请及时联系发布者 简介:IK分词器,IKAnalyzer.cfg,IKAnalyzer2012_u6,stopword.dic

    IKAnalyzer2012_u6中文分词器jar包

    IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包

    中文分词器-IKAnalyzer2012FF_u1.jar

    IKAnalyzer中文分词器-IKAnalyzer2012FF_u1.jar,solr

    IKAnalyzer 中文分词 完整java项目demo

    IKAnalyzer非常易用的java分词工具。可以自定义扩展词汇。 这个是一个完整的java项目demo。直接可以用,不用再去google下载了。添加了几个自定义词汇,测试好用。 运行ika.java里的main方法即可

    使用IK Analyzer实现中文分词之Java实现(包含所有工具包)

    1、lucene-core-3.6.0.jar 2、IKAnalyzer2012.jar(主jar包) 3、IKAnalyzer.cfg.xml(分词器扩展配置文件) 4、stopword.dic(停止词典) 5、IkSegmentation.java(样例类)

    中文分词器ik-analyzer-solr5-5.x.jar

    中文分词器ik-analyzer-solr5-5.x.jar,已经打包好,直接用就可以

    solr中文分词jar包ik-analyzer 含class配置 ik-analyzer-7.5.0

    solr中文分词jar包ik-analyzer 含class配置 ik-analyzer-7.5.0

    Lucene的IK Analyzer 3.0 中文分词器 全解

    Lucene IK Analyzer 3.0 Lucene的IK Analyzer 3.0 中文分词器 Lucene IK Analyzer 3.0 Lucene的IK Analyzer 3.0 中文分词器Lucene IK Analyzer 3.0 Lucene的IK Analyzer 3.0 中文分词器

    IKAnalyzer分词器

    IKAnalyzer 2012_u6 jar包 IKAnalyzer.cfg.xml IKAnalyzer中文分词器V2012_U5使用手册.pdf

    Java IKAnalyzer 中文分词器

    IK-Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包,也就是可以将一串中文字符分割成一个个的词组或者字词 ...文件中包含分词工具 ikanalyzer-2012_u6.jar 中文分词配置 IKAnalyzer.cfg..xml

    IKAnalyzer中文分词器

    IKAnalyzer中文分词器,里面包含jar包和使用手册

    中文分词器IK Analyzer 2012FF_hf1

    <analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/> <analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/> 配置中文...

    中文分词器IK Analyzer 2012

    中文分词器IK Analyzer 2012优化的词典存储,更小的内存占用。支持用户词典扩展定义。特别的,在 2012 版本, 词典支持中文,英文,数字混合词语。

    IK分词器_ikanalyzer-solr5

    IK中文分词器,solr配置用jar包,适用于solr5版本,欢迎下载。。。

    IKAnalyzer2012_u6中文分词器以及手册正式版.zip

    IKAnalyzer2012_u6中文分词器以及手册正式版 Mode LastWriteTime Length Name ---- ------------- ------ ---- d----- 2017/10/29 1:41 doc -a---- 2017/10/29 1:41 414 IKAnalyzer.cfg.xml -a---- 2017/10/29 1...

    IK-Analyzer 中文分词器必须依赖的 IKAnalyzer2012FF_u1.jar包 下载

    IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。 采用了特有的“正向迭代最细粒度切分算法”,具有60万字/秒的高速处理能力。 采用了多子处理器分析模式,支持:英文字母(IP地址、Email、...

    IKAnalyzer2012完整分发包

    1. 《IKAnalyzer中文分词器V2012使用手册》(即本文档) 2. IKAnalyzer2012.jar(主jar包) 3. IKAnalyzer.cfg.xml(分词器扩展配置文件) 4. stopword.dic(停止词典) 5. LICENSE.TXT ; NOTICE.TXT (apache...

Global site tag (gtag.js) - Google Analytics