`
beyondqinghua
  • 浏览: 41429 次
  • 性别: Icon_minigender_1
  • 来自: 南昌
社区版块
存档分类
最新评论

lucene初探(一):IKAnalyzer2012中文分词扩展初探

 
阅读更多


 1、到google下载IKAnalyzer2012

http://code.google.com/p/ik-analyzer/downloads/list
 

 

2、如果有maven本地服务仓库,直接把IKAnalyzer2012上传到本地maven仓库,无的话直接拷贝到项目lib目录



 

3、测试还需要使用到lucene的几个包,这边使用3.6.0版本

maven配置

<dependencies>
		<dependency>
			<groupId>org.apache.lucene</groupId>
			<artifactId>lucene-core</artifactId>
			<version>3.6.0</version>
		</dependency>
		<dependency>
			<groupId>org.apache.lucene</groupId>
			<artifactId>lucene-highlighter</artifactId>
			<version>3.6.0</version>
		</dependency>
		<dependency>
			<groupId>org.apache.lucene</groupId>
			<artifactId>lucene-memory</artifactId>
			<version>3.6.0</version>
		</dependency>
		<dependency>
			<groupId>org.apache.lucene</groupId>
			<artifactId>lucene-analyzers</artifactId>
			<version>3.6.0</version>
		</dependency>
		
		<dependency>
			<groupId>IKAnalyzer</groupId>
			<artifactId>IKAnalyzer</artifactId>
			<version>IKAnalyzer2012</version>
			<type>jar</type>
		</dependency>
	</dependencies>

 

4、好了,直接上测试例子,

4.1、建立一个java测试项目scmsplitkw 

4.2、拷贝下载包里面的stopword.dic、IKAnalyzer.cfg.xml到项目源码根目录

4.3、因为要测试自定义中文分词,在源码根目录创建文件ext.dic

4.4、配置IKAnalyzer.cfg.xml,在properties内添加

写道
<!--用户可以在这里配置自己的扩展停止词字典-->
<entry key="ext_dict">ext.dic;</entry>
<!--用户可以在这里配置自己的扩展停止词字典-->
<entry key="ext_stopwords">stopword.dic;stopword_chinese.dic</entry>

4.5、特别提醒,以上文件内容格式全部必须是utf-8,用记事本打开,另存为utf-8格式



 

4.6、既然是测试自定义关键词拆分, 就必须添加一些自定义关键词到ext.dic文件中,注意添加的文字必须是全部小写

yag晶体
集成化文件管理体系
量子点太阳电池
游客满意度指数
血清药理学
硅热法
建筑幕墙
共振腔
蛋白质粒子
行星逃逸层
可靠性建模
空隙模型
基因挖掘
细粒赤铁矿
磁性液晶
wnt分泌
游离甲醛
河鲀毒素
自由表面
磷酸银
多元标记
aire基因
群速度
带3蛋白
可信度
推力轴承
超光谱荧光
锚定性能
嗜铬粒蛋白a衍生多肽
ip电路
雌雄异体生殖
旋翼转速
珍稀物种
元过程

 

4.7、代码测试

package com.iris.scm.lucene.test;

import java.io.StringReader;

import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.wltea.analyzer.lucene.IKAnalyzer;

public class IKAnalyzerTest {

	public static void main(String[] args) throws Exception {

		String keyWord = "YAG晶体采用过滤阴极真空电弧技术制备非晶金刚石薄膜,细粒赤铁矿.
		IKAnalyzer analyzer = new IKAnalyzer();

		// 使用智能分词
		analyzer.setUseSmart(true);

		System.out.println("当前使用的分词器:" + analyzer.getClass().getSimpleName());
		TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(keyWord));
		tokenStream.addAttribute(CharTermAttribute.class);
		while (tokenStream.incrementToken()) {
			CharTermAttribute charTermAttribute = tokenStream.getAttribute(CharTermAttribute.class);
			System.out.println(new String(charTermAttribute.buffer()));
		}
	}

}

 

4.8、结果



  

  • 大小: 13.7 KB
  • 大小: 6.3 KB
  • 大小: 8.5 KB
  • 大小: 132 KB
  • 大小: 11.7 KB
分享到:
评论

相关推荐

    IKAnalyzer中文分词支持lucene6.5.0版本

    由于林良益先生在2012之后未对IKAnalyzer进行更新,后续lucene分词接口发生变化,导致不可使用,所以此jar包支持lucene6.0以上版本

    2018-01lucene-3.5和IKAnalyzer2012全文分词检索技术文档

    使用lucene-3.5和IKAnalyzer2012,实现基础的全文检索实现

    Lucene的IK Analyzer 3.0 中文分词器 全解

    Lucene IK Analyzer 3.0 Lucene的IK Analyzer 3.0 中文分词器 Lucene IK Analyzer 3.0 Lucene的IK Analyzer 3.0 中文分词器Lucene IK Analyzer 3.0 Lucene的IK Analyzer 3.0 中文分词器

    IKAnalyzer中文分词器支持Lucene6.0以上

    提示:IKAnalyzer中文分词器支持Lucene6.0以上,IKAnalyzer中文分词器支持Lucene6.0以上。

    IKAnalyzer中文分词.rar

    IKAnalyzer继承Lucene的Analyzer抽象类,使用IKAnalyzer和Lucene自带的分析器方法一样,将Analyzer测试代码改为IKAnalyzer测试中文分词效果。 如果使用中文分词器ik-analyzer,就需要在索引和搜索程序中使用一致的...

    lucene3.5 IKAnalyzer3.2.5 实例中文分词通过

    lucene3.5 IKAnalyzer3.2.5 实例中文分词通过,目前在网上找的lucene 和IKAnalyzer 的最新版本测试通过。内含:示例代码,以及最新jar包。 lucene lucene3.5 IKAnalyzer IKAnalyzer3.2.5 jar 中文 分词

    lucene-6.5.0工具包

    官网的lucene全文检索引擎工具包,下载后直接解压缩即可使用

    IK Analyzer 2012FF 分词器源码

    IK 分词器源码 此版本IK Analyzer 2012FF版,支持4Lucene.0以上 , 适合大家学习,开发自己的分词器,或参与该项目开发

    IK Analyzer 开源中文分词 2012 u6.zip

    IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文...

    使用IK Analyzer实现中文分词之Java实现(包含所有工具包)

    1、lucene-core-3.6.0.jar 2、IKAnalyzer2012.jar(主jar包) 3、IKAnalyzer.cfg.xml(分词器扩展配置文件) 4、stopword.dic(停止词典) 5、IkSegmentation.java(样例类)

    IKAnalyzer2012FF_u1.jar

    使用IK分词器,应为该集群使用到的solr版本为4.10.3-cdh5.7.5,所以使用的 IK 包为IKAnalyzer2012FF_u1.jar,如果是3x的solr,使用IKAnalyzer2012_u6.jar solr-4.10.3下载地址:...

    Lucene4.7+IK Analyzer中文分词入门教程

    Lucene4.7+IK Analyzer中文分词入门教程

    IKAnalyzer2012_FF_hf1.jar

    解决lucene4.0与IKAnalyzer的冲突。解决Exception in thread "main" java.lang.VerifyError: class org.wltea.analyzer.lucene.IKAnalyzer overrides final method tokenStream.(Ljava/lang/String;Ljava/io/Reader;...

    IKAnalyzer分词器 下载IKAnalyzer2012FF_u1.jar

    使用IK分词器,应为该集群使用到的solr版本为4.10.3-cdh5.7.5,所以使用的 IK 包为IKAnalyzer2012FF_u1.jar,如果是3x的solr,使用IKAnalyzer2012_u6.jar 具体操作如下: 引用 1.在/opt/cloudera/parcels/CDH/lib/...

    lucene 所有jar包 包含IKAnalyzer分词器

    lucene 所有jar包 包含IKAnalyzer分词器

    ikanalyzer中文分词支持lucene7.1.0

    由于林良益先生在2012之后未对IKAnalyzer进行更新,后续lucene分词接口发生变化,导致不可使用,所以此jar包支持lucene6.0以上版本

    使用IK Analyzer实现中文分词之Java实现

    IK Analyzer 是一个开源的,基于 java 语言开发的轻量级的中文分词工具包。从 2006年 12 月推出 1.0 版开始, IKAnalyzer 已经推出了 4 个大版本。最初,它是以开源项目Luence 为应用主体的,结合词典分词和文法分析...

    lucene4.3.0+IK Analyzer2012FF

    lucene4.3.0+IK Analyzer2012FF

    IKAnalyzer2012(min)

    IKAnalyzer2012(Java分词工具)依赖于lucene,lucene-6.4.1需要JDK8 网上示例用的是lucene-core-3.6.0.jar,用lucene-core-5.5.4.jar也可以。 本资源包含: IKAnalyzer2012_FF_hf1.jar IKAnalyzer.cfg.xml ext.dic ...

    IK Analyzer 2012FF_hf1.zip

    IK Analyzer 是一个开源的,基亍 java 语言开发的轻量级的中文分词工具包。从 2006年 12 月推出 1.0 版开始,IKAnalyzer 已经推出了 4 个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析...

Global site tag (gtag.js) - Google Analytics