IKAnalyzer 扩展词典（强制分词） - - ITeye博客

`

longxia1987

浏览: 32964 次
性别:
来自: 上海

最近访客更多访客>>

jackzhao1980

zjfmail

Luob.

yaya_wiscom

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

飞天奔月： ...
StatSvn 统计SVN代码信息
dandongsoft： solr 同义词配置，中文不好用啊啊啊啊啊啊啊啊啊 ...
solr 分词之同义词(synonyms)

IKAnalyzer 扩展词典（强制分词）

阅读更多

前面说到solr+IKAnalyzer来配置中文分词；在实际中我们有些需求是需要将特定的词作为一个分词来处理，那么我们就需要设置自己的词典

例子：连帽上衣

希望将 “连帽” 作为一个词来处理，并不希望作为连，帽来处理

默认分词：

做法：

IKAnalyzer.cfg.xml放到solr的tomcat中：..../webapp/WEB-INF/classes/IKAnalyzer.cfg.xml，并配置 IKAnalyzer.cfg.xml文件

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  
<properties>  
	<comment>IK Analyzer 扩展配置</comment>
	<!--用户可以在这里配置自己的扩展字典--> 
	<entry key="ext_dict">/mydict.dic;</entry> 
	 
	 <!--用户可以在这里配置自己的扩展停止词字典-->
	<entry key="ext_stopwords">/ext_stopword.dic</entry> 
	
</properties>

我是将 mydict.dic 文件和 IKAnalyzer.cfg.xml 放在同一个目录，也可以放在别的地方，配置好路径就可以了

mydict.dic 文件中就只有“连帽” 这个词；

经典问题来了：mydict.dic 必须是 utf-8 的无BOM格式编码。

配置好之后重启solr，再次查看分词：

这样连帽就能匹配的到了。

搞了好久，才知道是文件的编码格式不对。我日的，还必须是无BOM格式。

分享到：

关于浏览器自动加上<pre>标签 | CSS opacity - 实现图片半透明效果

2012-11-13 18:06
浏览 1416
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

IKAnalyzer配置文件、扩展词典和停用词词典.zip: IKAnalyzer配置文件、扩展词典和停用词词典.zip

关于IKAnalyzer3.2.8扩展词典配置的个人心得和意见: 关于IKAnalyzer3.2.8扩展词典配置的个人心得和意见，希望对大家有参考价值

使用IK Analyzer实现中文分词之Java实现（包含所有工具包）: 1、lucene-core-3.6.0.jar 2、IKAnalyzer2012.jar（主jar包） 3、IKAnalyzer.cfg.xml（分词器扩展配置文件） 4、stopword.dic（停止词典） 5、IkSegmentation.java（样例类）

IKAnalyzer2012_u6中文分词器jar包: IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包

IKAnalyzer 中文分词完整java项目demo: IKAnalyzer非常易用的java分词工具。可以自定义扩展词汇。这个是一个完整的java项目demo。直接可以用，不用再去google下载了。添加了几个自定义词汇，测试好用。运行ika.java里的main方法即可

IKAnalyzer中文分词.rar: IKAnalyzer继承Lucene的Analyzer抽象类，使用IKAnalyzer和Lucene自带的分析器方法一样，将Analyzer测试代码改为IKAnalyzer测试中文分词效果。如果使用中文分词器ik-analyzer，就需要在索引和搜索程序中使用一致的...

lucene3.5 IKAnalyzer3.2.5 实例中文分词通过: lucene3.5 IKAnalyzer3.2.5 实例中文分词通过，目前在网上找的lucene 和IKAnalyzer 的最新版本测试通过。内含：示例代码，以及最新jar包。 lucene lucene3.5 IKAnalyzer IKAnalyzer3.2.5 jar 中文分词

IKAnalyzer 分词器所需要的停用词词典 ext_stopword.dic 下载: IKAnalyzer 分词器所需要的停用词词典 ext_stopword.dic 下载 Solr中使用IK-Analyzer实现中文分词器的配置详情 : http://blog.csdn.net/hello_world_qwp/article/details/78890904

IkAnalyzer分词工具: IkAnalyzer3.2的jar包 IK Analyzer 是一个开源的，基于java 语言开发的轻量级的中文分词工具包。从2006 年12 月推出1.0 版开始， IKAnalyzer 已经推出了3 个大版本。最初，它是以开源项目 Luence 为应用主体的，结合...

IKAnalyzer分词: IKAnalyzer分词,IKAnalyzer分词

IKAnalyzer中文分词计算句子相似度: IKAnalyzer中文分词，计算句子相似度

IKAnalyzer2012_u6中文分词器以及手册正式版.zip: IKAnalyzer2012_u6中文分词器以及手册正式版 Mode LastWriteTime Length Name ---- ------------- ------ ---- d----- 2017/10/29 1:41 doc -a---- 2017/10/29 1:41 414 IKAnalyzer.cfg.xml -a---- 2017/10/29 1...

IKAnalyzer2012完整分发包: 3. IKAnalyzer.cfg.xml（分词器扩展配置文件） 4. stopword.dic（停止词典） 5. LICENSE.TXT ; NOTICE.TXT （apache版权申明）它的安装部署十分简单，将 IKAnalyzer2012.jar 部署于项目的 lib 目录中； IK...

使用IK Analyzer实现中文分词之Java实现: 从 2006年 12 月推出 1.0 版开始， IKAnalyzer 已经推出了 4 个大版本。最初，它是以开源项目Luence 为应用主体的，结合词典分词和文法分析算法的中文分词组件。从 3.0 版本开始，IK 发展为面向 Java 的公用分词...

Lucene的IK Analyzer 3.0 中文分词器全解: Lucene IK Analyzer 3.0 Lucene的IK Analyzer 3.0 中文分词器 Lucene IK Analyzer 3.0 Lucene的IK Analyzer 3.0 中文分词器Lucene IK Analyzer 3.0 Lucene的IK Analyzer 3.0 中文分词器

IK Analyzer 3.2.8中文分词器: 3. IKAnalyzer.cfg.xml（分词器扩展配置文件） 4. ext_stopword.dic（扩展的stopword词典，3.2以上版本提供）它的安装部署十分简单，将IKAnalyzer3.X.jar部署于项目的lib目录中；IKAnalyzer.cfg.xml 与 ext_...

IKanalyzer 分词小测试例子: IKanalyzer 分词小测试例子 IKanalyzer 扩展dic

基于IKAnalyzer.NET的分词工具（包含dll）: 这个分词是前一段需要用时，在网上扒了好久，才找到的一个，而且年代久远，但是还能用，所以记录一下。基于IKAnalyzer.NET的分词工具（包含dll）下载可以直接运行

IKAnalyzer中文分词器V3.2使用: IKAnalyzer 中文分词器V3.2使用手册 lucene

IKAnalyzer 3.0 中文分词器: IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始，IKAnalyzer 已经推出了3个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文...

Global site tag (gtag.js) - Google Analytics