http://blog.csdn.net/aidayei/archive/2011/06/05/6526986.aspx
我在solr中尝试了以下三种开源中文分词器,其中两种都因为solr版本过高不能用,郁闷,后来将JAR包反编译,找到了原因,下面先简要说明一下三种开源中文分词器
庖丁解牛:google code上最后一次代码提交是2008.6月,不是很活跃,但用的人还很多
mmseg4j:google code上最后一次代码提交是2010.12月,应该还算活跃,采用MMSeg算法,有两种分词方法:Simple和Complex
IKAnalyzer:最近很活跃,2011.3月在google code上提交了一个版本
lucene于今年5月份出了3.2版,solr也对应出了3.2版,高版本有个不好的地方,就是开源的中文分词库,跟不上相应的更新速度,本人用的是3.1 版,在lucene中加入庖丁解牛中文分词器和IKAnalyzer最新版,都会报错。
错误原因如下(以IKAnalyzer为例说明):
不论是庖丁解牛还是IKAnalyzer,要把分词器放到solr中,需要经承solr中的BaseTokenizerFactory这个类,
- import java.io.Reader;
-
- import org.apache.lucene.analysis.TokenStream;
- import org.apache.solr.analysis.BaseTokenizerFactory;
- import org.wltea.analyzer.lucene.IKAnalyzer;
-
- public class ChineseTokenizerFactory extends BaseTokenizerFactory {
-
- @Override
- public TokenStream create(Reader reader) {
- return new IKAnalyzer().tokenStream("text", reader);
- }
-
- }
这个基类中实现TokenizerFactory接口,create就定义在这个接口中,但返回的类型是Tokenizer,而在solr3.1版本中Tokenizer是继承TokenStream的,所以这里需要强制转换才不会报错。而庖丁解牛就没那么简单了,需要修改源码才可以,庖丁解牛现在只支持到solr1.4版本
还有庖丁解牛都不能直接在lucene3.1中使用,代码不提示任何错误,但一运行就报错,不知道为什么原因,估计原因同上,需要修改源代码,有知道的,请转告
mmseg4j也要下最新版本,否则也会报错,具体配置如下:
把 mmseg4j-all-1.8.4.jar 放到 tomcat/webapps/solr/lib下,mmseg4j1.84包中的字典解压出来,放在solr.home/data目录下,修改solr配置文件:
- <fieldType name="textComplex" class="solr.TextField" positionIncrementGap="100" >
- <analyzer>
- <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="C:/apache/apache-solr-3.1.0/example/solr/data"/>
- <filter class="solr.LowerCaseFilterFactory"/>
- </analyzer>
- </fieldType>
- <fieldType name="textMaxWord" class="solr.TextField" positionIncrementGap="100" >
- <analyzer>
- <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="C:/apache/apache-solr-3.1.0/example/solr/data"/>
- <filter class="solr.LowerCaseFilterFactory"/>
- </analyzer>
- </fieldType>
- <fieldType name="textSimple" class="solr.TextField" positionIncrementGap="100" >
- <analyzer>
- <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="C:/apache/apache-solr-3.1.0/example/solr/data"/>
- <filter class="solr.LowerCaseFilterFactory"/>
- </analyzer>
- </fieldType>
mmseg4j 在 solr 中主要支持两个参数:mode、dicPath。mode 表示是什么模式分词。dicPath 是词库目录,网上说可以默认在当前data目录下寻找,经测试好像不行,必须人工给出绝对路径,或许是高版本的问题吧,或许是我哪里设置错了,然后在 http://localhost:8080/solr/admin/analysis.jsp 可以看 mmseg4j 的分词效果,在Field的下拉菜单选择type,然后输入textComplex,特别是和CJK分词器作对比,很明显,CJK是solr官方自带的支持中日韩的分词器,它对中文是采用的二元分词
其实中文分词一直以来是很多人在研究的东西,怎么提高分词效率和匹配正确率是目标,里面的算法实现是它的核心,把它完全吃透,估计都可以写论文了,呵呵,由于时间有限,只是粗略拿来体验了一下。还有就是关于solr/lucene的搜索效率,优化索引,也是一个值得研究的课题。
参考资料:
1.http://blog.chenlb.com/2009/04/solr-chinese-segment-mmseg4j-use-demo.html
2.http://lianj-lee.iteye.com/blog/464364
3.http://www.blogjava.net/RongHao/archive/2007/11/06/158621.html
4.http://www.iteye.com/news/9637
5.http://blog.csdn.net/foamflower/archive/2010/07/09/5723361.aspx
突然发现IKAnalyzer在3.1.5版本中,已经实现了对solr的TokenizerFactory接口配置的支持,详见下面这篇文章:
http://linliangyi2007.iteye.com/blog/501228
分享到:
相关推荐
solr中文分词器
solr 中文分词
solr中文分词jar包ik-analyzer 含class配置 ik-analyzer-7.5.0
由于网上提供的solr中文分词器大多不吃吃6.5以上,会报错(具体错误提示忘了),这里提供高版本,内含使用教程
solr搜索框架的中文分词器文件及配置详解供大家下载,亲测可用.解压出来的jar包放到apache-tomcat-9.0.20\webapps\solr\WEB-INF\lib下(Tomcat项目里solr项目)其他三个文件放到apache-tomcat-9.0.20\webapps\solr\...
包含内容:IKAnalyzer中文分词器V2012使用手册.pdf;机械词汇大全【官方推荐】;深蓝词库转换.exe;中文分词词库打包50万词汇;IKAnalyzer-5.0.jar
solr中文分词器 IKAnalyzer 支持solr版本5.x到7.x 亲测可用,我用的是7.2版本
中文分词技术(中文分词原理)词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的...
solr5 中文分词
solr7.3.1种需要的中文IK分词器,其中包括IK分词的jar和配置文件还有mmseg4j
solr 源码 + IK 分词器 + zookeeper。
solr 中文查询分词器,把一串字符分作多个词语进行查询
该分词器支持solr7.x
Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一...
solr分词 IKAnalyzer2012FF_hf1.rar,solr中文分词搜索
IKAnalyzer中文分词器本身已经不支持最新的solr 5,集成到solr中分词会报错,这里将解决了solr 5支持问题的最新IK包共享出来,希望能帮到各位! 附上IK在schema.xml中的配置: <fieldType name="text_ik" class="...
Solr 5.3.1搜索引擎搭建详细教程(包括集成mysql、添加中文分词、添加同义词、查询语法等)
Solr5.4的中文分词库,解压拷贝到Solr5.4.0的WEB-INF目录下即可,如非默认数据保存路径,要修改web.xml文件
lucene默认自带的分词器对中文支持并不好,所以对于中文索引的分词器,建议使用第三方开源的中文分词器