最近一直负责做lucene构建搜索引擎,其中采用的中文分词器就是qieqie提供的庖丁解牛分词器。由于发现当搜索:
1、关于番禺供电局增加乙类工作票签发人的请示
2、关于从化供电局2006年度“两票”考核奖励方案的报告
3、关于辖区内10KV架空线路两旁(线行下)受树木影响情况的报告
4、关于增城供电局防坠落装置安装和使用情况的报告
5、关于广州萝岗供电局2007年安措计划的报告
6、关于召开重要变电站事故应急预案编制讨论会的通知(9月9日上午9:30)
7、关于召开《广东电网继电保护通信通道运行管理办法》
当搜索整条句子时查不出结果,但是去掉红色部分再查找却可以查找到结果。
刚开始的分析:
从以上可总结出:
1、2、3、4、5:去掉的部分都是地名。
7:去掉的是特殊符号
6:还未找出具体问题,当查询“关于召开重要变电站事故应急预案编制讨论会的通知”还是一样查找不出结果。
本想去研究一下庖丁解牛分词的源码,可现在这两周接到做jbpm工作流的任务,所以一直拖着没去看。
可这个问题一直挂在心上,昨天突然想到那个配置文件:
<bean id="writerAnalyzer" class="com.net.paoding.analysis.analyzer.PaodingAnalyzer">
<property name="knife" ref="paoding"/>
<property name="mode" value="1"/>
</bean>
<bean id="queryAnalyzer" class="com.net.paoding.analysis.analyzer.PaodingAnalyzer">
<property name="knife" ref="paoding"/>
<property name="mode" value="2"/>
</bean>
<bean id="paoding" class="com.net.paoding.analysis.knife.PaodingMaker" factory-method="make"/>
写索引的时候采用writerMode(1)而查询的时候采用queryMode(2),会不会是这两次采用了不同的模式导致。
所以把上面查询的模式也改为writerMode即value="1".再查询发现可以查出上面的结果出来。看来还真是这个问题导致。
今早来上班又到网上查了下,原来qieqie早已提到了这个问题。
qieqie在javaeye上的帖子中的回复内容:
参见:
[url=http://analysis.group.iteye.com/group/post/15584 ]JavaEye:Spring Context下使用"庖丁解牛" [/url]
或:
Google:Spring Context下使用"庖丁解牛"
简单摘要(以上面两个链接中的说明为准,这里只是摘要):
Java代码
<bean id="writerAnalyzer" class="com.net.paoding.analysis.analyzer.PaodingAnalyzer">
<property name="knife" ref="paoding"/>
<property name="mode" value="1"/>
</bean>
<bean id="queryAnalyzer" class="com.net.paoding.analysis.analyzer.PaodingAnalyzer">
<property name="knife" ref="paoding"/>
<property name="mode" value="2"/>
</bean>
<bean id="paoding" class="com.net.paoding.analysis.knife.PaodingMaker" factory-method="make"/>
补:
1、建立索引和使用索引只能使用同一种/模式的分词器
2、2.0.2以后(包含)queryMode和writerMode这两个名称将重构为更好的名称,请留意倒是的API说明或readme变更说明。
分享到:
相关推荐
庖丁解牛分词之自定义词库、庖丁解牛配置,java搜索分词
由于庖丁官方目前提供可下载尚不支持Lucene 3.0以上版本。因此作者对paoding进行重新编译,使其与最新Lucene 3.0.1版本适用。 Latest paoding 3.0.1 for lucene 3.0.1 使用说明: 先下载2.0.4的版本(h t t p : / ...
庖丁解牛分词 java包庖丁解牛分词 java包庖丁解牛分词 java包庖丁解牛分词 java包庖丁解牛分词 java包庖丁解牛分词 java包庖丁解牛分词 java包
庖丁解牛分词器源码,包含源码与对应项目,可以用eclipse打开编译
支持中文的庖丁解牛,庖丁分词,找了好久才找到的希望对你有帮助。
庖丁解牛(很好的分词效率) 在做站内全文检索时创建索引时比较快,而且感觉效果比JE要好一些。。
中文分词 庖丁解牛 2_0_0版本发布 - 企业应用 中文分词 庖丁解牛 2_0_0版本发布 - 企业应用
庖丁解牛,Lucene分词器,很难得的资源。
庖丁解牛中文分词器,可以完美整合,只要配置好字典的路径,就可以使用庖丁解牛,可以有效针对中文进行分词,而且可以自定义词典。
支持lucene3的庖丁解牛分词器和字典,可直接调用
Lucene 庖丁解牛分词法 , 能够使用它解决中文分词问题。
Paoding's Knives 中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。 高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字。 采用基于 不限制个数 的词典文件对文章...
最新庖丁解牛分词法的使用demo,支持Lucene3.3、3.4等3.0以上版本,庖丁解牛的分词包为自己编译生成的,之前的2.0的版本不能支持Lucene3.0以上版本,所以需要从svn下载最新的庖丁解牛源码,生成jar文件(我同样已...
Version 2.0.4–alpha2 通过 analyzer.bat 程序,可以输入中文文本,即时地查看分词效果。 Jar包在lib 文件夹中。 本人倡导零分资源共享,欢迎大家下载和评论。
一款比较好的中文分词器,可以很方便地集成到lucene中,集成到lucene3.0中的时候需要做一些修改,具体修改方法可以百度之
可以适用于lucene3.5的庖丁解牛分词器jar包
一种中文分词词典新机制——双字哈希机制.pdf
庖丁解牛分词时需要的高亮显示jar包,高亮显示需要的jar包
庖丁解牛,搜索引擎分词技术,用于开发网站站内搜索所需分词技术工具包。
全文检索技术,运用庖丁解牛的分词方法,比较实用,可以借鉴。