最近又开始研究lucene了 真他妈的折腾 太久没用都基本忘光了。
正文:
1.paoding的jar包只支持了lucene2的,官方上说如果要用for lucene3的,需要直接从svn check下来,这里需要注意。
2.由于功能上的需要,自己加了一个健康类的词库,这里需要注意两点:
a.加了词库后,需要把class/dic里面的.compiled文件夹删除,因为paoding在第一次执行时会把所有的词库都编译一次,似乎这么做是为了提高解析的执行效率。
b.词库编译最好使用SortingDictionariesCompiler这个类编译,需要修改paoding-analyzer.properties,把其中paoding.analyzer.dictionaries.compiler这个值去掉注释。
之所以这么做是因为如果使用默认的MostWordsModeDictionariesCompiler这个类编译的话,有些长词都被切分为小词,对于搜索,可能导致结果不准确。
如:“朝阳区慈济医院”这个词如果用MostWordsModeDictionariesCompiler编译词库,切分出来的结果可能是“朝阳”“朝阳区”“慈济”“医院”但是“朝阳区慈济医院”就被吃了,但是如果用SortingDictionariesCompiler编译词库,切分出来的结果可能是“朝阳”“朝阳区”“慈济”“医院”“朝阳区慈济医院”,个人感觉这样比较符合要求。
代码上的区别:
SortingDictionariesCompiler
Dictionary vocabularyDictionary = dictionaries.getVocabularyDictionary();
File vocabularyFile = new File(compiledDicHomeFile, "vocabulary.dic.compiled");
sortCompile(vocabularyDictionary, vocabularyFile, charsetName);
MostWordsModeDictionariesCompiler
Dictionary vocabularyDictionary = dictionaries.getVocabularyDictionary();
File vocabularyFile = new File(compiledDicHomeFile, "vocabulary.dic.compiled");
compileVocabulary(vocabularyDictionary, knife, vocabularyFile, charsetName);
分享到:
相关推荐
lucene3.0庖丁+索引搜索程序,里面有代码示例
庖丁解牛(很好的分词效率) 在做站内全文检索时创建索引时比较快,而且感觉效果比JE要好一些。。
实例是一个java实例,可直接导入到MyEclipse中...其中是lucene3.0整合了庖丁解牛分词法,添加了高亮显示。因为lucene3.0无法整合paoding-analysis.jar 所以我已经把paoding-analysis中的源码整合进来了避免无法整合问题
支持lucene3的庖丁解牛分词器和字典,可直接调用
支持中文的庖丁解牛,庖丁分词,找了好久才找到的希望对你有帮助。
Lucene 庖丁解牛分词法 , 能够使用它解决中文分词问题。
在使用lucene3与paoding集成的时候可能会出现以下错误: Exception in thread "main" java.lang.AbstractMethodError: org.apache.lucene.analysis.TokenStream.incrementToken()Z at org.apache.lucene.index....
Lucene加庖丁解牛测试类Lucene加庖丁解牛测试类
可以适用于lucene3.5的庖丁解牛分词器jar包
最新庖丁解牛分词法的使用demo,支持Lucene3.3、3.4等3.0以上版本,庖丁解牛的分词包为自己编译生成的,之前的2.0的版本不能支持Lucene3.0以上版本,所以需要从svn下载最新的庖丁解牛源码,生成jar文件(我同样已...
lucene最新版本加庖丁解牛实现搜索引擎 内附chm说明文档,还有各种核心包
庖丁解牛 源码 for Lucene 2.4
资源为庖丁解牛分词法的最新源码以及生成的jar包,支持最新的Lucene3.4以及Lucene3.0以上版本。Jar包为本地生成,大家也可以到SVN上检出自己生成,另外庖丁解牛分词法的使用Demo我会接下来上传一份,欢迎分享。
NULL 博文链接:https://qpshenggui.iteye.com/blog/1157999
在lucene中使用庖丁解牛的分词器,实现类似当当网站的功能实现一个对企业内部产品的检索功能
最新庖丁分词源代码(for lucene3.0)
支持lucene3.0以上版本的分词器paoding的jar包还没有出来,只有源代码。我通过将源代码打包得到此jar.并且测试过。可以和当前最新版本的lucene3.6整合
庖丁分词 使用 paoding-analysis-2.0.4-beta.zip 版时异常 Exception in thread "main" java.lang.AbstractMethodError: org.apache.lucene.analysis.TokenStream.incrementToken()Z 换用svn里源码版正常 ...
Lucene建立索引jar包和Paoding庖丁分词jar包,Lucene结合Paoding庖丁分词创建索引索引jar包汇总
lucene3.0 中文分词器, 庖丁解牛