在几个中文分词中,决定用paoding庖丁分词。
记录使用的一些问题和思路,慢慢更新。
与Lucene和Solr的结合及版本
待续
paoding分词的辞典定制
我的环境ubuntu,win下没有测试.
辞典路径配置:
#1 paoding分词会优先找系统变量export PAODING_DIC_HOME作为辞典目录
#2 如果没有,则找类目录下的文件paoding-dic-home.properties
这个文件里配置了辞典目录和目录配置方式,看注释就行
自己添加辞典:
在辞典目录下,有很多目录,比如local/division等,可以改动并添加自己的词;
自己可以添加文件夹和文件,文件命名为xxx.dic;xxx.dic里可以添加自己应用的辞典;
辞典不起作用?
Paoding会预编译辞典,生成.compiled文件夹;
自己添加的辞典,如果想立即生效,需要删除此文件夹;[其实这还不是本质,但先说到这里;可以去看源码]
另外注意:
1.每次词典修改后,要删掉dic下面的“.compiled ”文件夹,重起solr所在服务器
2.字典必须是UTF-8编码
3.win下不要用记事本打开
4.自己添加的字典中的词语不要太长(我忘记多少长度了),否则会报错:ArrayOutOfBounds
paoding 报错 Array Out Of Bounds
paoding分词的优缺点评述
待续
paoding分词团队及社区开源软件的评述(仅仅为个人之见
--作者别砸我哈
)
#1 文档不太好
其实是基本没有文档,这一点跟国外的或者说标准的开源项目有很大的差别;
看看Apache上的项目,连tutorial都很详细;
#2 测试做的不太好
基本没有完整的unit测试,这样造成的问题是不能持续集成,一个人修改了一个bug,结果引入了另外几个bug;
#3 社区不太好
应该说结构和团队组织不太好,造成想加入没能加入,问题没人回答,成了一个冷清的社区;
-->>当然,原因嘛,国内普遍的现象;谁有时间和精力免费花在这个开源上面呢~
-->>作者别砸我哈~
O
O
O
O
O
O
分享到:
相关推荐
中文分词软件——庖丁最新版本,可用于文本检索领域的分词等功能的实现
这是一个lucene中文索引程序,采用paoding分词器,包括建立索引和搜索过程。
Lucene建立索引jar包和Paoding庖丁分词jar包,Lucene结合Paoding庖丁分词创建索引索引jar包汇总
支持lucene4.0的paoding分词
Paoding中文分词库是一个使用Java开发的基于Lucene4.x的分词器,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为...
paoding分词与gate使用,给公司做报告时准备的ppt
很好用的中文分词器,能很好的与搜索引擎框架整合,此jar兼容支持Lucene3.0以上版本。
基于Lucene4.x实现Paoding分词器.rar
能兼容solr-4.10.2的分词器,大礼包全放送.包括IK分词器,mmseg4j分词器,庖丁分词器.都是经本人测试可用,其中mmseg4j与庖丁都是下载源码,修改重编译并测试生成的.希望大家喜欢.至于与solr的整合方式,网上很多,这里就不...
庖丁中文分词库是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,本书介绍了在nutch上配置paoding
paoding 中文分词 环境搭建 欢迎交流学习
Java 调用了paoding分词插件,把新闻的内容进行解析,按照词频,进行新闻的分类,小例子,做着玩的
使用Solr3.2 + Paoding中文分词的搜索引擎 使用Demo 测试放在C盘根目录
由于庖丁官方目前提供可下载尚不支持Lucene 3.0以上版本。因此作者对paoding进行重新编译,使其与最新Lucene 3.0.1版本适用。 Latest paoding 3.0.1 for lucene 3.0.1 使用说明: 先下载2.0.4的版本(h t t p : / ...
paoding的中文分词程序,效果还可以.这个可以作为一些基本应用的分词.
中文分词lucene包+paoding包
一款基于java的分词软件,用来把中文文章分成有意义的单词。
lucene搜索引擎中文分词器,版本2.0.4,强大的中文分词效果在其它中文分词器当中独领风骚
庖丁解牛中文分词,速度不错,词库也很全面,非常不错!
利用paoding进行中文分词,可进行自定义词典。利用lucene对文本内容进行索引和搜索并进行高亮处理。