转自 博客http://www.cnblogs.com/tjsquall/archive/2009/06/30/1514077.html
1,把paoding-analysis-2.0.4-beta解压缩,给项目中加入paoding-analysis.jar。
2,把dic文件夹放到项目的根目录中。dic文件夹里是paoding的词库。
3,配置paoding的词库:把paoding-analysis-2.0.4-beta\src里面的paoding-dic-home.properties拷贝到项目的根目录下。编辑如下:
Xml代码
#values are "system-env" or "this";
#if value is "this" , using the paoding.dic.home as dicHome if configed!
#paoding.dic.home.config-fisrt=system-env
paoding.dic.home.config-fisrt=this
#dictionary home (directory)
#"classpath:xxx" means dictionary home is in classpath.
#e.g "classpath:dic" means dictionaries are in "classes/dic" directory or any other classpath directory
#paoding.dic.home=dic
paoding.dic.home=classpath:dic
#seconds for dic modification detection
#paoding.dic.detector.interval=60
修改paoding .dic .home .config-fisrt=this ,使得程序知道该配置文件
修改paoding .dic .home =classpath:dic ,指定字典的所在路径。绝对路径也可以,但是不好。
paoding下载地址:
http://code.google.com/p/paoding/downloads/list
相关推荐
paoding 中文分词 环境搭建 欢迎交流学习
很好用的中文分词器,能很好的与搜索引擎框架整合,此jar兼容支持Lucene3.0以上版本。
使用Solr3.2 + Paoding中文分词的搜索引擎 使用Demo 测试放在C盘根目录
paoding是一个不错的中文分词程序,中文分词是很多NLP需要用到的,希望能对大家有点用
paoding 中文分词 项目包 可通过文本读取内容分词 运行 src/AnalyzerTest 即可
庖丁解牛中文分词,速度不错,词库也很全面,非常不错!
最近由于在做的电子商务网站,前台要频繁的进行搜索商品,列出符合条件的商品,由于商品数量之大,考虑到要用lucene来显示搜索功能,本文将通过一个简单的例子来告诉你lucene的实现和使用Paoding进行中文分词,当然...
中文分词软件——庖丁最新版本,可用于文本检索领域的分词等功能的实现
Paoding中文分词库是一个使用Java开发的基于Lucene4.x的分词器,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为...
修改了paoding-analysis6的部分源码,使之支持lucene6.2.1
Paoding中文分词是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。 Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词...
中文分词lucene包+paoding包
lucene搜索引擎中文分词器,版本2.0.4,强大的中文分词效果在其它中文分词器当中独领风骚
Paoding中文分词参考手册.htm paoding-analysis.jar
paoding-analysis 庖丁分词 paoding-analysis.jar java开源中文分词jar包
基于Lucene的中文分词器代码paoding,IK,imdict,mmseg4j。测试可运行,输入一个段落,每个分词器的分词结果不同,可得到结果和所需时间。
paoding的中文分词程序,效果还可以.这个可以作为一些基本应用的分词.
利用paoding进行中文分词,可进行自定义词典。利用lucene对文本内容进行索引和搜索并进行高亮处理。
benchmark 人工标注“标准答案” origin 标注原始数据 news 新闻数据 weibo 微博数据 auto_comments 汽车论坛数据 food_comments 餐饮点评数据 ...paoding 庖丁解牛分词器 qcloud 腾讯文智 sina 新浪云 sogou 搜狗分词
庖丁中文分词库是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,本书介绍了在nutch上配置paoding