经过几天的开发与调试,新版的 mmseg4j 可以发布了。定为1.5版,是因为变动比较大。
mmseg4j 1.5变更:
-
使用 sogou 词库,是从 http://www.sogou.com/labs/dl/w.html ,下载的,然后转换下(一行一词)。
- 把chars.dic文件放到jar里, 我们不需要关心它,当然你在词库目录放这个文件可能覆盖它。
- 最长匹配遍历调整(基本不受长词的影响)
- 优化了程序,除去没有必要的数组复制等,性能提升40%
- ant 在jdk 1.5 下也可以编译(上一版本用了Collections二分查找)
说明:
1、sogou 词库,不是用官方的文件,因为官方的文件有词频等信息,加载比较慢。就把这些信息去了,转换了下,一行一词,并且转换为UTF-8的文件,目前sogou词库有15W多。
2、把上一个版本的 chars.dic 文件隐藏在jar里,这个文件我们基本不需要关心的。如果想自定义,可以修改并把它放到词库目录中覆盖默认的。
3、1.5版做了一些优化,mmseg4j-1.5 版的分词速度simple算法是 1100kb/s左右、complex算法是 700kb/s左右,(测试机:AMD athlon 64 2800+ 1G内存 xp)。经测试是 complex 比IK, MIK, je要快,没 paoding快(900Kb/s左右),simple方式比paoding快。
4、其它:词库默认在./data目录下的words.dic文件,也可以指定其它目录,如
Analyzer analyzer = new ComplexAnalyzer("./sogou");
5、solr中的使用方式没变,请看:
中文分词 mmseg4j。
mmseg4j 可以到
google code下载。
分享到:
相关推荐
mmseg4j-solr-2.3.0.jar 支持 solr5.x 版本以上 分词器本身并未做升级还是mmseg4j-core-1.10.0 和 mmseg4j-analysis-1.9.1.jar为了方便也一并上传
mmseg4j中文分词器
mmseg4j1.8.4分词工具,可以方便的集成在lucene后者solr中。
在com.chenlb.mmseg4j.analysis包里扩展lucene analyzer。 MMSegAnalyzer默认使用max-word方式分词(还有:ComplexAnalyzer, SimplexAnalyzer, MaxWordAnalyzer)。
兼容solr4.10.3的mmseg4j-1.9.1分词器
欢迎下载mmseg4j分词器jar包
mmseg4j-1.9.1 分词器 包含修复bug的mmseg4j-analysis-1.9.1.jar dist\修复bug下是修复bug后的mmseg4j-analysis-1.9.1.jar
本人从搜狗词库下载后转化为Lucene中文分词所需的词库,里面搜集的都是官方推荐的内容本人亲测可用。使用Solr5.2.1测试
mmseg4j中文分词器 mmseg4j-core-1.10.0.jar mmseg4j-solr-2.3.0.jar两个主要依赖包
mmseg4j-analysis修改版直接用
mmseg4j-solr-2.3.0-with-mmseg4j-core是Solr的中文分词包,该压缩包含有mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar。
mmseg4j分词器,版本1.9,内涵词库,位于加压后的data.zip中
本人用的solr是4.10的,经过本人亲测可用,放心下载,包含以下3个jar包: mmseg4j-analysis-1.9.1.jar, mmseg4j-core-1.9.1.jar, mmseg4j-solr-2.2.0.jar
中文分词器 mmseg4j1.9.1.zip 配合solr 使用
mmseg4j分词,比较精确,可以跟lucene里面用
与solr4.8匹配的mmseg4j分词器的版本
mmseg4j-1.8.5中文分词器API
mmseg4j-core, 用于java中文分析器的mmseg4j核心 MMSEG <dependency> <groupId>com.chenlb.mmseg4j</groupId> <artifactId>mmseg4j-core</artif
mmseg4j用Chih-Hao Tsai 的MMSeg算法实现的中文分词器,并实现lucene的analyzer和solr的TokenizerFactory以方便在Lucene和Solr中使用。 MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。Complex...
mmseg4j