mmseg4j 是用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器。并实现了 lucene 的 analyzer 和 solr 的 TokenizerFactory 以方便在 Lucene 和 Solr 中使用。
对 lucene 来说 ,mmseg4j 有以下四个 analyzer:SimpleAnalyzer、ComplexAnalyzer、MaxWordAnalyzer、MMSegAnalyzer。前面三个都是继承 MMSegAnalyzer,MMSegAnalyzer 默认使用 max-word 方式分词。
词库文件
data/chars.dic 是单字与语料中的频率,一般不用改动,mmseg4j 1.5版本后已经加到mmseg4j的jar里了,我们不需要关心它,当然你在词库目录放这个文件可以覆盖它。
data/units.dic 是单字的单位,默认读jar包里的,你也可以自定义覆盖它,这功能是试行,如果不喜欢它,可以空的units.dic文件(放到你的词库目录下)覆盖它。
相关博客:
http://www.cnblogs.com/ghj1976/archive/2010/05/14/1735627.html
http://www.oschina.net/p/mmseg4j
http://mmseg4j.googlecode.com/files/mmseg4j-1.8.5.zip
词库文件:
data/words.dic 是词库文件,一行一词,当然你也可以使用自己的,1.5版本使用 sogou 词库,1.0的版本是用 rmmseg 带的词库。 一般我们使用这个作为系统自带词库。分词效果当然还与词库有关,sogou 的词库是统计得出,有些高频的单字组合也成了词,如“我们的”。如果还要提高 mmseg4j 的分词效果,还要在整理下词库。
data/wordsxxx.dic 1.6版支持多个词库文件,data 目录(或你定义的目录)下读到"words"前缀且".dic"为后缀的文件。如:data/words-my.dic。 一般我们在这里里面,把这个当成我们自身特色的词库。
停止词
mmseg4j 没有加任何 stopword,如果需要 stopword ,需要用户自己实现。作者认为:这东西留给使用者自己加,因为作者不认为加 stopword 是好的方法。如音乐搜索,给加上 the,this……,还能找到歌曲?
分词例 子结果:
京华时报1月23日报道 昨 天,受一股来自中西伯利亚的强冷空气影响,本市出现大风降温天气,白天最高气温只有零下7摄氏度,同时伴有6到7级的偏北风。
SimpleAnalyzer: 京华|时报|1|月|23|日|报道|昨|天|受|一股|来自|中西|伯|利|亚|的|强|冷空气|影响|本市|出现|大风|降温|天气|白天|最高气温|只有|零下|7|摄氏度|同时|伴有|6|到|7|级|的|偏|北风|
ComplexAnalyzer: 京华|时报|1|月|23|日|报道|昨|天|受|一股|来自|中|西伯利亚|的|强|冷空气|影响|本市|出现|大风|降温|天气|白天|最高气温|只有|零下|7|摄氏度|同时|伴有|6|到|7|级|的|偏|北风|
MaxWordAnalyzer: 京华|时报|1|月|23|日|报道|昨|天|受|一股|来自|中|西|伯|利|亚|的|强|冷|空气|影响|本市|出现|大风|降温|天气|白天|最高|气温|只有|零下|7|摄氏|度|同时|伴有|6|到|7|级|的|偏|北风|
MMSegAnalyzer: 京华|时报|1|月|23|日|报道|昨|天|受|一股|来自|中|西|伯|利|亚|的|强|冷|空气|影响|本市|出现|大风|降温|天气|白天|最高|气温|只有|零下|7|摄氏|度|同时|伴有|6|到|7|级|的|偏|北风|
在春季,地球的北半球开始倾向太阳,受到越来越多的太阳光直射,因而气温开始升高。随着冰雪消融,河流水位上涨。
SimpleAnalyzer 在春季|地球|的|北半球|开始|倾向|太阳|受到|越来越多|的|太阳光|直射|因而|气温|开始|升高|随着|冰雪消融|河流|水位|上涨|
ComplexAnalyzer 在春季|地球|的|北半球|开始|倾向|太阳|受到|越来越|多的|太阳光|直射|因而|气温|开始|升高|随着|冰雪消融|河流|水位|上涨|
MaxWordAnalyzer 在|春季|地球|的|北|半球|开始|倾向|太阳|受到|越来|越|多的|太阳|阳光|直射|因而|气温|开始|升高|随着|冰雪|消融|河流|水位|上涨|
MMSegAnalyzer 在|春季|地球|的|北|半球|开始|倾向|太阳|受到|越来|越|多的|太阳|阳光|直射|因而|气温|开始|升高|随着|冰雪|消融|河流|水位|上涨|
分享到:
相关推荐
solr中的mmesg4j中文分词器安装详细步骤文档
在com.chenlb.mmseg4j.analysis包里扩展lucene analyzer。 MMSegAnalyzer默认使用max-word方式分词(还有:ComplexAnalyzer, SimplexAnalyzer, MaxWordAnalyzer)。
最好的中分分词工具ictclas 最好的中分分词工具ictclas 最好的中分分词工具ictclas
本代码用java实现了分词功能,包括分词和词性标注,里面有具体的说明文档,包括数据结构的设计,分词步骤,分词系统研究等。
solr 4.3 + mmesg 1.9.1中文分词器的整合案例,并修复mmesg 1.9.1 的BUG,同时是使用多core
欢迎下载mmseg4j分词器jar包
mmseg4j分词,比较精确,可以跟lucene里面用
mmseg4j-solr-2.3.0.jar 支持 solr5.x 版本以上 分词器本身并未做升级还是mmseg4j-core-1.10.0 和 mmseg4j-analysis-1.9.1.jar为了方便也一并上传
兼容solr4.10.3的mmseg4j-1.9.1分词器
mmseg4j分词器,版本1.9,内涵词库,位于加压后的data.zip中
基于Lucene的中文分词包,ictclas4j的最新发布,已经打包成jar包。
mmseg4j 扩展 lucene的analyzer,叫MMSegAnalyzer默认使用Complex方式,也可以用SimpleAnalyzer(Simple方式)。
ansj、mmseg4j和ik-analyzer的评估程序 博文链接:https://yangshangchuan.iteye.com/blog/2056537
NULL 博文链接:https://lionsadness.iteye.com/blog/689910
能兼容solr-4.10.2的分词器,大礼包...包括IK分词器,mmseg4j分词器,庖丁分词器.都是经本人测试可用,其中mmseg4j与庖丁都是下载源码,修改重编译并测试生成的.希望大家喜欢.至于与solr的整合方式,网上很多,这里就不介绍了.
mmseg4j1.8.4分词工具,可以方便的集成在lucene后者solr中。
mmseg4j中文分词器
java开源分词系统主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。我们先后精心打造五年,内核升级7次,目前已经升级到了ICTCLAS2009 用户词典接口扩展用户可以动态增加、删除用户词典...
mmseg4j-1.9.1 分词器 包含修复bug的mmseg4j-analysis-1.9.1.jar dist\修复bug下是修复bug后的mmseg4j-analysis-1.9.1.jar
NULL 博文链接:https://iamyida.iteye.com/blog/2221224