MMesg4j 分词

leiwuluan

浏览: 695430 次
性别:
来自: 北京

最近访客更多访客>>

思朝阳念落日

bigpotato9999

icesane

wzl_show

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

mmseg4j 是用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器。并实现了 lucene 的 analyzer 和 solr 的 TokenizerFactory 以方便在 Lucene 和 Solr 中使用。

对 lucene 来说，mmseg4j 有以下四个 analyzer：SimpleAnalyzer、ComplexAnalyzer、MaxWordAnalyzer、MMSegAnalyzer。前面三个都是继承 MMSegAnalyzer，MMSegAnalyzer 默认使用 max-word 方式分词。

词库文件
data/chars.dic 是单字与语料中的频率，一般不用改动，mmseg4j 1.5版本后已经加到mmseg4j的jar里了，我们不需要关心它，当然你在词库目录放这个文件可以覆盖它。
data/units.dic 是单字的单位，默认读jar包里的，你也可以自定义覆盖它，这功能是试行，如果不喜欢它，可以空的units.dic文件(放到你的词库目录下)覆盖它。

http://www.oschina.net/p/mmseg4j

http://mmseg4j.googlecode.com/files/mmseg4j-1.8.5.zip

词库文件：
    data/words.dic 是词库文件，一行一词，当然你也可以使用自己的，1.5版本使用 sogou 词库，1.0的版本是用 rmmseg 带的词库。一般我们使用这个作为系统自带词库。分词效果当然还与词库有关，sogou 的词库是统计得出，有些高频的单字组合也成了词，如“我们的”。如果还要提高 mmseg4j 的分词效果，还要在整理下词库。
    data/wordsxxx.dic 1.6版支持多个词库文件，data 目录（或你定义的目录）下读到"words"前缀且".dic"为后缀的文件。如：data/words-my.dic。一般我们在这里里面，把这个当成我们自身特色的词库。

停止词

    mmseg4j 没有加任何 stopword，如果需要 stopword ，需要用户自己实现。作者认为：这东西留给使用者自己加，因为作者不认为加 stopword 是好的方法。如音乐搜索，给加上 the,this……，还能找到歌曲？

分词例子结果:

京华时报1月23日报道 昨 天，受一股来自中西伯利亚的强冷空气影响，本市出现大风降温天气，白天最高气温只有零下7摄氏度，同时伴有6到7级的偏北风。


SimpleAnalyzer:		京华|时报|1|月|23|日|报道|昨|天|受|一股|来自|中西|伯|利|亚|的|强|冷空气|影响|本市|出现|大风|降温|天气|白天|最高气温|只有|零下|7|摄氏度|同时|伴有|6|到|7|级|的|偏|北风|
ComplexAnalyzer:	京华|时报|1|月|23|日|报道|昨|天|受|一股|来自|中|西伯利亚|的|强|冷空气|影响|本市|出现|大风|降温|天气|白天|最高气温|只有|零下|7|摄氏度|同时|伴有|6|到|7|级|的|偏|北风|
MaxWordAnalyzer:	京华|时报|1|月|23|日|报道|昨|天|受|一股|来自|中|西|伯|利|亚|的|强|冷|空气|影响|本市|出现|大风|降温|天气|白天|最高|气温|只有|零下|7|摄氏|度|同时|伴有|6|到|7|级|的|偏|北风|
MMSegAnalyzer:		京华|时报|1|月|23|日|报道|昨|天|受|一股|来自|中|西|伯|利|亚|的|强|冷|空气|影响|本市|出现|大风|降温|天气|白天|最高|气温|只有|零下|7|摄氏|度|同时|伴有|6|到|7|级|的|偏|北风|


在春季，地球的北半球开始倾向太阳，受到越来越多的太阳光直射，因而气温开始升高。随着冰雪消融，河流水位上涨。
SimpleAnalyzer	在春季|地球|的|北半球|开始|倾向|太阳|受到|越来越多|的|太阳光|直射|因而|气温|开始|升高|随着|冰雪消融|河流|水位|上涨|
ComplexAnalyzer	在春季|地球|的|北半球|开始|倾向|太阳|受到|越来越|多的|太阳光|直射|因而|气温|开始|升高|随着|冰雪消融|河流|水位|上涨|
MaxWordAnalyzer	在|春季|地球|的|北|半球|开始|倾向|太阳|受到|越来|越|多的|太阳|阳光|直射|因而|气温|开始|升高|随着|冰雪|消融|河流|水位|上涨|
MMSegAnalyzer	在|春季|地球|的|北|半球|开始|倾向|太阳|受到|越来|越|多的|太阳|阳光|直射|因而|气温|开始|升高|随着|冰雪|消融|河流|水位|上涨|

分享到：