原文出处:http://blog.chenlb.com/2009/04/chinese-segment-mmseg4j-dictionary-format.html
有个网友 email 问题词库格式怎么样?他想为繁体中文进行分词,所以想词库换成繁体的。很遗憾我目前还没找到繁体版的词库。目前 mmseg4j 的词库全是简体版,包括 chars.dic、units.dic、words.dic,并且强制使用 UTF-8 编码。
下面一一解说下词库的格式。
1、chars.dic,是单个字,和对应的频率,一行一对,字在全面,频率在后面,中间用空格分开。这个文件的信息是 complex 模式要用到的。在最后一条过虑规则中使用了频率信息。从 1.5 版后已经把它打包进 jar 里,一般不用关心它。不过可以在词库目录下放一个同名文件覆盖它。
2、units.dic,是单位的字,如:分、秒、年。这一文件是我在 mmseg4j 1.6 后加入的,也是一行一条。主要是在数字后面的单位信息切分好,不与words.dic中的词有混淆。同时也打包进 jar 里,目前还是试行,如果不喜欢它,可以用空的文件放到词库目录下覆盖它。
3、words.dic,是核心的词库文件,一行一条,不需要其它任何数据(如词长)。1.0 版是用 rmmseg(ruby 的 mmseg 实现) 的词库。1.5版后 mmseg4j 改用 sogou 词库,可以 http://www.sogou.com/labs/dl/w.html 找到下载。然后我把它去了频率等信息,并转为 UTF-8 编码。
4、wordsXXX.dic,是自定义词库文件(其实是 mmseg4j 可以从多个文件读取词)。这功能是 1.6 版加入的。它的格式与 words.dic 一样,只不过 XXX 部分是如您自己写的名字,如:源码包里的 data/words-my.dic。注意:自定义词库文件名必需是 "words" 为前缀和 ".dic" 为后缀。
mmseg4j 默认从当前目录下的 data 目录读取上面的文件。当然也可以指定别的目录,如:new ComplexAnalyzer("./my_dic"),在 solr 中可以用 dicPath 属性指定它。
延伸:
如果加了自定义的词,要用 simple 或 complex 分词模式是检验它是否有效。因为目前 max-word 模式分出来的词长不会超过2。
相关推荐
mmseg4j分词器,版本1.9,内涵词库,位于加压后的data.zip中
本人从搜狗词库下载后转化为Lucene中文分词所需的词库,里面搜集的都是官方推荐的内容本人亲测可用。使用Solr5.2.1测试
汇总的中文分词词库,分为两个目录: 1、中文分词词库汇总。包含10个词库,文件名字表示里面词的数量(单位是千),如150.txt,表示包含15万词。 2、主流分词工具的词库。包含word/jieba/mmseg/IK分词工具的最近词库...
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" /> ...
mmseg4j-core-1.10.0+mmseg4j-solr-2.3.0()mmseg4j-solr-2.3.0.jar 要求 lucene/solr [5.0, ])
包括4款分词工具的最新词库: 1、IK分词:27万词 2、jieba分词:40万词 3、mmseg分词:15万词 4、word分词:64万词
中文分词器jcseg支持人名识别mmseg四种过滤算法分词准确率达到了97%以上。支持自定义词库。在lexicon文件夹下可以随便添加删除更改词库和词库内容并且对词库进行了分类.zip,太多无法一一验证是否可用,程序如果跑不...
friso是使用c语言开发的一个中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入到其他程序中,例如:MySQL,PHP等。
常见分词算法用到的词典库(jieba、IK、mmseg、word),但是词典库没有词性,
lucene官网: ... 中文分词器: ... https://code.google.com/p/mmseg4j/ (mmseg4j-1.9.1.v20130120-SNAPSHOT.zip) 查看分词库: http://code.google.com/p/luke/downloads/list (lukeall-4.0.0-ALPHA.jar )
- [x] 中文分词:mmseg算法 + **Friso** 独创的优化算法,四种切分模式。 - [ ] 关键字提取:基于textRank算法。 - [ ] 关键短语提取:基于textRank算法。 - [ ] 关键句子提取:基于textRank算法。 # **Friso**中文...
中文分词词库汇总 汇总的中文分词词库,分为两个目录: 1、中文分词词库汇总,共150多万分词词组。 2、主流分词工具的词库。包含word/jieba/mmseg/IK分词工具的最近词库。
Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的...
solr的基本搭建,拼音检索,三种分词器(smartcn ,IK,mmseg4j)的安装,停词器的安装
运行容器:Tomcat6.0.20 Solr版本:apache-solr-1.4.0 分词器:mmseg4j-1.6.2 词库:sogou-dic
Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的...
主要介绍了如和用solr搭建搜索平台的详细步骤,同时对配置文件进行了详细介绍。 运行容器:Tomcat6.0.20 Solr版本:apache-solr-1.4.0 分词器:mmseg4j-1.6.2 词库:sogou-dic
Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的...
jcseg是使用Java开发的一个开源中文分词器,使用流行的mmseg算法实现,并且提供了最高版本的lucene-4.x和最高版本solr-4.x的分词接口. 1。目前最高版本:jcseg-1.9.2。兼容最高版本lucene-4.x和最高版本solr-4.x 2...
> 中文分词:mmseg算法 Jcseg 独创的优化算法,四种切分模式。 > 关键字提取:基于textRank算法。 > 关键短语提取:基于textRank算法。 > 关键句子提取:基于textRank算法。 > 文章自动摘要:基于BM25 textRank算法...