mmseg4j 中文分词 1.5 版发布 - chenlb 的学习笔迹 - ITeye博客

`

chenlb

浏览: 689702 次
性别:
来自: 杭州

最近访客更多访客>>

liyaofeng

shi007

jiduoduo

andreaguo

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

chenlb： junfeng_feng 写道authorzied 妹的，单 ...
ssh 免密码登录
chenlb： yiqieqie1 写道有拼写错误，我在这栽了。。。3.B ...
ssh 免密码登录
junfeng_feng： authorzied 妹的，单词错误了。百度居然还把这篇文章 ...
ssh 免密码登录
Char_CN：不做密钥，使用go命令，安装地址https://github. ...
ssh 免密码登录
yiqieqie1：有拼写错误，我在这栽了。。。3.B机把从A机复制的id_r ...
ssh 免密码登录

mmseg4j 中文分词 1.5 版发布

博客分类：

mmseg4j

Solr 算法 XP Google Ant

阅读更多

经过几天的开发与调试，新版的 mmseg4j 可以发布了。定为1.5版，是因为变动比较大。

mmseg4j 1.5变更：

http://www.sogou.com/labs/dl/w.html

把chars.dic文件放到jar里, 我们不需要关心它，当然你在词库目录放这个文件可能覆盖它。
最长匹配遍历调整(基本不受长词的影响)
优化了程序,除去没有必要的数组复制等,性能提升40%
ant 在jdk 1.5 下也可以编译（上一版本用了Collections二分查找）

说明：

1、sogou 词库，不是用官方的文件，因为官方的文件有词频等信息，加载比较慢。就把这些信息去了，转换了下，一行一词，并且转换为UTF-8的文件，目前sogou词库有15W多。

2、把上一个版本的 chars.dic 文件隐藏在jar里，这个文件我们基本不需要关心的。如果想自定义，可以修改并把它放到词库目录中覆盖默认的。

3、1.5版做了一些优化，mmseg4j-1.5 版的分词速度simple算法是 1100kb/s左右、complex算法是 700kb/s左右，（测试机：AMD athlon 64 2800+ 1G内存 xp）。经测试是 complex 比IK, MIK, je要快，没 paoding快（900Kb/s左右），simple方式比paoding快。

4、其它：词库默认在./data目录下的words.dic文件，也可以指定其它目录，如

Analyzer analyzer = new ComplexAnalyzer("./sogou");

5、solr中的使用方式没变，请看：中文分词 mmseg4j。

mmseg4j 可以到 google code下载。

分享到：

mmseg4j 中文分词 1.6 版发布 | mmseg4j 分词速度

2009-04-01 14:25
浏览 2581
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

solr mmseg4j 中文分词器: mmseg4j-solr-2.3.0.jar 支持 solr5.x 版本以上分词器本身并未做升级还是mmseg4j-core-1.10.0 和 mmseg4j-analysis-1.9.1.jar为了方便也一并上传

mmseg4j中文分词器: mmseg4j中文分词器

mmseg4j1.8.4分词工具: mmseg4j1.8.4分词工具，可以方便的集成在lucene后者solr中。

mmseg4j分词器: 在com.chenlb.mmseg4j.analysis包里扩展lucene analyzer。 MMSegAnalyzer默认使用max-word方式分词(还有：ComplexAnalyzer, SimplexAnalyzer, MaxWordAnalyzer)。

兼容solr4.10.3的mmseg4j-1.9.1分词器: 兼容solr4.10.3的mmseg4j-1.9.1分词器

mmseg4j分词器jar包: 欢迎下载mmseg4j分词器jar包

mmseg4j-1.9.1 分词器包含修复bug的mmseg4j-analysis-1.9.1.jar: mmseg4j-1.9.1 分词器包含修复bug的mmseg4j-analysis-1.9.1.jar dist\修复bug下是修复bug后的mmseg4j-analysis-1.9.1.jar

MMseg4j中文分词词库: 本人从搜狗词库下载后转化为Lucene中文分词所需的词库，里面搜集的都是官方推荐的内容本人亲测可用。使用Solr5.2.1测试

mmseg4j-solr-2.3.0.jar: mmseg4j中文分词器 mmseg4j-core-1.10.0.jar mmseg4j-solr-2.3.0.jar两个主要依赖包

mmseg4j-analysis修改版: mmseg4j-analysis修改版直接用

solr中文分词包mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar: mmseg4j-solr-2.3.0-with-mmseg4j-core是Solr的中文分词包，该压缩包含有mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar。

mmseg4j分词器，内含词库: mmseg4j分词器，版本1.9，内涵词库，位于加压后的data.zip中

mmseg4j-solr-2.2.0.jar mmseg4j-analysis-1.9.1.jar mmseg4j-solr-2.2.0.jar: 本人用的solr是4.10的，经过本人亲测可用，放心下载，包含以下3个jar包： mmseg4j-analysis-1.9.1.jar, mmseg4j-core-1.9.1.jar, mmseg4j-solr-2.2.0.jar

mmseg4j1.9.1.zip 中文分词器: 中文分词器 mmseg4j1.9.1.zip 配合solr 使用

mmseg4j分词: mmseg4j分词，比较精确，可以跟lucene里面用

mmseg4j-solr-2.1.0-with-mmseg4j-core.zip: 与solr4.8匹配的mmseg4j分词器的版本

mmseg4j-1.8.5.chm帮助文档API: mmseg4j-1.8.5中文分词器API

mmseg4j-core, 用于java中文分析器的mmseg4j核心 MMSEG.zip: mmseg4j-core, 用于java中文分析器的mmseg4j核心 MMSEG <dependency> <groupId>com.chenlb.mmseg4j</groupId> <artifactId>mmseg4j-core</artif

分词器mmseg4j 1.9.0.jar: mmseg4j用Chih-Hao Tsai 的MMSeg算法实现的中文分词器，并实现lucene的analyzer和solr的TokenizerFactory以方便在Lucene和Solr中使用。 MMSeg 算法有两种分词方法：Simple和Complex，都是基于正向最大匹配。Complex...

mmseg4j\mmseg4j-1.8.5.zip: mmseg4j

Global site tag (gtag.js) - Google Analytics