中文分词 mmseg4j 1.7.2 版发布 - chenlb 的学习笔迹 - ITeye博客

`

chenlb

浏览: 689731 次
性别:
来自: 杭州

最近访客更多访客>>

liyaofeng

shi007

jiduoduo

andreaguo

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

chenlb： junfeng_feng 写道authorzied 妹的，单 ...
ssh 免密码登录
chenlb： yiqieqie1 写道有拼写错误，我在这栽了。。。3.B ...
ssh 免密码登录
junfeng_feng： authorzied 妹的，单词错误了。百度居然还把这篇文章 ...
ssh 免密码登录
Char_CN：不做密钥，使用go命令，安装地址https://github. ...
ssh 免密码登录
yiqieqie1：有拼写错误，我在这栽了。。。3.B机把从A机复制的id_r ...
ssh 免密码登录

中文分词 mmseg4j 1.7.2 版发布

博客分类：

mmseg4j

lucene Solr Ant Gmail Google

阅读更多

中文分词 mmseg4j 1.7.2 版发布，其实两天前就发布了，只是没有写博客而已。与引版本发布的还有 1.6.2，两者基本一样，只是词库的数据结构不同，1.7的是键树，1.6的是数组与二分查找。

mmseg4j 1.7.2 版的主要更新：

修复由 1.7-beta 升级到 1.7 版的 bug：添加 lowerCaseFilter 后的一个 bug: NullPointerException。
核发程序与 lucene 和 solr 扩展分开打包, 同时给出低版本的 lucene 扩展(lucene 1.9 到 2.2; lucene 2.3)

如何从源码编译：

下载源码：mmseg4j-1.7.2-src 或 mmseg4j-1.6.2-src。解压到如：e:/mmseg4j-1.7.2-src。然后到这个目录，运行：

ant

或

ant build

上面编译是在 solr 1.3 和 lucene 2.4 环境下的。如果您要在低版本的 lucene 中使用，到 e:/mmseg4j-1.7.2-src/contrib/lucene_1_9 或 e:/mmseg4j-1.7.2-src/contrib/lucene_2_3 运行：

ant build

说明：到 contrib 下的子项目中编译的话，先要编译 mmseg4j，contrib/lucene_1_9 可以支持到 2.2。

如果有任何疑问、建议，欢迎到论坛 http://groups.google.com/group/mmseg4j/topics?hl=zh_CN 讨论。，或与我联系 chenlb2008#gmail.com。

还要感谢网友“苦涩可乐”提示 NullPointerException 的bug。

分享到：

讨论 mmseg4j 的现状，与改进。 | mmseg4j 1.7 beta 版发布

2009-04-27 10:12
浏览 1422
评论(0)
论坛回复 / 浏览 (0 / 1774)
分类:企业架构
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

中文分词mmseg4j: 中文分词 solr 支持solr 4.7

solr中文分词包mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar: mmseg4j-solr-2.3.0-with-mmseg4j-core是Solr的中文分词包，该压缩包含有mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar。

solr mmseg4j 中文分词器: mmseg4j-solr-2.3.0.jar 支持 solr5.x 版本以上分词器本身并未做升级还是mmseg4j-core-1.10.0 和 mmseg4j-analysis-1.9.1.jar为了方便也一并上传

mmseg4j-1.8.5: lucene中文分词 mmseg4j-1.8.5与lucene3.1兼容

mmseg4j 2.3 源码: Lucene中文分词 mmseg4j 2.3 源码

mmseg4j-solr-2.2.0.jar mmseg4j-analysis-1.9.1.jar mmseg4j-solr-2.2.0.jar: 本人用的solr是4.10的，经过本人亲测可用，放心下载，包含以下3个jar包： mmseg4j-analysis-1.9.1.jar, mmseg4j-core-1.9.1.jar, mmseg4j-solr-2.2.0.jar

mmseg4j1.9.1.zip 中文分词器: 中文分词器 mmseg4j1.9.1.zip 配合solr 使用

mmseg4j分词器: 在com.chenlb.mmseg4j.analysis包里扩展lucene analyzer。 MMSegAnalyzer默认使用max-word方式分词(还有：ComplexAnalyzer, SimplexAnalyzer, MaxWordAnalyzer)。

分词器mmseg4j 1.9.0.jar: mmseg4j用Chih-Hao Tsai 的MMSeg算法实现的中文分词器，并实现lucene的analyzer和solr的TokenizerFactory以方便在Lucene和Solr中使用。 MMSeg 算法有两种分词方法：Simple和Complex，都是基于正向最大匹配。Complex...

mmseg4j-1.9.1 分词器包含修复bug的mmseg4j-analysis-1.9.1.jar: mmseg4j-1.9.1 分词器包含修复bug的mmseg4j-analysis-1.9.1.jar dist\修复bug下是修复bug后的mmseg4j-analysis-1.9.1.jar

兼容solr4.10.3的mmseg4j-1.9.1分词器: 兼容solr4.10.3的mmseg4j-1.9.1分词器

mmseg4j-core, 用于java中文分析器的mmseg4j核心 MMSEG.zip: mmseg4j-core, 用于java中文分析器的mmseg4j核心 MMSEG <dependency> <groupId>com.chenlb.mmseg4j</groupId> <artifactId>mmseg4j-core</artif

mmseg4j-1.8.5.chm帮助文档API: mmseg4j-1.8.5中文分词器API

mmseg4j分词器jar包: 欢迎下载mmseg4j分词器jar包

mmseg4j-analysis-1.9.1.jar: 中文分词器 mmseg4j 正确版已经修改了里面的bug问题

mmseg4j\mmseg4j-1.8.5.zip: mmseg4j

mmseg4j-solr-2.3.0.jar: mmseg4j中文分词器 mmseg4j-core-1.10.0.jar mmseg4j-solr-2.3.0.jar两个主要依赖包

mmseg4j-core-1.10.0: mmseg4j-core-1.10.0，非常好用的中文分词器

mmseg4j-solr-2.3.2-with-mmseg4j-core: 该压缩包包含`mmseg4j-solr-2.3.2.jar`和`mmseg4j-core-1.10.0.jar`，其中solr-2.3.2不是官方的版本，该版本有改动，使得mmseg4j可以很好的支持Solr6，如果你的Solr低于Solr6，请使用官方的mmseg4j-solr-2.3.0.jar...

mmseg4j2.0: <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" /> ...

Global site tag (gtag.js) - Google Analytics