mmseg4j分词器简单实例 - - ITeye博客

`

masw123

浏览: 14117 次
性别:
来自: 北京

最近访客更多访客>>

DTmoluo

qq254482856

吴小帅啊

woodding2008

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

mmseg4j分词器简单实例

博客分类：

JAVA

阅读更多

import java.io.IOException;
import java.io.StringReader;

import com.chenlb.mmseg4j.Chunk;
import com.chenlb.mmseg4j.ComplexSeg;
import com.chenlb.mmseg4j.Dictionary;
import com.chenlb.mmseg4j.MMSeg;
import com.chenlb.mmseg4j.Seg;
import com.chenlb.mmseg4j.SimpleSeg;

public class TestFenCi{

public static void main(String[] args) throws IOException{
String txt = "";
txt = "我是中国人。";
Dictionary dic = new Dictionary();
Seg seg = null;
// seg = new SimpleSeg(dic);
seg = new ComplexSeg(dic);
MMSeg mmSeg = new MMSeg(new StringReader(txt), seg);
Chunk chunk = null;
while((chunk=mmSeg.next())!=null) {
for(char[] word : chunk.getWords()) {
if(word != null) {
System.out.print(new String(word)+"|");
}
}
}

}

}

分享到：

js文档 | mmseg4j分词器

2012-08-14 12:04
浏览 1466
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

mmseg4j分词器: 在com.chenlb.mmseg4j.analysis包里扩展lucene analyzer。 MMSegAnalyzer默认使用max-word方式分词(还有：ComplexAnalyzer, SimplexAnalyzer, MaxWordAnalyzer)。

mmseg4j分词器jar包: 欢迎下载mmseg4j分词器jar包

mmseg4j分词器，内含词库: mmseg4j分词器，版本1.9，内涵词库，位于加压后的data.zip中

兼容solr4.10.3的mmseg4j-1.9.1分词器: 兼容solr4.10.3的mmseg4j-1.9.1分词器

solr mmseg4j 中文分词器: mmseg4j-solr-2.3.0.jar 支持 solr5.x 版本以上分词器本身并未做升级还是mmseg4j-core-1.10.0 和 mmseg4j-analysis-1.9.1.jar为了方便也一并上传

mmseg4j分词: mmseg4j分词，比较精确，可以跟lucene里面用

word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估: ansj、mmseg4j和ik-analyzer的评估程序博文链接：https://yangshangchuan.iteye.com/blog/2056537

mmseg4j-1.9.1 分词器包含修复bug的mmseg4j-analysis-1.9.1.jar: mmseg4j-1.9.1 分词器包含修复bug的mmseg4j-analysis-1.9.1.jar dist\修复bug下是修复bug后的mmseg4j-analysis-1.9.1.jar

跟益达学Solr5之使用MMSeg4J分词器: NULL 博文链接：https://iamyida.iteye.com/blog/2221224

mmseg4j中文分词器: mmseg4j中文分词器

mmseg4j-solr-2.1.0-with-mmseg4j-core.zip: 与solr4.8匹配的mmseg4j分词器的版本

兼容solr4.10.2的ik-mmseg4j-paoding分词器: 能兼容solr-4.10.2的分词器,大礼包...包括IK分词器,mmseg4j分词器,庖丁分词器.都是经本人测试可用,其中mmseg4j与庖丁都是下载源码,修改重编译并测试生成的.希望大家喜欢.至于与solr的整合方式,网上很多,这里就不介绍了.

mmseg4j1.9.1.zip 中文分词器: 中文分词器 mmseg4j1.9.1.zip 配合solr 使用

分词器mmseg4j 1.9.0.jar: mmseg4j用Chih-Hao Tsai 的MMSeg算法实现的中文分词器，并实现lucene的analyzer和solr的TokenizerFactory以方便在Lucene和Solr中使用。 MMSeg 算法有两种分词方法：Simple和Complex，都是基于正向最大匹配。Complex...

mmseg4j-solr-2.2.0.jar mmseg4j-analysis-1.9.1.jar mmseg4j-solr-2.2.0.jar: 本人用的solr是4.10的，经过本人亲测可用，放心下载，包含以下3个jar包： mmseg4j-analysis-1.9.1.jar, mmseg4j-core-1.9.1.jar, mmseg4j-solr-2.2.0.jar

mmseg4j-1.8.5.chm帮助文档API: mmseg4j-1.8.5中文分词器API

lucene整合mmseg4j实例和项目实例: lucene整合mmseg4j实例,内置lucene项目实例.

solr中文分词包mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar: mmseg4j-solr-2.3.0-with-mmseg4j-core是Solr的中文分词包，该压缩包含有mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar。

mmseg4j-solr-2.3.0.jar: mmseg4j中文分词器 mmseg4j-core-1.10.0.jar mmseg4j-solr-2.3.0.jar两个主要依赖包

mmseg4j\mmseg4j-1.8.5.zip: mmseg4j

Global site tag (gtag.js) - Google Analytics