import java.io.IOException;
import java.io.StringReader;
import com.chenlb.mmseg4j.Chunk;
import com.chenlb.mmseg4j.ComplexSeg;
import com.chenlb.mmseg4j.Dictionary;
import com.chenlb.mmseg4j.MMSeg;
import com.chenlb.mmseg4j.Seg;
import com.chenlb.mmseg4j.SimpleSeg;
public class TestFenCi{
public static void main(String[] args) throws IOException{
String txt = "";
txt = "我是中国人。";
Dictionary dic = new Dictionary();
Seg seg = null;
// seg = new SimpleSeg(dic);
seg = new ComplexSeg(dic);
MMSeg mmSeg = new MMSeg(new StringReader(txt), seg);
Chunk chunk = null;
while((chunk=mmSeg.next())!=null) {
for(char[] word : chunk.getWords()) {
if(word != null) {
System.out.print(new String(word)+"|");
}
}
}
}
}
分享到:
相关推荐
在com.chenlb.mmseg4j.analysis包里扩展lucene analyzer。 MMSegAnalyzer默认使用max-word方式分词(还有:ComplexAnalyzer, SimplexAnalyzer, MaxWordAnalyzer)。
欢迎下载mmseg4j分词器jar包
mmseg4j分词器,版本1.9,内涵词库,位于加压后的data.zip中
兼容solr4.10.3的mmseg4j-1.9.1分词器
mmseg4j-solr-2.3.0.jar 支持 solr5.x 版本以上 分词器本身并未做升级还是mmseg4j-core-1.10.0 和 mmseg4j-analysis-1.9.1.jar为了方便也一并上传
mmseg4j分词,比较精确,可以跟lucene里面用
ansj、mmseg4j和ik-analyzer的评估程序 博文链接:https://yangshangchuan.iteye.com/blog/2056537
mmseg4j-1.9.1 分词器 包含修复bug的mmseg4j-analysis-1.9.1.jar dist\修复bug下是修复bug后的mmseg4j-analysis-1.9.1.jar
NULL 博文链接:https://iamyida.iteye.com/blog/2221224
mmseg4j中文分词器
与solr4.8匹配的mmseg4j分词器的版本
能兼容solr-4.10.2的分词器,大礼包...包括IK分词器,mmseg4j分词器,庖丁分词器.都是经本人测试可用,其中mmseg4j与庖丁都是下载源码,修改重编译并测试生成的.希望大家喜欢.至于与solr的整合方式,网上很多,这里就不介绍了.
中文分词器 mmseg4j1.9.1.zip 配合solr 使用
mmseg4j用Chih-Hao Tsai 的MMSeg算法实现的中文分词器,并实现lucene的analyzer和solr的TokenizerFactory以方便在Lucene和Solr中使用。 MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。Complex...
本人用的solr是4.10的,经过本人亲测可用,放心下载,包含以下3个jar包: mmseg4j-analysis-1.9.1.jar, mmseg4j-core-1.9.1.jar, mmseg4j-solr-2.2.0.jar
mmseg4j-1.8.5中文分词器API
lucene整合mmseg4j实例,内置lucene项目实例.
mmseg4j-solr-2.3.0-with-mmseg4j-core是Solr的中文分词包,该压缩包含有mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar。
mmseg4j中文分词器 mmseg4j-core-1.10.0.jar mmseg4j-solr-2.3.0.jar两个主要依赖包
mmseg4j