需要引入je-analysis-1.4.0.jar包
package com.test;
import java.io.IOException;
import java.io.StringReader;
import jeasy.analysis.MMAnalyzer;
public class testJE {
public static void main(String[] args){
String test = "帕森斯命中三分球,随后德拉季奇和斯科拉也跟进得分,火箭以19-13领先进入暂停。" +
"其中包括巴丁格的空接暴扣,但是首节结束时火箭还是以26-30落后爵士队。火箭的坎比9分6个篮板球,帕森斯8分,爵士的哈沃德12分。";
StringReader sr = new StringReader("斯科");
//不是只分成长度<=2的词,而是当两个词已经匹配时,就不再尝试第三个是否能组成新词,优点类似最小向前匹配
MMAnalyzer mm = new MMAnalyzer(2);
mm.addWord("暴扣");
mm.addDictionary(sr);
try {
System.out.println(mm.segment(test, "|"));
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
帕森斯|命中|三分球|随后|德拉季奇|斯科拉|跟进|得分|火箭|19-13|领先|进入|暂停|其中|包括|巴丁格|空接暴扣|但是|首|节结|束|时|火箭|还是|26-30|落后|爵士|队|火箭|坎|比|9分|6个|篮板球|帕森斯|8分|爵士|哈沃德|12分|
mm.addWord("暴扣")帕森斯|命中|三分球|随后|德拉季奇|斯科拉|跟进|得分|火箭|19-13|领先|进入|暂停|其中|包括|巴丁格|空接|暴扣|但是|首|节结|束|时|火箭|还是|26-30|落后|爵士|队|火箭|坎|比|9分|6个|篮板球|帕森斯|8分|爵士|哈沃德|12分|
MMAnalyzer(2)帕森斯|命中|三分|球|随后|德拉季奇|斯科拉|跟进|得分|火箭|19-13|领先|进入|暂停|包括|巴丁格|空接|暴扣|首|节结|束|时|火箭|还是|26-30|落后|爵士|队|火箭|坎|比|9分|6个|篮板|球|帕森斯|8分|爵士|哈沃德|12分|
mm.addDictionary(sr)帕森斯|命中|三分|球|随后|德拉季奇|斯科|拉也|跟进|得分|火箭|19-13|领先|进入|暂停|包括|巴丁格|空接|暴扣|首|节结|束|时|火箭|还是|26-30|落后|爵士|队|火箭|坎|比|9分|6个|篮板|球|帕森斯|8分|爵士|哈沃德|12分|
分享到:
相关推荐
Java中MMAnalyzer分词必须导入的两个jar包,这样程序才不会报错。
网上MMAnalyzer资源太少了,大多数初学者都会少导入JAR包,因为网上的贴的代码只有jeasy.analysis.MMAnalyzer,而没有依赖包lucene-core-2.4.1.jar!
包含有依赖包的mmanalyzer文件,导入到java library当中就可以愉快的分词了,快来下载使用吧
Lucene中文分词器中的极易分词组件,包含jeasy.analysis.MMAnalyzer,以及依赖包lucene-core-2.4.1.jar!
jeasy.analysis.MMAnalyzer包,网上资源挺少的,要么就是要很多积分下载,技术嘛,应该免费分享,所以我就不设置积分了,大家可以随意下载。
网上MMAnalyzer资源太少了,别的设置积分太高了。为了两个jar 找好几圈
import java.io.IOException; import jeasy.analysis.MMAnalyzer; public class Segment { public static void main(String[] args) { String text = "据路透社报道,印度尼西亚社会事务部一官员星期二(29日)...
MMAnalyzer analyzer = new MMAnalyzer(); //参数为分词粒度:当字数等于或超过该参数,且能成词,该词就被切分出来 MMAnalyzer analyzer = new MMAnalyzer(2); //字符串切分,常用于客户的关键字输入 ...
网上MMAnalyzer资源太少了,大多数初学者都会少导入JAR包,并且网上只有 je-analysis-MMAnalyzer的例子,而没有依赖包lucene-core-2.4.1.jar je-analysis-1.5.3.jar以及 luncene-heghlighter-2.4.1.jar
lucene-suggest-4.9.0.jarl
介绍业界主流的分词方法,包括语料库分类,情感分析,机器学习分词等
网上MMAnalyzer资源太少了,大多数初学者都会少导入JAR包,因为网上的贴的代码只有jeasy.analysis.MMAnalyzer,而没有依赖包lucene-core-2.4.1.jar!