IK 中文分词 版本 5.0
package com.test;
import java.io.IOException;
import java.io.Reader;
import java.io.StringReader;
import java.util.Arrays;
import java.util.HashMap;
import java.util.LinkedHashMap;
import java.util.LinkedList;
import java.util.List;
import java.util.Map;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import org.wltea.analyzer.core.IKSegmenter;
import org.wltea.analyzer.core.Lexeme;
import com.test.entity.ArticleThesaurus;
public class IkAnalyzerTest {
public static void main(String[] args) {
// String str = "铜管方<a href='http://auto.ifeng.com/' target='_blank'><font color='#004276'>面</font></a>,3月铜管企业开工率为85.54%,4月达88%。据了解,由于3月铜价低迷,铜管企业提前备货,精铜需求提前放量。"
// + "3月铜杆线企业开工率为72.47%,4月上升至76%。开工率上行,"
// + "但前期备货并不充足,导致现货市场集中采购增加,供应紧张凸显。fdsf紫铜铜inf的说法都是紫铜,"
// + "我勒个去黄铜恩恩黄铜哈哈哈黄铜铜,我勒个去白铜,范德萨范德萨发白铜,古代有很多人用青铜器,是的就是这个东西它的名字是一种金属叫青铜。";
//System.out.println("Jane Campion directed \"The Piano\" in 1993.");
String str="由于对经济形势的的担忧,市场一直低迷,各方面消息被吸<a href='http://www.test.cn/quote/'>铜价</a> 收,市场经济困难局面早已被认同," +
"随着各国政策的出台实施及各经济数据的公布,担忧情绪渐缓,沪铝即将迎来谷底反弹的时机。
</p> <p> 操作思路<img src=\"####\" alt=\"锻铜铍铜\" />" +
"15500<a href='http://www.test.cn/product/tjthj_ht/'>黄铜</a>锻铜以下紫铜板多单继续持有,15575以下果断购入多单,止损15250价位," +
"如果突破15750价位并站稳,可继续加仓购入多单。<img src=\"www.baidu.com\" alt=\"范德萨发生的\" />";
Pattern p = Pattern.compile("</?(A|a)(\n|.)*?>");
Matcher m = p.matcher(str);
str = m.replaceAll("");
System.out.println("清除所有a标签:"+str);
System.out.println("分词后:"+ikAnalyzer(str));
String afterFcStr = ikAnalyzer(str); // 分词后的字符串
// 计算词频
Map<String, Integer> words = new HashMap<String, Integer>();
IKSegmenter seg = new IKSegmenter(new StringReader(afterFcStr), true);
try {
Lexeme l = null;
while ((l = seg.next()) != null) {
if (words.containsKey(l.getLexemeText()))
words.put(l.getLexemeText(),
words.get(l.getLexemeText()) + 1);
else
words.put(l.getLexemeText(), 1);
}
} catch (IOException e) {
e.printStackTrace();
}
for (Map.Entry<String, Integer> entry : words.entrySet()) {
System.out.println("key= " + entry.getKey() + " and value= "
+ entry.getValue());
}
Integer count=words.get("铜价");
if(count!=null){
System.out.println("该词频:"+count);
}else{
System.out.println("该词频不存在");
}
//添加文章内链 一篇文章不超过五个内链 多个关键词 只替换一个关键词
List<ArticleThesaurus> listKeyWord = new LinkedList<ArticleThesaurus>();
ArticleThesaurus at1 = new ArticleThesaurus("铜", "http://www.test.cn");
ArticleThesaurus at2 = new ArticleThesaurus("铜价","http://www.test.cn/quote/");
ArticleThesaurus at3 = new ArticleThesaurus("紫铜",
"http://www.test.cn/product/tjthj_ct_zt/");
ArticleThesaurus at4 = new ArticleThesaurus("黄铜",
"http://www.test.cn/product/tjthj_ht/");
ArticleThesaurus at5 = new ArticleThesaurus("白铜",
"http://www.test.cn/product/tjthj_bt/");
ArticleThesaurus at6 = new ArticleThesaurus("青铜",
"http://www.test.cn/product/tjthj_qt/ ");
listKeyWord.add(at1);
listKeyWord.add(at2);
listKeyWord.add(at3);
listKeyWord.add(at4);
listKeyWord.add(at5);
listKeyWord.add(at6);
String newStr ;
newStr = afterFcStr;
String article[] = afterFcStr.split("\\|");
int successcount = 0;
for (int i = 0; i < listKeyWord.size(); i++) {
if (successcount == 5) {
break;
}
String wordname = listKeyWord.get(i).getWord();
Map<String, Integer> map = new LinkedHashMap<String, Integer>(); // 防止重复添加内链
for (int j = 0; j < article.length; j++) {
if (wordname.equals(article[j])) {
if (map.get(wordname)== null) {
map.put(wordname, 1);
Arrays.fill(article, j, j + 1, "<a href='"
+ listKeyWord.get(i).getUrl() + "'>" + wordname
+ "</a>");
successcount++;
}
}
}
}
// for(int i=0;i<listKeyWord.size();i++){
// String wordname=listKeyWord.get(i).getWord();
// Integer count=words.get(wordname);
// if(successcount==5){
// break;
// }
// if(count!=null){
// //System.out.println("该词频:"+count);
// newStr=newStr.replaceFirst(wordname,
// "<a href='"+listKeyWord.get(i).getUrl()+"'>"+wordname+"</a>");
// successcount++;
// }else{
// //System.out.println("该词频不存在");
// }
// }
System.out.println("内链优化后的文章:" + Arrays.toString(article));
StringBuilder StrArticle=new StringBuilder();
for(int i=0;i<article.length;i++){
StrArticle.append(article[i]);
}
//System.out.println("被优化多少个内链:"+successcount);
//System.out.println("内链优化后的文章字符串:" + StrArticle);
String endStr=StrArticle.toString();
if(successcount==0){ //可能分词导致部分关键词没有匹配到 则采用绝对字符匹配
for (int i = 0; i < listKeyWord.size(); i++) {
//判断文章里的超链接数
int acount=occurTimes(endStr,"href=");
if(acount==5){
break;
}
String wordname = listKeyWord.get(i).getWord();
endStr=endStr.replaceFirst(wordname, "<a href='"
+ listKeyWord.get(i).getUrl() + "'>" + wordname
+ "</a>");
}
}
//去除alt标签内的a内链
System.out.println("内链优化后的文章字符串:"+endStr);
Document doc = Jsoup.parseBodyFragment(endStr); // or Jsoup.parse(...);
Elements images = doc.select("img");
List<String> listAltStr=new LinkedList<String>();
for(Element image : images){
// System.out.printf("%s:%s%n", image.attr("src"), image.attr("alt"));
//System.out.println(image.attr("alt"));
String altStr=image.attr("alt");
Pattern p1 = Pattern.compile("</?(A|a)(\n|.)*?>");
Matcher m1 = p.matcher(altStr);
altStr = m1.replaceAll("");
listAltStr.add(altStr);
image.attr("alt", altStr);
//System.out.println(altStr);
}
doc.select("img").listIterator();
System.out.println("end内链优化后的文章字符串:" + doc.select("body").html());
}
/**
* 字符在字符串中出现的次数
*
* @param string
* @param a
* @return
*/
public static int occurTimes(String string, String a) {
int pos = -2;
int n = 0;
while (pos != -1) {
if (pos == -2) {
pos = -1;
}
pos = string.indexOf(a, pos + 1);
if (pos != -1) {
n++;
}
}
return n;
}
public static String ikAnalyzer(String str) {
Reader input = new StringReader(str);
// 智能分词关闭(对分词的精度影响很大)
IKSegmenter iks = new IKSegmenter(input, true);
Lexeme lexeme = null;
StringBuilder sb = new StringBuilder();
try {
while ((lexeme = iks.next()) != null) {
sb.append(lexeme.getLexemeText()).append("|");
}
} catch (IOException e) {
e.printStackTrace();
}
return sb.toString();
}
}
下面提供源码包下载 所用ik没有用到jar包 用到了源码包 方便调试和修改源代码
iteye传不上来
只能让大家去csdn下载了http://download.csdn.net/detail/koproblem/7575521
分享到:
相关推荐
IKAnalyzer 实现分词 词频统计,用Eclipse实现,调用IKanalyzer的类,可以用于IKanalyzer的二次开发
IkAnalyzer3.2的jar包 IK Analyzer 是一个开源的,基于java 语言开发的轻量级的中文分词工具包。从2006 年12 月推出1.0 版开始, IKAnalyzer 已经推出了3 个大版本。最初,它是以开源项目 Luence 为应用主体的,结合...
IKanalyzer 分词小测试例子 IKanalyzer 扩展dic
利用IKAnalyzer分词器来做文章的匹配算法。主要思想是先用IKAnalyzer分词器分析2篇文章,然后把2篇文章的关键字进行比较,如果相同的个数在所有关键字的总数大于某个预设的值,就认为2篇文章是相同的。
IKAnalyzer非常易用的java分词工具。可以自定义扩展词汇。 这个是一个完整的java项目demo。直接可以用,不用再去google下载了。添加了几个自定义词汇,测试好用。 运行ika.java里的main方法即可
IKAnalyzer分词,IKAnalyzer分词
solr配置ikanalyzer分词文件以使用说明
IKAnalyzer分词工具,包括lucene库和百度百科词条。
IKAnalyzer 2012_u6 jar包 IKAnalyzer.cfg.xml IKAnalyzer中文分词器V2012_U5使用手册.pdf
IKAnalyzer中文分词,计算句子相似度
IKAnalyzer分词器版本 2012 兼容Lucene3.3以上版本 对solr1.4提供接口实现 使用IK分词器,应为该集群使用到的solr版本为4.10.3-cdh5.7.5,所以使用的 IK 包为IKAnalyzer2012FF_u1.jar,如果是3x的solr,使用IK...
网上有很多关于IKAnalyzer分词器的jar,但当我们使用solr 6.x进行配置的时候,就发现会各种各样的报错,最常出现的问题就是抽象方法错误,其实就是因为我们使用的IKAnalyzer版本和solr版本不匹配导致系统无法根据...
ik-analyzer.jar的类库和schema.xml配置
IKAnalyzer 分词源码,有案例,支持jdk1.6
IKAnalyzer中文分词器,里面包含jar包和使用手册
IK-Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包,也就是可以将一串中文字符分割成一个个的词组或者字词 ...文件中包含分词工具 ikanalyzer-2012_u6.jar 中文分词配置 IKAnalyzer.cfg..xml
中文分词 IK Analyzer 源码
IKAnalyzer继承Lucene的Analyzer抽象类,使用IKAnalyzer和Lucene自带的分析器方法一样,将Analyzer测试代码改为IKAnalyzer测试中文分词效果。 如果使用中文分词器ik-analyzer,就需要在索引和搜索程序中使用一致的...
IKAnalyzer 分词器支持中文分词多元分词