lunece 用的高亮类

edwardpro

浏览: 301269 次
性别:

最近访客更多访客>>

fxstiandi

snai_user

1040979038

lost-java

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

技术私语

Java log4j Apache

网上有很多高亮的类，但我觉得太负责了（也许他们觉得这样性能更高），我写了一个很简单采用je分词+正则解决高亮问题，实际使用下来还是不错的：

java 代码

import java.util.Iterator;
import java.util.List;
/**
* @author edwardpro
*
*/
public class HighlightProcess {
/**
*
*/
private String str;
private String key;
private static final String HIGH_LIGHT = ";
public HighlightProcess(String str, String key) {
// TODO Auto-generated constructor stub
this.str = str;
this.key = key;
}
/**
* @return the str
*/
public String getStr() {
return str;
}
/**
* @param str
* the str to set
*/
public void setStr(String str) {
this.str = str;
}
public String getResult() {
List list = WordsManager.splitStrToList(key);
for (Iterator it = list.iterator(); it.hasNext();) {
String target = (String) it.next();
this.str = RegxTools.regxReplace(this.str, target, HIGH_LIGHT);
}
return this.str;
}
}

分词这边使用了一个工厂方法，用来装载词库的，返回的是JE分词对象：

java 代码

import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;
import java.util.StringTokenizer;
import jeasy.analysis.MMAnalyzer;
import org.apache.log4j.Logger;
public class WordsManager {
private static final Logger logger = Logger.getLogger(WordsManager.class);
private static MMAnalyzer mmanalyzer;
private static final String DEF_SPT = "<>";
static {
init();
}
private static void init() {
reload();
mmanalyzer = new MMAnalyzer();
}
public static void reload() {
if (AppInit.getScb().getExtDic() != null
&& !AppInit.getScb().getExtDic().equalsIgnoreCase("")) {
File dir = new File(AppInit.getScb().getExtDic());
File[] dics = dir.listFiles();
// add dict file
for (int i = 0; i < dics.length; i++) {
try {
MMAnalyzer.addDictionary(new FileReader(dics[i]));
} catch (FileNotFoundException e) {
// TODO Auto-generated catch block
logger.error("Read File Error", e);
}
}
}
}
/**
* @return the mmanalyzer
*/
public static MMAnalyzer getMmanalyzer() {
return mmanalyzer;
}
/**
* @param mmanalyzer
* the mmanalyzer to set
*/
public static void setMmanalyzer(MMAnalyzer mmanalyzer) {
WordsManager.mmanalyzer = mmanalyzer;
}
public static String[] splitStrToArray(String source) {
try {
String target = mmanalyzer.segment(source, DEF_SPT);
String[] ts = target.split(DEF_SPT);
return ts;
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
return null;
}
public static List splitStrToList(String source) {
List ret = new ArrayList();
try {
String target = mmanalyzer.segment(source, DEF_SPT);
StringTokenizer st = new StringTokenizer(target, DEF_SPT);
for (; st.hasMoreTokens();) {
ret.add(st.nextToken());
}
} catch (IOException e) {
// TODO Auto-generated catch block
logger.error("segment error", e);
}
return ret;
}
public static void removeTag(String content) {
MMAnalyzer.removeWord(content);
}
}

正则方法：

java 代码

String reg="$1";

java 代码

public static String regxReplace(String str, String key, String rep) {
Pattern p = Pattern.compile("(" + key + ")", Pattern.CASE_INSENSITIVE);
Matcher m = p.matcher(str);
return m.replaceAll(rep);
}

原理很简单，利用分词分开，然后用这则一个个匹配掉目标中的关键字，由于实际中大部分都是替换标题和200字的描述所以并没有使用流方法，下次有时间改用流或者stringbuffer或者其他更接近分词的方法来做下看看，有什么问题，欢迎大家拍砖

public HighlightProcess(String str, String key) {
// TODO Auto-generated constructor stub
this.str = str;
this.key = key;
}
/**
* @return the str
*/
public String getStr() {
return str;
}
/**
* @param str
* the str to set
*/
public void setStr(String str) {
this.str = str;
}
public String getResult() {
List list = WordsManager.splitStrToList(key);
for (Iterator it = list.iterator(); it.hasNext();) {
String target = (String) it.next();
this.str = RegxTools.regxReplace(this.str, target, HIGH_LIGHT);
}
return this.str;
}
}

分词这边使用了一个工厂方法，用来装载词库的，返回的是JE分词对象：

java 代码

import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;
import java.util.StringTokenizer;
import jeasy.analysis.MMAnalyzer;
import org.apache.log4j.Logger;
public class WordsManager {
private static final Logger logger = Logger.getLogger(WordsManager.class);
private static MMAnalyzer mmanalyzer;
private static final String DEF_SPT = "<>";
static {
init();
}
private static void init() {
reload();
mmanalyzer = new MMAnalyzer();
}
public static void reload() {
if (AppInit.getScb().getExtDic() != null
&& !AppInit.getScb().getExtDic().equalsIgnoreCase("")) {
File dir = new File(AppInit.getScb().getExtDic());
File[] dics = dir.listFiles();
// add dict file
for (int i = 0; i < dics.length; i++) {
try {
MMAnalyzer.addDictionary(new FileReader(dics[i]));
} catch (FileNotFoundException e) {
// TODO Auto-generated catch block
logger.error("Read File Error", e);
}
}
}
}
/**
* @return the mmanalyzer
*/
public static MMAnalyzer getMmanalyzer() {
return mmanalyzer;
}
/**
* @param mmanalyzer
* the mmanalyzer to set
*/
public static void setMmanalyzer(MMAnalyzer mmanalyzer) {
WordsManager.mmanalyzer = mmanalyzer;
}
public static String[] splitStrToArray(String source) {
try {
String target = mmanalyzer.segment(source, DEF_SPT);
String[] ts = target.split(DEF_SPT);
return ts;
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
return null;
}
public static List splitStrToList(String source) {
List ret = new ArrayList();
try {
String target = mmanalyzer.segment(source, DEF_SPT);
StringTokenizer st = new StringTokenizer(target, DEF_SPT);
for (; st.hasMoreTokens();) {
ret.add(st.nextToken());
}
} catch (IOException e) {
// TODO Auto-generated catch block
logger.error("segment error", e);
}
return ret;
}
public static void removeTag(String content) {
MMAnalyzer.removeWord(content);
}
}

正则方法：

java 代码

String reg="$1";

java 代码

public static String regxReplace(String str, String key, String rep) {
Pattern p = Pattern.compile("(" + key + ")", Pattern.CASE_INSENSITIVE);
Matcher m = p.matcher(str);
return m.replaceAll(rep);
}

分享到：

自己写的lucene的高亮类 | 从手机没带想到的

2007-08-10 10:12
浏览 1366
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

lunece 用的高亮类

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

lunece 用的高亮类

评论

发表评论

相关推荐

Thread In Ruby

thrift-1-2-3

lexer html解析一个js过滤的改进

在linux下删除大文件的好方法

thrift 在ubuntu 11.04下的编译过程一两点心得

StringBuilder和String中的subString方法的细微差别

用枚举来作为配置

装箱操作需注意

在JTIDY中对于inline标签的这行问题

JAVA7的不兼容表现

用SPRING AOP实现主动缓存

gson使用感受

数据对象化的思考

用json作为配置存储介质的讨论

JAVA学习笔记之泛型接口

lucene中的filter器群组及其缓存大盘点

lucene的前端集群思路

自己写的lucene的高亮类

使用form dom要注意的小问题

ubuntu 7.04 下配置 ruby环境

最近访客更多访客>>