自己写的lucene的高亮类

edwardpro

浏览: 301222 次
性别:

最近访客更多访客>>

fxstiandi

snai_user

1040979038

lost-java

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

技术私语

lucene Flash Java log4j Apache

网上有很多高亮的类，但我觉得太负责了（也许他们觉得这样性能更高），我写了一个很简单采用je分词+正则解决高亮问题，实际使用下来还是不错的：

java 代码

import java.util.Iterator;
import java.util.List;
/**
* @author edwardpro
*
*/
public class HighlightProcess {
/**
*
*/
private String str;
private String key;
private static final String HIGH_LIGHT = "<span class=\"red\">$1</span>";
public HighlightProcess(String str, String key) {
// TODO Auto-generated constructor stub
this.str = str;
this.key = key;
}
/**
* @return the str
*/
public String getStr() {
return str;
}
/**
* @param str
* the str to set
*/
public void setStr(String str) {
this.str = str;
}
public String getResult() {
List<String> list = WordsManager.splitStrToList(key);
for (Iterator it = list.iterator(); it.hasNext();) {
String target = (String) it.next();
this.str = RegxTools.regxReplace(this.str, target, HIGH_LIGHT);
}
return this.str;
}
}

分词这边使用了一个工厂方法，用来装载词库的，返回的是JE分词对象：

java 代码

import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;
import java.util.StringTokenizer;
import jeasy.analysis.MMAnalyzer;
import org.apache.log4j.Logger;
public class WordsManager {
private static final Logger logger = Logger.getLogger(WordsManager.class);
private static MMAnalyzer mmanalyzer;
private static final String DEF_SPT = "<>";
static {
init();
}
private static void init() {
reload();
mmanalyzer = new MMAnalyzer();
}
public static void reload() {
if (AppInit.getScb().getExtDic() != null
&& !AppInit.getScb().getExtDic().equalsIgnoreCase("")) {
File dir = new File(AppInit.getScb().getExtDic());
File[] dics = dir.listFiles();
// add dict file
for (int i = 0; i < dics.length; i++) {
try {
MMAnalyzer.addDictionary(new FileReader(dics[i]));
} catch (FileNotFoundException e) {
// TODO Auto-generated catch block
logger.error("Read File Error", e);
}
}
}
}
/**
* @return the mmanalyzer
*/
public static MMAnalyzer getMmanalyzer() {
return mmanalyzer;
}
/**
* @param mmanalyzer
* the mmanalyzer to set
*/
public static void setMmanalyzer(MMAnalyzer mmanalyzer) {
WordsManager.mmanalyzer = mmanalyzer;
}
public static String[] splitStrToArray(String source) {
try {
String target = mmanalyzer.segment(source, DEF_SPT);
String[] ts = target.split(DEF_SPT);
return ts;
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
return null;
}
public static List<String> splitStrToList(String source) {
List<String> ret = new ArrayList<String>();
try {
String target = mmanalyzer.segment(source, DEF_SPT);
StringTokenizer st = new StringTokenizer(target, DEF_SPT);
for (; st.hasMoreTokens();) {
ret.add(st.nextToken());
}
} catch (IOException e) {
// TODO Auto-generated catch block
logger.error("segment error", e);
}
return ret;
}
public static void removeTag(String content) {
MMAnalyzer.removeWord(content);
}
}

正则方法：

java 代码

String reg="<span class='red'>$1</span>";

java 代码

public static String regxReplace(String str, String key, String rep) {
Pattern p = Pattern.compile("(" + key + ")", Pattern.CASE_INSENSITIVE);
Matcher m = p.matcher(str);
return m.replaceAll(rep);
}

原理很简单，利用分词分开，然后用这则一个个匹配掉目标中的关键字，由于实际中大部分都是替换标题和200字的描述所以并没有使用流方法，下次有时间改用流或者stringbuffer或者其他更接近分词的方法来做下看看，有什么问题，欢迎大家拍砖

分享到：

看士兵突击有感 | lunece 用的高亮类

2007-08-10 16:03
浏览 2093
评论(1)
查看更多

1 楼 gw_noah 2008-01-08

[/u][/color][color=orange][/color][color=red][color=greens][/color]

[u]

引用

[b][/b][i][/i]

[img][/img][url][/url][align=left][/align][size=xx-small][/size]

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

自己写的lucene的高亮类

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

自己写的lucene的高亮类

评论

发表评论

相关推荐

Thread In Ruby

thrift-1-2-3

lexer html解析一个js过滤的改进

在linux下删除大文件的好方法

thrift 在ubuntu 11.04下的编译过程一两点心得

StringBuilder和String中的subString方法的细微差别

用枚举来作为配置

装箱操作需注意

在JTIDY中对于inline标签的这行问题

JAVA7的不兼容表现

用SPRING AOP实现主动缓存

gson使用感受

数据对象化的思考

用json作为配置存储介质的讨论

JAVA学习笔记之泛型接口

lucene中的filter器群组及其缓存大盘点

lucene的前端集群思路

lunece 用的高亮类

使用form dom要注意的小问题

ubuntu 7.04 下配置 ruby环境

最近访客更多访客>>