- 浏览: 115858 次
- 性别:
- 来自: 广州
文章分类
- 全部博客 (63)
- struts (7)
- spring (12)
- Hibernate (14)
- struts+spring+hibernate (11)
- Ajax (1)
- DWR (0)
- JSON (0)
- Junit (0)
- Lucene (15)
- Compass (0)
- Tomcat(Jsp) (0)
- MySql (0)
- JavaScript (0)
- Html (0)
- UML (0)
- Log4j (0)
- Ant (0)
- Acegi (0)
- (My)eclipse (0)
- java2 (0)
- Jakarta Commons (0)
- java Web (0)
- Ruby (0)
- Ruby On Rails (0)
- IBatis (0)
- 版本控制 (0)
- eXtremeComponents (0)
- SiteMesh (0)
- IT相关 (0)
- 电子商务 (0)
- 随笔 (0)
- 正则表达式 (0)
- 测试资料 (0)
- 个人收藏 (0)
- 开发经验 (0)
- 名词解释(java,j2ee) (1)
- 英语 (0)
- java规则引擎 (0)
- CMS系统 (0)
- XML操作 (0)
- jvm (0)
- 开源工具收集 (0)
- webService (2)
最新评论
-
锦毛鼠:
请问下您现在有没有这个demo啊?可以发我看看吗?
cxf webservice身份验证 -
z276356445t:
LZ,你写的类文件怎么和配置文件中的不一样呢,求解.
spring 定时器 -
j2eeli:
感谢共享!
spring 定时器 -
gimy:
写的很清楚,谢谢!
Spring-MultiActionController -
valgrind:
Exception in thread "main& ...
Lucene中文分词组件 JE-Analysis 1.4.0
关键字:lucene,html parser,全文检索,IndexReader,Document,Field,IndexWriter,Term,HTMLPAGE
Lucene是一个全文检索的引擎,目前有Java和.Net 等几个版本.Java版本的网址是http://lucene.apache.org.相关的一个项目是车东的WebLucene: http://sourceforge.net/projects/weblucene.
首先,基于一个简单的新闻系统,要想做全文检索.新闻系统的管理等在这里不在具体提出,下面列出新闻对象的类:
注:程序用会到一些工具类,不在此列出,用户可以自己实现.
package com.jscud.website.newsinfo.bean; import java.sql.Timestamp; import com.jscud.util.DateTime; import com.jscud.util.StringFunc; import com.jscud.website.newsinfo.NewsConst; /** * 一个新闻. * * @author scud(飞云小侠) http://www.jscud.com * */ public class NewsItem { private int nid; //新闻编号 private int cid; //类别编号 private String title;//标题 private int showtype; //内容类型:目前支持url和html private String content;//内容 private String url;//对应网址,如果内容类型是url的话 private Timestamp addtime; //增加时间 private int click; //点击数 //对应的get,set函数,较多不在列出,可以使用工具生成 //...... /** * 按照类型格式化 */ public String getShowContent() { String sRes = content; if(showtype == NewsConst.ShowType_HTML) { } return sRes; } public String getTarget() { if(showtype == NewsConst.ShowType_URL) { return "_blank"; } else return ""; } /** * 静态Html文件的路径及其名字 */ public String getHtmlFileName() { int nYear = DateTime.getYear_Date(getAddtime()); int nMonth = DateTime.getMonth_Date(getAddtime()); String sGeneFileName = "/news/" + getCid() + "/" + nYear + "/" + nMonth +"/" + getNid() + ".htm"; return sGeneFileName; } /** * 静态Html文件的路径 */ public String getHtmlFilePath() { int nYear = DateTime.getYear_Date(getAddtime()); int nMonth = DateTime.getMonth_Date(getAddtime()); String sGeneFilePath = getCid() + "_" + nYear + "_" + nMonth; return sGeneFilePath; } } |
可以看到,我们需要对标题和内容进行检索,为了这个目的,我们首先需要来研究一下lucene.
在Lucene中,如果要进行全文检索,必须要先建立索引然后才能进行检索,当然实际工作中还会有删除索引和更新索引的工作.
在此之前,介绍一个最基本的类(摘抄自http://www.blogjava.net/cap/archive/2005/07/17/7849.html):
Analyzer 文件的分析器(听起来别扭,还是叫Analyzer好了)的抽象,这个类用来处理分词(对中文尤其重要,转换大小写(Computer->computer,实现查询大小写无关),转换词根(computers->computer),消除stop words等,还负责把其他格式文档转换为纯文本等.
在lucene中,一般会使用StandardAnalyzer来分析内容,它支持中文等多字节语言,当然可以自己实现特殊的解析器.StandardAnalyzer目前对中文的处理是按照单字来处理的,这是最简单的办法,但是也有缺点,会组合出一些没有意义的结果来.
首先我们来了解建立索引,建立索引包含2种情况,一种是给一条新闻建立索引,另外的情况是在开始或者一定的时间给批量的新闻建立索引,所以为了通用,我们写一个通用的建立索引的函数:
(一般一类的索引都放在一个目录下,这个配置可以在函数中定义,也可以写在配置文件中,通过参数传递给函数.)
/** * 生成索引. * * @param doc 目标文档 * @param indexDir 索引目录 */ public static void makeIndex(Document doc, String indexDir) { List aList = new ArrayList(); aList.add(doc); makeIndex(aList, indexDir); } /** * 生成索引. * * @param doc 生成的document. * @param indexDir 索引目录 */ public static void makeIndex(List docs, String indexDir) { if (null == docs) { return; } boolean indexExist = indexExist(indexDir); IndexWriter writer = null; //添加一条文档 |
}
}
//索引完成后的处理
writer.optimize();
}
catch (IOException e)
{
LogMan.warn("Error in Make Index", e);
}
finally
{
try
{
if (null != writer)
{
writer.close();
}
}
catch (IOException e)
{
LogMan.warn("Close writer Error");
}
}
}
可以看到,建立索引用到类是IndexWrite,它可以新建索引或者追加索引,但是需要自己判断.判断是通过IndexReader这个类来实现的,函数如下:
/** * 检查索引是否存在. * @param indexDir * @return */ public static boolean indexExist(String indexDir) { return IndexReader.indexExists(indexDir); } |
如果每次都是新建索引的话,会把原来的记录删除,我在使用的时候一开始就没有注意到,后来观察了一下索引文件,才发现这个问题.
还可以看到,建立索引是给用户的Document对象建立索引,Document表示索引中的一条文档记录.那么我们如何建立一个文档那?以新闻系统为例,代码如下:
/** * 生成新闻的Document. * * @param aNews 一条新闻. * * @return lucene的文档对象 */ public static Document makeNewsSearchDocument(NewsItem aNews) { Document doc = new Document(); doc.add(Field.Keyword("nid", String.valueOf(aNews.getNid()))); doc.add(Field.Text("title", aNews.getTitle())); //对Html进行解析,如果不是html,则不需要解析.或者根据格式调用自己的解析方法 String content = parseHtmlContent(aNews.getContent()); doc.add(Field.UnStored("content", content)); doc.add(Field.Keyword("addtime", aNews.getAddtime())); //可以加入其他的内容:例如新闻的评论等 doc.add(Field.UnStored("other", "")); //访问url String newsUrl = "/srun/news/viewhtml/" + aNews.getHtmlFilePath() + "/" + aNews.getNid() + ".htm"; doc.add(Field.UnIndexed("visiturl", newsUrl)); return doc; } |
通过上面的代码,我们把一条新闻转换为lucene的Document对象,从而进行索引工作.在上面的代码中,我们又引入了lucene中的Field(字段)类.Document文档就像数据库中的一条记录,它有很多字段,每个字段是一个Field对象.
从别的文章摘抄一段关于Field的说明(摘抄自http://www.blogjava.net/cap/archive/2005/07/17/7849.html):
[quote]
类型 Analyzed Indexed Stored 说明
Field.Keyword(String,String/Date) N Y Y 这个Field用来储存会直接用来检索的比如(编号,姓名,日期等)
Field.UnIndexed(String,String) N N Y 不会用来检索的信息,但是检索后需要显示的,比如,硬件序列号,文档的url地址
Field.UnStored(String,String) Y Y N 大段文本内容,会用来检索,但是检索后不需要从index中取内容,可以根据url去load真实的内容
Field.Text(String,String) Y Y Y 检索,获取都需要的内容,直接放index中,不过这样会增大index
Field.Text(String,Reader) Y Y N 如果是一个Reader, lucene猜测内容比较多,会采用Unstored的策略.
[/quote]
我们可以看到新闻的编号是直接用来检索的,所以是Keyword类型的字段,新闻的标题是需要检索和显示用的,所以是Text类型,而新闻的内容因为是Html格式的,所以在经过解析器的处理用,使用的UnStored的格式,而新闻的时间是直接用来检索的,所以是KeyWord类型.为了在新闻索引后用户可以访问到完整的新闻页面,还设置了一个UnIndexed类型的访问地址字段.
(对Html进行解析的处理稍后在进行讲解)
为一条新闻建立索引需要两个步骤:获取Document,传给makeIndex函数,代码如下:
public static void makeNewsInfoIndex(NewsItem aNews) { if (null == aNews) { return; } makeIndex(makeNewsSearchDocument(aNews),indexDir); } |
建立索引的工作就进行完了,只要在增加新闻后调用 makeNewsInfoIndex(newsitem); 就可以建立索引了.
如果需要删除新闻,那么也要删除对应的索引,删除索引是通过IndexReader类来完成的:
/** * 删除索引. * @param aTerm 索引删除条件 * @param indexDir 索引目录 */ public static void deleteIndex(Term aTerm, String indexDir) { List aList = new ArrayList(); aList.add(aTerm); deleteIndex(aList, indexDir); } /** IndexReader reader = null; |
删除索引需要一个条件,类似数据库中的字段条件,例如删除一条新闻的代码如下:
public static void deleteNewsInfoIndex(int nid) { Term aTerm = new Term("nid", String.valueOf(nid)); deleteIndex(aTerm,indexDir); } |
通过新闻的ID,就可以删除一条新闻.
如果需要更新新闻,如何更新索引哪? 更新索引需要先删除索引然后新建索引2个步骤,其实就是把上面的代码组合起来,例如更新一条新闻:
public static void updateNewsInfoIndex(NewsItem aNews) { if (null == aNews) { return; } deleteNewsInfoIndex(aNews.getNid()); makeNewsInfoIndex(aNews); } |
至此,索引的建立更新和删除就告一段落了.其中批量更新新闻的代码如下:
(批量更新应该在访问人数少或者后台程序在夜间执行)
public static void makeAllNewsInfoIndex(List newsList) { List terms = new ArrayList(); List docs = new ArrayList(); for (int i = 0; i < newsList.size(); i++) deleteIndex(terms,indexDir); |
发表评论
-
lucene学习笔记 3
2007-09-27 18:05 1627搜索 Lucene搜索的api的类主要有4个 IndexSe ... -
lucene学习笔记 2
2007-09-27 18:04 1646Boosting特性 luncene对Document和Fi ... -
lucene学习笔记 1
2007-09-27 18:04 1191Doug Cutting 于2000年开始的项目 2001年9 ... -
使用Lucene进行全文检索---进行搜索
2007-09-27 18:03 1412无论是建立索引还是分析内容,都是为了用户的搜索服务. 在 ... -
使用Lucene进行全文检索---得到有效的内容
2007-09-27 18:02 1296在使用lucene对相关内容进行索引时,会遇到各种格式的内 ... -
lucene-2.0.0的基本应用
2007-09-27 18:00 1265首先肯定是建立索引了啊 public void creatI ... -
Lucene-2.0学习文档
2007-09-27 17:58 1153Lucene-2.0学习文档 Lucene是apache组织的 ... -
lucene搜索引擎技术的分析与整理
2007-09-27 17:56 25604. Lucene文档结构 Lucene ... -
实战 Lucene
2007-09-27 17:56 938文首先介绍了Lucene的一些基本概念,然后开发了一个应用程序 ... -
Lucene 中文分词的 highlight 显示
2007-09-27 17:55 14801 、问题的来源 增加分词以后结果的准确度提高了,但是用户 ... -
深入 Lucene 索引机制
2007-09-27 17:52 1099架构概览 图一显示了 Lucene 的索引机制的架构。Luce ... -
几个免费的中文分词模块
2007-09-27 17:50 4913一、什么是中文分词 众 ... -
Lucene站点推荐
2007-09-27 17:48 1307地址:http://www.lucene.com 简介:R ... -
Lucene中文分词组件 JE-Analysis 1.4.0
2007-09-27 17:45 5115本站申明 ...
相关推荐
lukeall.jar---双击,然后选择索引文件的位置,就可以看见...IncrementIndex 是对数据库表里数据进行创建索引、添加增量索引 TeacherIndex 是采用ssh框架的模式对数据库里面的表创建索引、添加增量索引、检索文件操作
本案例通过.Net MVC4基础上,针对Lucene.Net实现全文检索的应用。通过查询数据表中数据,创建索引,通过统一输入框进行全文检索。可以进行对索引的增删改查功能。
基于lucene 2.4简单的一个索引和搜索实例
基于struts2的全文检索系统,实现了文件上传和下载,并实现对上传的文件进行检索。
基于Java的全文索引引擎.doc lucene测试代码.txt lucene为数据库搜索建立增量索引.txt lucene数据库索引.txt 新闻系统全文检索的思绪.txt lucene学习笔记 1 .txt lucene学习笔记 2.txt lucene学习笔记 3 .txt...
Lucene 是为文本类型的数据建立索引的,所以只要能把需要索引的数据格式转化的文本的,Lucene 就能对文档进行索引和搜索。比如HTML、PDF,都可以转换文本再交给Lucene进行索引。
快速有效地索引企业累积的大量的信息资源,是提供高质量检索服务的基础。Lucene 是一个用Java 写的全文索 引引擎工具包,访问索引时间快,支持多用户...Lucene 的索引文件格式,实现了一个基于Lucene 文档检索的应用实例。
Lucene.net是Lucene的.net移植版本,是一个开源的全文检索引擎开发包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎。开发人员可以基于Lucene.net实现全文检索的...
此资源配合《android+lucene实现全文检索并高亮关键字》使用http://download.csdn.net/detail/reality_jie/6335113
OSChina开源社区做的基于Lucene的全文检索的框架,相当于一个全文检索工具,包括索引的创建、更新、搜索,及其他工具类。
Lucene是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会支持和提供。Lucene提供了一个简单却强大的应用程式接口,能够做全文索引和搜寻。在Java开发环境里Lucene是一个成熟的免费开源工具。就其本身而言,...
建立一个高效检索系统的关键是建立一个类似于科技索引一样的反向索引机制,将数据源(比如多篇文章)排序顺序存储的同时,有另外一个排好序的关键词列表,用于存储关键词==>文章映射关系,利用这样的映射关系索引:...
资源全免费,我的博客有相关的说明,这个是一个eclipse项目,是一个使用lucene全文检索word2007的例子,可以直接运行,但是需要在数据目录下放入word文件 才能创建索引.
这是lucene的使用案例,实现了对word文档中的关键字检索,并将检索出的内容高亮打印出来
本文主要是研究了全文检索技术的基本原理以及Lucene的架构和工作原理,并介绍了基于Lucene的实时全文检索引擎的设计实现过程。并提供了一个基于Web的简单实现。最后通过实验的方式,对实现的实时全文检索引擎的性能...
Lucene是一个基于Java的全文索引工具包。 基于Java的全文索引引擎Lucene简介:关于作者和Lucene的历史 全文检索的实现:Luene全文索引和数据库索引的比较 中文切分词机制简介:基于词库和自动切分词算法的比较 具体...
Lucene是apache软件基金会项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。Lucene...
apache软件基金会的网站使用了Lucene作为全文检索的引擎,IBM的开源软件eclipse[9]的2.1版本中也采用了Lucene作为帮助子系统的全文索引引擎,相应的IBM的商业软件Web Sphere[10]中也采用了Lucene。Lucene以其开放源...
Lucene创建索引,查询索引的简单使用。
全文检索Lucene,书中详细介绍了Lucene的使用方法,和用lucene创建索引的demo,还介绍了检索框架Compass的使用,供大家学习参考!