lucene3 使用正则表达式查询索引主要使用RegexQuery类,这个类属于第三方jar包,需要下载。
要使用第三放的包,就是jakata-regexp-x.jar,下载地址:http://jakarta.apache.org/site/downloads/downloads_regexp.cgi
运行例子:
// 利用正则查询
String regex = ".*";
Term term = new Term(search_field_name, regex);
RegexQuery query = new RegexQuery(term);
TopDocs hits = searcher.search(query, 100);
for (int i = 0; i < hits.scoreDocs.length; i++) {
int docId = hits.scoreDocs[i].doc;
Document hit = searcher.doc(docId);
String text = hit.get(search_field_name);
}
注意:
1.需要将lucene解压包中contrib\regex\src\java\org\apache\regexp目录下的所有文件和
contrib\regex\src\java\org\apache\lucene\search\regex目录下的所有文件放入工程内(在lucene3.0中是以jar包的形式存在)
分享到:
相关推荐
一般的采集程序都要求使用者了解正则表达式? 正则表达式定制规则存在几点问题。一是正则表达式对普通用户而言门槛太高。二是正则表达式的规则太难维护,源网站只要有一点点的变更,可能导致模板要重新更换。 我们...
正则表达式 lucene索引合并 探查Weblogic JDBC Multipool 问题 struts通用Exception处理 Grails中默认数据库HSQLDB点滴 从request获取各种路径总结 DIV实现的表格自动伸张与收缩 java 邮件...
文本分析 西北 MSIA 文本分析 作业 1 - 正则表达式 在本作业中,您将编写一个程序,该程序将一个纯文本文件作为输入,并打印输入文件... (您可以为此使用正则表达式)。 • 将每个块作为单独的文档索引到您的索引中。
使用正则表达式解析网页文件 使用HTMLParser解析网页文件 安装:直接在Eclipse中选取“import->Existing Project” Eclipse工程/heritrixProject:原书第十章的工程文件 在Eclipse配置完成的Heritrix源代码 ...
使用正则表达式解析网页文件 使用HTMLParser解析网页文件 安装:直接在Eclipse中选取“import->Existing Project” Eclipse工程/heritrixProject:原书第十章的工程文件 在Eclipse配置完成的Heritrix源代码 ...
一共有2份资料 1> lucene学习笔记 2> 全文检索的实现机制 【1】lucene学习笔记的目录如下 1. 概述 3 ...9.12. RegexQuery—正则表达式的查询 22 10. 评分机制 23 10.1. 概述 23 11. Lucene的索引“锁” 23
这一部分使用正则表达式从en1.txt中提取出每一篇文章的题录并分别保存在各个文件中,保存位置在中,据说这个数量小于500,这是因为作者替换了四个元数据作为题录,分别是作者,书名,期刊,只有全部四个元数据项的...
使用正则表达式解析网页文件 使用HTMLParser解析网页文件 安装:直接在Eclipse中选取“import->Existing Project” Eclipse工程/heritrixProject:原书第十章的工程文件 在Eclipse配置完成的Heritrix源代码 ...
search ) (JNI) 核心技术第2卷> (JNI)正则表达式 2.总体设计 2.1需求规定 2.1.1系统功能 本系统功能定位为为用户提供网页搜索功能,通过简单的提交关键字,实现页面检索 2.1.2系统性能 索引时间 检索时间 不同...
04-正则表达式(共13页) 05-HtmlAgilityPack(共17页) 06-正文提取(共12页) 07-提取文件(共14页) 08-文本排重(共28页) 09-提取关键词(共16页) 10-拼写检查(共41页) 11-文本摘要(共15页) 12-文本分类...
常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...
使用C sharp开发搜索引擎 C#搜索引擎开发实战 04-正则表达式(共13页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 05-HtmlAgilityPack(共17页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 06-正文...
使用C sharp开发搜索引擎 C#搜索引擎开发实战 04-正则表达式(共13页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 05-HtmlAgilityPack(共17页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 06-正文...
使用C sharp开发搜索引擎 C#搜索引擎开发实战 04-正则表达式(共13页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 05-HtmlAgilityPack(共17页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 06-正文...
使用C sharp开发搜索引擎 C#搜索引擎开发实战 04-正则表达式(共13页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 05-HtmlAgilityPack(共17页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 06-正文...
常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...
信息检索的Java示例,涵盖了诸如Lucene之类的主题,例如索引,搜索,排名,信息提取,正则表达式或爬网。 它为学习信息检索提供支持。
<br> 扩展功能 1 为jive3.x写ColorFilter 2 Jive中的分页处理 3 Jive中Jdom使用剖析 4 丰富的图释 5 使用正则表达式让你的jive显示图片 6 Jive3增加帖子的点击功能的高效...
2 Jive中的分页处理 3 Jive中Jdom使用剖析 4 丰富的图释 5 使用正则表达式让你的jive显示图片 6 Jive3增加帖子的点击功能的高效方法 <br> 国际化支持 1 jive_forums_i18n_zh_...
26.修改新浪视频分享的正则表达式,需要手动修改配置文件,补丁包中有说明 SpaceBuilder/Share.Web/SiteHtmlParsers/SinaHtmlParser.cs 27.修改了点击站点分享页面点击分享视频地址链接连接到站内分享视频的详细...