solr是一个可扩展的服务,我们可以添加自己的包和类,在solr已经实现的default处理逻辑之上,再添加我们自己的搜索逻辑。实现手段就是继承solr的基础类,重写或者改写新的Filter,Search Component以及Request Handler类,来取代solr默认的处理类或者与之并存。我也是读了源码,参考了默认类的实现过程,才找到了定制的方法,下面一一说明。
Request Handler
solrconfig.xml里,对/select设置的默认处理类是solr.SearchHandler
<requestHandler name="/select" class="solr.SearchHandler"> <lst name="defaults"> <str name="echoParams">explicit</str> <int name="rows">10</int> <str name="df">usergoods_mix</str> </lst> </requestHandler>
源码中,SearchHandler类在org.apache.solr.handler.component包下,继承了RequestHandlerBase类,他最主要的逻辑在handleRequestBody函数中,
@Override public void handleRequestBody(SolrQueryRequest req, SolrQueryResponse rsp) throws Exception, ParseException, InstantiationException, IllegalAccessException {}
SearchHandler还有一个主要的成员变量
protected List<SearchComponent> components = null;
SearchHandler主要职责是借助solrconfig.xml配置文件里设置的默认或者新增的requestHandler参数以及search component类,构建一个ResponseBuilder
ResponseBuilder rb = new ResponseBuilder(req, rsp, components);
根据配置把各个search component该做的事都分配好,search component是真正读取处理SolrQueryRequest内的查询参数,往SolrQueryResponse里填写数据的地方。下面会再介绍search component的两个prepare()和process()函数。
定制Request Handler
默认的request handler直接得到你http里url带来的传参,然后就开始根据配置分发任务,让各自的component去处理查询请求了。定制request handler的好处是,在这个步骤之中,你可以再额外进行一些别的逻辑处理,比如你可以写写log,在得到SolrQueryRequest后,传入前查看处理一下里面的query,对SolrQueryResponse里得到的数据集再做些处理等等。定制方式是自己继承StandardRequestHandler类(该类继承了SearchHandler),
package myplugin.handler; import org.apache.solr.handler.StandardRequestHandler; import org.apache.solr.request.SolrQueryRequest; import org.apache.solr.response.SolrQueryResponse; public class MySearchHandler extends StandardRequestHandler { public void handleRequestBody(SolrQueryRequest request, SolrQueryResponse response) throws Exception { super.handleRequestBody(request, response); //TODO: whatever you want } }
并在solrconfig.xml里配置即可起效。
<requestHandler name="/test" class="myplugin.handler.MySearchHandler"> <lst name="defaults"> <str name="echoParams">explicit</str> <int name="rows">10</int> <str name="df">usergoods_mix</str> </lst> </requestHandler>
别忘了把自己的jar包放到webapp/的WEB-INF的lib目录下。solr也为我们定制了别的handler,比如DisMaxRequestHandler,LukeRequestHandler,MoreLikeThisHandler
和SpellCheckerRequestHandler等等。大家可以自己看看源码,知道他们分别做什么。都在org.apache.solr.handler内。
Search Component
search component的意义远比handler重要的多。solr已经在solrconfig.xml给我们定制了几个默认的component
<searchComponent name="query" class="solr.QueryComponent" /> <searchComponent name="facet" class="solr.FacetComponent" /> <searchComponent name="mlt" class="solr.MoreLikeThisComponent" /> <searchComponent name="highlight" class="solr.HighlightComponent" /> <searchComponent name="stats" class="solr.StatsComponent" /> <searchComponent name="debug" class="solr.DebugComponent" />
一般处理我们查询请求的一定避免不了第一个query component。阅读源码发现,所有这些类都继承SearchComponent。所以我们定制的时候也要继承SearchComponent。
拿QueryComponent举例子说明search component的重要性,最重要的两个函数是
public class QueryComponent extends SearchComponent { public static final String COMPONENT_NAME = "query"; public void prepare(ResponseBuilder rb) throws IOException{} public void process(ResponseBuilder rb) throws IOException {} // ... }
下面截取一段prepare里的代码说明QueryComponent是怎么读取SolrQueryRequest(res)里的内容,并最后把结果写进SolrQueryResponse(rsp)的。
public void process(ResponseBuilder rb) throws IOException { SolrQueryRequest req = rb.req; SolrQueryResponse rsp = rb.rsp; SolrParams params = req.getParams(); if (!params.getBool(COMPONENT_NAME, true)) { return; } SolrIndexSearcher searcher = req.getSearcher(); // ...
DocListAndSet res = new DocListAndSet(); res.docList = new DocSlice(0, docs, luceneIds, null, docs, 0); if (rb.isNeedDocSet()) { // TODO: create a cache for this! List<Query> queries = new ArrayList<Query>(); queries.add(rb.getQuery()); List<Query> filters = rb.getFilters(); if (filters != null) queries.addAll(filters); res.docSet = searcher.getDocSet(queries); } rb.setResults(res); rsp.add("response",rb.getResults().docList);
对同一个request handler,可以按顺序配置多个search component,这些component会在handler类里各自得到自己的任务,把SolrQueryRequest和SolrQueryResponse传承下去,在这个过程中,我们可以加入自己的component,定制我们想要的搜索结果和搜索逻辑
定制search component
我简单把实现代码帖一下,主要还是通过继承基础类,最后配置到solrconfig.xml内。
package myplugin.component; import java.io.IOException; import org.apache.solr.handler.component.ResponseBuilder; import org.apache.solr.handler.component.SearchComponent; public class MySearchComponent extends SearchComponent { String query = null; @Override public void prepare(ResponseBuilder rb) throws IOException { query = rb.req.getParams().get("q", ""); System.out.println("prepare: " + query); } @Override public void process(ResponseBuilder rb) throws IOException { if (query != null) { rb.rsp.add("mytest", "zbf"); // <str name="mytest">zbf</str> //SimpleOrderedMap map = (SimpleOrderedMap) builder.rsp.getValues(); //DocList doclist = (DocList) map.get("response"); // System.out.println("process: " + map.get("response").toString()); // System.out.println("process: " + map.get("mytest").toString()); } } @Override public String getDescription() { return "MySearchComponent"; } @Override public String getSource() { return ""; } @Override public String getSourceId() { return ""; } @Override public String getVersion() { return "0.1"; } }
主要就是在prepare()里获取到SolrQueryRequest里的查询query,在process()里自己处理,并且获取到前一次component处理得到的SolrQueryResponse,里面可能会有已经排好序的查询数据集,你也可以做一些二次处理,简单过滤,重新排序等事情
<requestHandler name="/test" class="myplugin.handler.MySearchHandler"> <lst name="defaults"> <str name="echoParams">explicit</str> <int name="rows">10</int> <str name="df">usergoods_mix</str> </lst> <arr name="components"> <str>query</str> <str>myComponent</str> </arr> </requestHandler> <searchComponent name="myComponent" class="myplugin.component.MySearchComponent"> </searchComponent>
先声明自己的searchComponent,然后放入handler里使用起来,注意配置顺序,因为component是按顺序串接起来的。
定制Filter
最后简单说下Filter,他的作用就是如果你自己定制了Filter,你就可以按自己的方式处理字符串。比如你的查询query里传来的是“field:如何 定制 搜索服务”,如果你直接交给solr的api去做那么"如何"使用的是field字段,但是空格之后的word都会归结到default field里,这是solr包装了lucene的接口之后的结果,可能刚开始在组装自己的查询url的时候会不太适应,所以如果你定制一个自己的filter,就可以解决这样的问题。
定制Filter要继承两个类。其实在配置IKAnalyzer的时候大家可以看到
<fieldType name="text_ik" class="solr.TextField"> <analyzer type="index"> <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="true"/> <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" /> <filter class="solr.LowerCaseFilterFactory"/> </analyzer> <analyzer type="query"> <!-- 同上 --> </analyzer> </fieldType>
在tokenizer处使用一个类,在filter处使用一个Factory类。下面我举solr 3.1 cookbook上的例子说明一下。先是自己的filter类,
package pl.solr; import java.io.IOException; import org.apache.lucene.analysis.TokenFilter; import org.apache.lucene.analysis.TokenStream; import org.apache.lucene.analysis.tokenattributes.TermAttribute; public class ExampleFilter extends TokenFilter { private final TermAttribute termAttr = (TermAttribute) addAttribute(TermAttribute.class); public ExampleFilter(TokenStream stream) { super(stream); } @Override public boolean incrementToken() throws IOException { if (input.incrementToken()) { String term = termAttr.term(); if (term.length() <= 1) { return true; } StringBuffer buffer = new StringBuffer(); buffer.append(term.charAt(1)).append(term.charAt(0)). append(term.substring(2)); termAttr.setTermBuffer(buffer.toString()); termAttr.setTermLength(buffer.length()); return true; } return false; } }
然后是工厂类,
package pl.solr; import org.apache.lucene.analysis.TokenStream; import org.apache.solr.analysis.BaseTokenFilterFactory; public class ExampleFilterFactory extends BaseTokenFilterFactory { @Override public TokenStream create(TokenStream stream) { return new ExampleFilter(stream); } }
最后是配置文件:
<fieldtype name="exampleType" stored="true" indexed="true" class="solr.TextField" > <analyzer> <tokenizer class="solr.WhitespaceTokenizerFactory" /> <filter class="pl.solr.ExampleFilterFactory" /> </analyzer> </fieldtype>
总结
solr是一个高可扩展的东西,你要实现自己的搜索服务,就继承solr的基本类,增加自己的扩展类到solr的配置文件里,可以取代solr的默认处理类,也可以和solr的类共同处理。所以以上说的request handler,search component以及filter给我们实现了很好的扩展方式,用起来比较像SOA的架构,像OSGi里的各部分组件。
摘自互联网
相关推荐
Redhat6.x/Centos LVM磁盘空间划分不合理、重新划分 / 和 /home
1.文本搜索器能够搜索出其内容符合条件的纯文本文件,其条件支持逻辑表达式的“与”和“或”。例如:A|(B&C),代表文本中含有A或者文本中含有B且含有C(B和C不一定连续,并且与顺序无关)的文档。只要表达式结构是...
主要用于wmi方式获取c盘序列号,多用于生成硬件识别码,wmi可以获取很多设备信息,可以扩展到其他设备。但是wmi速度慢,而且有一定的局限性,有些环境获取不了,比如虚拟机。另一种更底层的方式是使用...
统提供服务的基础,从资源的角度决定了整个系统的成败。鉴于此,介绍搜索引擎系统 的基本工作原理,分析网页抓取模块的工作流程,研究开源网络蜘蛛Heritrix 的几个关 键组件,在充分了解Heritrix 构架的基础上扩展...
您的扩展程序不必实现搜索逻辑或任何用户界面。 您只需要做两件事: 将搜索数据上传到Devbook的搜索引擎中,并保持最新。 在Devbook应用中对用户事件做出React。 要将扩展程序的搜索数据上传到Devbook的搜索引擎,...
千山导航搜索框脚本js插件是由作者duke分享的一个浏览器扩展插件。通过本脚本,为千山导航添加一个搜索框,支持谷歌搜索。 什么是脚本? 脚本是批处理文件的延伸,是一种纯文本保存的程序,一般来说的计算机脚本...
基于搜索服务进行爬取,即根据键入关键字,程序自动从各大APP商店进行对应关键字的APP信息爬取,可调整爬取页数 基于继承的模式进行代码扩展,可以从请求部分,解析部分,下载部分进行代码的继承与多态 支持APP 360...
百度搜索结果关键词屏蔽脚本js插件是由作者dongshan hu分享的一个浏览器扩展插件。通过本脚本,屏蔽烦人的推荐和关键词、以及一些烦人的明星。 什么是脚本? 脚本是批处理文件的延伸,是一种纯文本保存的程序,...
针对单个网站构建本体库垂直搜索引擎的过程中,叙词及其间逻辑关系等收集整理所耗人力成本高,导致该技术框架虽成熟,而大多网站搜索功能仍以字符匹配为主,缺乏分词、查询扩展及结果的相关度排序,很难准确命中相关...
针对现有的无线射频识别(RFID)安全认证协议存在安全缺陷、标签成本较高以及后台数据库需要进行大量的计算来搜索匹配符合要求的标签信息来进行认证等问题,提出了一种基于Rabin算法和交叉位运算的可扩展RFID双向...
清爽娱乐网系统可应用于图片、文字、视频、音频类型的网站建设,承载数据量大,承载访问量大,安全性高,功能和模板可通过插件形式扩展。 1、自动化程度高: 自动...优化文章未设置发布日期时自动获取当前时间的逻辑
该毕业设计是关于校园二手商品交易系统的开发背景、需求分析、软硬件环境、总体设计、详细设计、代码设计以及后期的测试与维护问题。...系统开发采用了面向对象的思想,具有良好的扩展性和可维护性。
有用的书签由于Google Chrome的书签搜索功能太差,因此它是Google Chrome扩展程序,其实现是希望将其作为数据库进行处理,需要搜索功能并希望对其进行标记。如何使用安装后,按钮将出现在页面的左上角,而“添加到...
基于Python实现的迷宫搜索游戏源码+项目详细说明(课程作业) 该项目不过是一个平平无奇的小作业,基于python3.8开发,目前提供两种迷宫生成算法与三种迷宫求解算法,希望对大家的学习有所帮助。 这是python3.8,同时...
该小程序源码项目是个人高分毕业设计项目源码,已获导师指导认可通过,都经过严格调试,确保可以运行!...同时,采用SSM框架构建的后端服务保证了系统的稳定性和可扩展性,为用户提供了安全可靠的服务交易环境。
一些建议: 指导开发扩展的学习过程的教程和文档按逻辑从上而下的顺序排列。 从顶部开始,并在向下移动时深入研究详细信息。 页面是一个很棒的资源,它提供了许多有效的扩展示例。 主页列表很长,因此最好选择一些...
2.5 扩展布尔检索技术* 2.5.1截词检索 2.5.2邻接检索 2.5.3字段检索 2.6 世界著名检索系统介绍 2.7 传统信息检索的性质与局限* 2.7.1传统信息检索的若干假定 2.7.2传统信息检索的评价标准 2.7.3传统布尔检索的局限 ...
支持邮件地址批量整理,去除过滤重复或无效的邮件地址 软件架构:三层结构(表现层+商业逻辑层+数据处理层) 开发语言:ASP.NET + C# 数 据 库:SQL2000/Access2000 程序类别:WEB应用程序 该版特点...
我选择了一种基于服务的架构来实现灵活性、可扩展性和逻辑的完全解耦。 这种架构将有助于快速开发新功能,并使系统能够根据问题与不同的编程语言很好地协同工作。 这种架构还可以快速进行更改并将更改推送到生产中...