`

Solr简介

    博客分类:
  • solr
阅读更多

导言

说起Apache Lucene,可以说无人不知,无人不晓,但是说道Apache Solr,恐怕知道的不多。看看Apache Solr的说明:

Solr是一个基于Lucene java库的企业级搜索服务器,包含XML/HTTP,JSON API, 高亮查询结果,faceted search(不知道该如何翻译,片段式搜索),缓存,复制还有一个WEB管理界面。Solr运行在Servlet容器中。所以Solr和Lucene的本质区别有以下三点:搜索服务器,企业级和管理。Lucene本质上是搜索库,不是独立的应用程序,而Solr是。Lucene专注于搜索底层的建设,而Solr专注于企业应用。Lucene不负责支撑搜索服务所必须的管理,而Solr负责。所以说,一句话概括Solr: Solr是Lucene面向企业搜索应用的扩展。

在本篇文章中,我们先看看Solr向我们承诺了什么,或者说Solr宣称的特性们。


无废话Solr

Solr是一个拥有象WebService一样接口的独立运行的搜索服务器。你将能够通过HTTP协议以XML格式将文档放入搜索服务器(这个过程叫做索引),你能够通过HTTP协议的GET来查询搜索服务器并且得到XML格式的结果。Solr的特性包括:
  • 高级的全文搜索功能
  • 专为高通量的网络流量进行的优化
  • 基于开放接口(XML和HTTP)的标准
  • 综合的HTML管理界面
  • 可伸缩性-能够有效地复制到另外一个Solr搜索服务器
  • 使用XML配置达到灵活性和适配性
  • 可扩展的插件体系

Solr使用Lucene并且扩展了它!

  • 一个真正的拥有动态域(Dynamic Field)和唯一键(Unique Key)的数据模式(Data Schema)
  • 对Lucene查询语言的强大扩展!
  • 支持对结果进行动态的分组和过滤
  • 高级的,可配置的文本分析
  • 高度可配置和可扩展的缓存机制
  • 性能优化
  • 支持通过XML进行外部配置
  • 拥有一个管理界面
  • 可监控的日志
  • 支持高速增量式更新(Fast incremental Updates)和快照发布(Snapshot Distribution)

Schema(模式)

  • 定义域类型和文档的域
  • 能够驱动智能处理
  • 声明式的Lucene分析器规范
  • 动态域能够随时增加域
  • 拷贝域功能允许对一个域进行多种方式的索引,或者将多个域联合成一个可搜索的域
  • 显式类型能够减少对域类型的猜测
  • 能够使用外部的基于文件的终止词列表,同义词列表和保护词列表的配置

查询

  • 拥有可配置响应格式(XML/XSLT,JSON,Python,Ruby)的HTTP接口
  • 高亮的上下文搜索结果
  • 基于域值和显式查询的片段式搜索(Faceted Search)
  • 对查询语言增加了排序规范
  • 常量的打分范围(Constant scoring range)和前缀式查询-没有idf,coord,或者lengthNorm因子,对查询匹配的词没有数量限制
  • 函数查询(Function Query)-通过关于一个域的数值或顺序的函数对打分进行影响
  • 性能优化

核心

  • 可插拔的查询句柄(Query Handler)和可扩展的XML数据格式
  • 使用唯一键的域能够增强文档唯一性
  • 能够高效地进行批量更新和删除
  • 用户可配置的文档索引变化触发器(命令)
  • 并发控制的搜索器
  • 能够正确处理数字类型,从而能够进行排序和范围搜索
  • 能够控制缺失排序域的文档
  • 支持搜索结果的动态分组

缓存

  • 可配置的查询结果,过滤器,和文档缓存实例
  • 可插拔的缓存实现
  • 后台缓存热启:当一个新的搜索器被打开时,可配置的搜索将它热启,避免第一个结果慢下来,当热启时,当前搜索器处理目前的请求(???)。
  • 后台自动热启:当前搜索器缓存中最常访问的项目在新的搜索器中再次生成,能够在索引器和搜索器变化的时候高速缓存常查询的结果
  • 快速和小的过滤器实现
  • 支持自动热启的用户级别的缓存

复制

  • 能够将使用rsync传输时改变的索引部分有效的发布
  • 使用拉策略(Pull Strategy)来简化增加搜索器
  • 可配置的发布间隔能够允许对时间线和缓存使用进行权衡选择

管理接口

  • 能够对缓存使用,更新和查询进行综合统计
  • 文本分析调试器,能够显示每个分析器每个阶段的结果
  • 基于WEB的查询和调试输出:解析查询输出,Lucene的explain方法细节,能够解释为何某个文档打分低,被排除在结果中等等

本文是Apache Solr介绍的姊妹篇,我将逐一分析Apache Solr的各个包,力图详细地分析Solr的设计和架构。Apache Solr由12个包组成,如下:
  1. org.apache.solr.analysis
  2. org.apache.solr.core
  3. org.apache.solr.request
  4. org.apache.solr.schema
  5. org.apache.solr.search
  6. org.apache.solr.search.function
  7. org.apache.solr.servlet
  8. org.apache.solr.tst
  9. org.apache.solr.update
  10. org.apache.solr.util
  11. org.apache.solr.util.test
  12. org.apache.solr.util.xlst
Apache Solr尚处于发展期,目前版本才是1.1.0。文档的注释非常少。我们先从使用者的角度出发,最先看到的当然是servlet,因为Solr本身是个独立的网络应用程序,需要在Servlet容器中运行来提供服务,所以servlet是用户接触的最外层。

我们看看org.apache.solr.servlet包。这个包很简单,只有两个类:SolrServlet和SolrUpdateServlet.我们很容易从类名中猜出这两个类的用途。

SolrServlet类继承HttpServlet类,只有四个方法:
  • init()
  • destroy()
  • doGet()
  • doPost()
SolrServlet类中除了普通的Java类对象(包括Servlet相关的)外,有四个Solr本身的类,还有一个Solr本身的异常。其中两个类和一个异常属于org.apache.solr.core包,两个类属于org.apache.solr.request包。属于core包的有:
  1. Config:
  2. SolrCore:
属于request包的有:
  1. SolrQueryResponse:
  2. QueryResponseWriter:
分析一下这个SolrServlet类。
   首先servlet会调用init()方法进行初始化:通过Context查找java:comp/env/solr/home来确定Solr的主目录(home),接着调用Config.setInstanceDir(home)方法设置这个实例的目录。然后通过SolrCore.getSolrCore()来获得一个SolrCore实例。
   destroy()方法将会在Servlet对象销毁时调用,仅仅调用core.close()关闭SolrCore实例。
   当用户请求进来时doPost()简单地将任务交给doGet()完成,主要的任务由doGet()完成。
分析一下doGet()方法:
  1. 使用SolrCore和doGet()参数request生成一个SolrServletRequest对象(注意:这个SolrServletRequest类不是公开类,位于org.apache.solr.servlet包中,继承了SolrQueryRequestBase类,仅仅接受SolrCore和HttpServletRequest对象作为参数)
  2. 然后SolrCore执行execute()方法(参数为SolrServletRequest和SolrQueryResponse)
由此可见,真正的处理核心是SolrCore的execute方法。下一篇文章我们继续分析。

分享到:
评论

相关推荐

    Nutch搜索引擎·Solr简介及安装(第2期)

    1.1 Solr 简介 1.1.1 Solr 的特性 1.1.2 Solr 的目录结构 1.1.3 Solr 与Lucene 关系 1.2 Solr 安装 1.2.1 环境介绍 1.2.2 安装Solr 1.2.3 结合Nutch

    solr学习文档简介1

    solr简介

    solr概念介绍

    solr概念介绍ppt,用于公司内部培训

    高效的企业级搜索引擎Solr

    高效的企业级搜索引擎Solr简介,快速学习Solr

    Solr reRank简介

    Solr reRank简介,用于描述solr二次排序的规则,Solr reRank简介,用于描述solr二次排序的规则

    Lucene&solr.zip

    Lucene&solr简介及使用,首先介绍了lucene,之后介绍了solr,中间有各种相关插件的应用.

    积分商城基于Solr搜索引擎PPT

    1. 积分商城现状 2. 搜索领域知识、原理、应用 3. Solr简介、部署及中文分词 4. SolrJ项目中应用 5. Solr分布式应用 6. 大型网站架构分析

    solr_rce:通过Velocity模板的Apache Solr RCE

    0x01 solr简介 Solr是Apache Lucene项目的开源企业搜索平台。其主要功能包括全文检索,命中指示,分面搜索,动态聚类,数据库集成,以及富文本的处理。2019年10月30日,国外安全研究人员放出了一个关于solr模板注入...

    hive-solr:使用Hive读写solr

    (一)Hive+Solr简介 Hive作为Hadoop生态系统里面离线的数据仓库,可以非常方便的使用SQL的方式来离线分析海量的历史数据,并根据分析的结果,来干一些其他的事情,如报表统计查询等。 Solr作为高性能的搜索服务器,...

    Java微服务架构l零从基础到精通高清视频教程全套 163课

    148 Solr 全文搜索引擎-Solr 简介 149 Solr 全文搜索引擎-Solr 服务器部署 150 Solr 全文搜索引擎-Solr 配置字段域 151 Solr 全文搜索引擎-Solr 维护功能 152 Solr 全文搜索引擎-Solr 查询与高亮显示 153 Solr 全文...

    Java微服务架构163课

    148 Solr 全文搜索引擎-Solr 简介 149 Solr 全文搜索引擎-Solr 服务器部署 150 Solr 全文搜索引擎-Solr 配置字段域 151 Solr 全文搜索引擎-Solr 维护功能 152 Solr 全文搜索引擎-Solr 查询与高亮显示 153 Solr ...

    相关性搜索利用Solr与Elasticsearch创建智能应用

    资源名称:相关性搜索 利用Solr与Elasticsearch创建智能应用内容简介:《相关性搜索:利用Solr与Elasticsearch创建智能应用》揭开了相关性搜索的神秘面纱,告诉大家如何将 Elasticsearch与 Solr这样的搜索引擎作为可...

    Lucene全文检索框架+Solr+ElasticSearch搜索引擎(Java高级必备.ES)

    1、Solr简介 2、Solr下载安装以及目录结构介绍 3、Solr应用部署至Tomcat服务器 4、Solr后台管理界面介绍 5、通过managed-schema配置Field以及中文分词器 6、将数据库中的数据导入至Solr索引库 7、通过Solr后台...

    百度云盘 pdf《大数据架构和算法实现之路:电商系统的技术实战》百度云盘-带标签目录

    4.5.2 Solr 简介 ......………………… 113 4.5.3 Elasticsearch 简介…………… · 120 4.6 案例实践……………… 123 4.6.1 实验环境设置.. ... ....………… 123 4.6.2 基于 Solr 的实现 …………… 123 4.6.3 ...

    Nutch搜索引擎(1-5期)

    Nutch搜索引擎·Nutch简介及安装(第1期) Nutch搜索引擎·Solr简介及安装(第2期) Nutch搜索引擎·Nutch简单应用(第3期) Nutch搜索引擎·Eclipse开发配置(第4期) Nutch搜索引擎·Nutch浅入分析(第5期)

    solr 搜索引擎总结及相关安装教程

    有关solr搜索引擎的简介以及相关的安装教程,有助于新手的介入。。

    Solr培训文档

    开源搜索引擎Solr学习 搜索引擎发展大事记 搜索引擎分类--目录式搜索引擎 ...Lucene简介 Lucene与Solr的关系 Solr的特点与优势 Solr 客户端 Solr 体系结构图 查询HTTP接口参数 分库机制 缓存机制 庖丁解牛分词器

    ik-analyzer-solr:用于solr 7.x-8.x的ik-analyzer

    简介 适应最新版本的solr 7&8; 扩展IK首词库: 分词工具 词库中词的数量 最后更新时间 我知道 27.5万 2012年 毫米段 15.7万 2017年 字 64.2万 2014年 界坝 58.4万 2012年 ces 16.6万 2018年 搜词库 115.2万 2020...

    solr_exploit:Apache Solr远程代码执行突破(CVE-2019-0193)漏洞利用

    简介 理论上可以使用各种不同类型的数据源来构造 Exploit1使用数据源的类型为URLDataSource Exploit2使用的数据源类型为ContentStreamDataSource 检测突破-Exploit1 Exploit1使用数据源的类型为URLDataSource 优点...

    Lucene4.6+Solr4.6实战开发垂直搜索引擎视频课程

    47.struts 2.3.16简介 48.struts 2.3.16整合spring 4.0.1 49.spring 4.0.1整合hibernate 4.3.1 50.搜索引擎实战(1) 51.搜索引擎实战(2) 52.搜索引擎实战(3) 53.搜索引擎实战(4) 54.搜索引擎实战(5) 55.搜索引擎实战...

Global site tag (gtag.js) - Google Analytics